工具

理解灾难恢复术语 – RTO、RPO、故障切换、BCP等等

By姚伟斌 November 8, 2023September 12, 2023

灾难恢复计划是组织在不寻常事件发生之前必须具备的首要措施。

在IT行业中，首先需要创建一个正式的文件，包含处理灾难及其后果的计划、行动和程序。

灾难是突然发生且没有事先通知的事件，可能是不同类型的。当灾难发生时，个人和组织面临各种困难，包括财务问题和用户体验问题。

如果发生一个attack happens，你必须准备好最小化其影响并更快地恢复运营。这就是制定一个实际的disaster recovery计划将帮助您保持或预防灾难。您还可以减少用户体验、成本和停机时间方面的后果。

此外，您必须使您的计划、人员、策略、设备和系统准备就绪，以使一切恢复正常。但是为此，您必须深入了解灾难恢复。

在本文中，我将详细讨论这个问题，并介绍关键的灾难恢复术语，以便您能够在这种逆境中勇敢地反击并变得更加强大。

让我们开始吧！

什么是灾难？

灾难是一个无法预料的事件，可能发生在任何地方，包括IT行业。它可能是自然发生的，也可能是人为造成的，可能干扰公司的运营并扰乱基础设施。结果，组织及其客户、供应商、员工和合作伙伴受到影响。它对组织在财务、行业声誉、客户信任和security perimeter方面施加压力。

因此，您必须提前准备好克服这种情况。为此，您需要立即恢复所有操作和数据。简单来说，您必须使您的组织能够在最短的时间间隔内为您的客户恢复一切。

灾难有很多种类，例如网络攻击、破坏、恐怖袭击、勒索软件或物理威胁、飓风、地震、火灾、洪水、工业事故、停电等等。

什么是灾难恢复？

灾难恢复是在遭受灾难后恢复正常运营的过程。它涉及恢复对硬件、软件、设备、连接、网络、电源和数据的访问。您必须在灾难发生之前制定一套规则和程序的文件化过程，为您的组织做好准备。

然而，如果您的组织设施被摧毁，您必须通过处理通信、运输、采购、工作地点等事项来延长一些活动。

为什么灾难恢复计划很重要？

为了从自然或人为造成的灾难中恢复，IT行业每个人都需要制定一份完美的计划。确保您在正确的位置拥有合适的员工和工具，以顺利执行计划。

让我们更深入地了解为什么灾难恢复至关重要。

限制损失

灾难是不可预测的。没有人知道它何时来临何时离去。但是，您可以提前做好准备，以控制对基础设施造成的损害。

例如，在易受洪水影响的地区，您可以将重要文件和设备放置在顶楼以避免损坏。

同样，在网络攻击可以破坏数据或窃取数据之前，备份您的重要数据。

恢复服务

如果您制定了一个恢复灾难的坚实计划，恢复所有服务到正常状态是快速而容易的。这意味着在短时间内，您可以恢复几乎所有重要的资产和服务。

最小化中断

您无法预测明天或下一步操作会发生什么。但是，有了完善的恢复计划，您就不必太担心后果。您的基础设施可以在最小中断的情况下继续运营。

培训和准备

IT基础设施包括许多在同一屋檐下工作的员工。所有人都必须了解恢复措施，以便在紧急情况下立即采取必要和预期的行动。

适当的准备还可以降低与您的组织相关的所有人的压力水平。此外，您可以培训员工在发生意外事件时采取必要的行动。

灾难恢复术语

让我们从术语开始，以更近距离地了解灾难恢复。

RTO

恢复时间目标（RTO）是一家组织根据业务性质设置的容忍灾难时间的长短，而不会影响财务增长。

在设置RTO时，公司必须检查可能以多种方式影响组织的停机时间。它用于研究在灾难发生后继续业务运营的可行策略。当客户在应用程序中遇到任何干扰时，他们会询问应用程序恢复所需的时间。答案是每个组织的RTO。

例如：假设您是像PayPal或Pioneer这样的在线交易公司，面临不可预测的事件。在这种情况下，您的RTO将足够快以恢复运营。

换句话说，公司将其RTO设置为一小时或两小时，以避免以财务或数据形式的后果。

RPO

恢复点目标（RPO）是IT基础设施根据时间和信息量处理数据丢失的能力。

有些公司可以接受从备份中恢复所有信息需要大约24小时，但有时可能会造成灾难。根据RPO要求设置您的基础设施至关重要。这包括增强连接，将备用数据库添加到架构中等。

故障切换

想象一下，您正在进行长途旅行。突然，由于某些意外原因，您的轮胎爆胎了。感谢您车上备用轮胎和更换轮胎的工具。

故障切换的工作方式与此类似。

这意味着您需要在灾难期间备用连接。简而言之，故障切换意味着在灾难发生时，您需要具备可用于将信息切换到恢复系统的网络和系统。

故障切换确保您的所有服务都可以正常运行，即使存在基础设施或硬件故障。这样，您就可以防止组织丢失数据和收入，并避免给终端用户带来服务中断。

您可以手动设置故障切换，也可以允许它自动运行以将数据移动到备用服务器。

恢复

IT恢复是一种简单的操作，即在处理灾难后，原始生产返回到其原始位置（系统）。在攻击期间，公司执行故障切换操作，将所有工作负载转移到虚拟机副本或备份系统中。

然而，你不能仅仅跳过返回的下一个步骤。当你恢复一切并重新开始行动时，你需要将所有工作负载转移到它们原来的虚拟机或系统上。将工作负载返回到原始工作场所或系统的这个整体过程被称为故障回退。这意味着你在攻击之后“回来”。

故障回退也用于企业的计划维护。的确，故障回退总是发生在故障切换之后。换句话说，故障切换是第一步，而故障回退是恢复重要数据的第二步。它可以在云与云之间、本地到本地、本地到云之间进行设置，或者其中任意组合。

灾难恢复

灾难恢复（DR）是在规定时间内恢复资产的预先构建计划过程。

灾难恢复使组织能够快速响应并从意外事件中恢复每项服务。它还提供正式的文件，其中包含在出现意外事件时立即采取行动的指示。

业务连续计划

业务连续计划（BCP）是最受认可的灾难恢复计划之一，它允许IT基础设施制定策略来处理服务器、移动设备、个人计算机和网络的IT中断。

BCP与灾难恢复略有不同，它帮助组织制定计划以恢复生产力，以满足关键业务需求。

在这里，公司创建了一个恢复系统，以克服潜在的威胁，如黑客攻击或自然灾害。它旨在保护资产，并确保所有服务在遭到打击后能够迅速恢复正常运行。

业务连续管理

业务连续管理（BCM）是一种特殊设计的风险管理过程，旨在防范对业务流程的威胁。BCM是BCP的下一步，它验证恢复计划，以确保企业中的每个人立即响应计划并恢复所有重要内容。

BCM作为管理框架，能够在面临外部和/或内部威胁时识别基础设施风险。它还通过定期测试来确保框架有效运行，以提高可预测性、降低风险，并使计划与未来的攻击保持一致。

业务影响分析

业务影响分析（BIA）是通过识别关键系统、操作和流程来分析企业的生存率的过程。它告诉你由于业务中断而对组织产生的灾难影响。

BIA在实际发生攻击之前预测后果，以收集能帮助制定强大恢复策略的关键信息。它还识别由于故障而产生的成本，如设备更换成本、现金流、利润、工资等。

创建BIA报告时，必须考虑企业中涉及的关键流程、不同领域的中断影响、可接受的持续时间、可容忍的领域、财务成本等。

呼叫树

呼叫树是在紧急情况下创建一个员工列表并进行联系的过程。它是一个类似树状结构的过程。

例如，在灾难发生时，一个人会联系一小组成员传达紧急消息，这些员工会分别联系每个小组。这样，所有员工都会在威胁下得到通知，并开始他们分配的工作，及时恢复每个功能和流程。制作列表很简单，但在实时情况下实施会引起混乱。

你必须定期进行呼叫活动，以准备每个紧急员工保持警惕。定期测试也可以帮助识别变更或丢失的联系方式，这可能严重影响性能。

呼叫树包含在紧急情况下用于传递指示的信息。它也可以手动完成，但人们使用自动化来加快进程并在当今数字化世界通知成员。

指挥中心/控制中心

它是一个特别准备的虚拟或物理设施，用于在危机期间提供命令或控制恢复计划。它与团队进行通信，管理灾难期间的系统和功能。

传统上，基础设施依赖于指挥中心在没有任何正确方法的情况下处理危机。如今，组织已经完美设计了他们的控制中心，这使得对紧急情况的立即响应成为核心竞争力。

一旦它感知到灾难，指挥中心迅速转向恢复阶段。此外，它在服务、新闻发布、交付等情况下还充当报告点。它还在此类情况下将来自多个学科的人员聚集在一起。

事件响应

Incident response是一种用于应对攻击的响应类型。它借助正确的程序和人员，在正确的时间内有效地保护网络和数据安全。

如果组织在意外事件发生之前制定了事件计划，它可以实时保护其数据免受威胁。事件响应专家始终对问题保持警惕，并在事件发生时自然地采取行动。他们采取一定措施来避免安全漏洞，确保在灾难恢复过程中不会遗漏任何一步。

首先，您必须确定关键数据并将其存储在云端或任何远程位置以确保安全。通过定期更新事件响应计划来解决当前基础设施需求和不断发展的网络威胁。

备份

Backup solutions帮助IT基础设施在正确的时间内维护数据的副本并将其安全存储。如果您面临数据库损坏、意外删除所有数据或任何其他问题，您必须准备好备份以立即恢复数据并继续提供服务。

它涉及复制文件并将其存储在安全位置，以便在异常事件之后轻松访问所有数据。如果一个站点发生故障，您应该在多个位置备份数据，以确保即使一个站点失败，您也能够恢复数据。

弹性

抵抗或经受住灾难而不损害服务和系统的社区、州、组织和个人的能力被称为灾难弹性。

一个组织必须准备承受大量压力，以应对各种危险。确保您具备通过更好的规划减少损失的能力，而不是等待别人来解救您。这将帮助您适应灾难并高效恢复您的IT基础设施。

在这里，主要目标是在必要时保护和恢复基本功能和结构。要成为一个具有灾害弹性的组织，您必须提前做好准备，并具备预测风险、适应变化、共享和学习、整合各个部门以及管理风险水平的能力。

SLA

服务水平协议（SLA）是一项灾难计划，其中您向最终用户说明在紧急情况下恢复服务可能需要的时间。

SLA确保客户的数据安全，不会受到损害或与第三方共享。它是与最终用户问题的唯一联系点。

每个IT基础设施都向其客户提供有关SLA的保证。因此，请确保您事先与最终用户进行沟通。

SPOF

单点故障（SPOF）是一个设备、个人、资源或应用程序，与许多其他系统或应用程序连接。

如果某个设备或资源出现故障，与系统连接的所有关键部件都会受到影响。因此，整个过程和业务操作都会受到影响。

因此，您必须有应对此类问题的策略，以保持组织的运转。您可以做的第一件事是确定可能产生更大影响的那个单一设备或系统。接下来，进行业务影响分析，并获得风险评估评分，了解即将发生的情况。在事件发生之前，深入挖掘并找到它们。

一旦列出所有的单点故障（SPOF），按照恢复过程对它们进行分类。将每个SPOF分为三个不同的类别：

可以轻松直接恢复，所需时间和预算较少。
恢复可能会困难，但可以开发可靠的流程进行恢复。
一旦出现故障，无法恢复。

您可以根据类别做出相应的行动。

系统恢复

在硬件故障发生时，您必须运行恢复过程将特定系统或服务器恢复到原始状态。为了恢复整个系统，您需要准备好恢复要求、备份、固件兼容性和硬件兼容性。

系统恢复是一个将机器重置为先前设置或新购买时的相同状态的过程。这样做将清除由于在系统中安装的软件或应用程序导致的所有病毒感染。

该过程包括IT基础设施的恢复计划，该计划设定和执行某些程序，以确保数据在人为或自然干扰发生时仍然可用。

系统还原

系统还原是一种恢复工具，它允许您将特定文件和信息恢复到其先前状态的正确时刻。

使用系统还原，您可以将注册表键、安装的程序、驱动程序、系统文件等恢复到其先前版本。这在许多灾难中起到了拯救者的作用。

测试计划

它是指存储有关测试策略、估计、资源、截止日期、目标和时间表的文档。它作为一个蓝图运行测试，以确保硬件和软件的安全性。

这包括根据计划的程序和步骤进行各种测试，以管理灾后影响。定期进行测试，以便在行动过程中不会漏掉任何一步。这样，IT基础设施就可以了解缺点，并为战斗做好准备。

结论

没有人知道灾难何时发生。因此，每个企业都需要合适的安全措施。灾难恢复术语将帮助您了解如何应对攻击和灾难。它还将帮助您提前做好准备，以便在意外事件发生时能够迅速应对。您将能够创建一种有效的实时灾难恢复策略，节省数百万美元并保持客户的信任。

姚伟斌

程序猿

我是姚伟斌，也被称为文景。我的专业领域涵盖了开放源代码的深度探索、网络编程和网络建站。我热衷于分享我的编程和建站实践经验，尤其擅长于Nginx和Proxy服务器的管理。此外，我还对Python和NodeJS这两种编程语言有着深刻的理解和独到的见解。

最近，我致力于爬虫技术的研究，探索如何通过高效的数据抓取为项目增添价值。我的目标是通过持续的学习和创新，为开放源代码社区贡献我的力量，并帮助那些对网络编程和网站建设感兴趣的人士。

工具

如何扫描和清除Android和iOS手机中的恶意软件

By姚伟斌 November 25, 2023September 12, 2023

如果你曾经看过《行尸走肉系列》或者你看过医疗恐怖故事《我的内心怪物》，那么你可能会了解恶意软件。没关系，你说？频繁崩溃、错误消息、病毒、蠕虫！是的，它们就是怪物，它们对你的系统——电脑和手机——所做的事情与寄生虫有些相似。可怕的东西！这是信息时代，你的数据是黑客的金矿，他们总是在寻找机会窃取它。此外，手机是人们使用最多的设备。几乎每个人都用它进行购物、银行业务、游戏、约会等等，除了打电话。它包含大量的数据，包括个人和工作生活的文件。随着手机的普及，网络安全问题激增，其中包括各种网络攻击，如恶意软件、病毒、间谍软件、勒索软件、木马等等。你不能够将数据丢给潜在的黑客，他们可能会利用它或用它来破坏你的在线形象。这就是为什么你需要高效的软件来保护你的手机和数据。它不仅可以防止这些攻击进入你的手机，还可以让你知道它的状态，是否安全。这些软件类型还具有许多其他安全功能和功能，如警报、病毒扫描等，这将使你能够保护设备时走在前面。什么是恶意软件？如果这两个词不在恶意软件的定义中，那么它的定义就不完整：故意的，以及破坏性的恶意软件是一个包罗万象的术语，用于指代任何有意构建的破坏性/寄生性软件，旨在对你的服务器、计算机、网络或手机造成破坏。不同的名字称之，但意图是相同的。有勒索软件，它实际上是一种用来劫持你的信息并索要赎金的软件。威胁要发布一些数据和秘密，受害者别无选择，只能支付“赎金”。还有间谍软件，像詹姆斯·邦德那样，恶意软件，旨在从受害者那里收集和窃取信息。其他的有：…

工具

人工智能背后的硬件简介

By姚伟斌 November 24, 2023September 12, 2023

创新的ai硬件有潜力带来非凡的能力，并彻底改变人们与技术以及周围世界的互动方式。你曾经想过一个比你的大拇指还要小的微芯片如何模拟人类的思维过程吗？令人惊叹的是，人工智能（ai）背后的硬件是使其成为可能的动力源。当您探索ai硬件世界时，您将发现gpu、tpu和神经处理单元如何强大地塑造了人工智能的景观，它们的重要作用不可低估。在本文中，我将与您讨论ai硬件的复杂性、其在推动现代创新中的关键作用、使用的技术、优缺点、使用情况和其他细节。让我们开始吧！什么是ai硬件？ ai硬件由驱动人工智能技术的特殊部件组成。这些部件被创建用于处理识别模式、做出决策和分析数据所需的复杂计算。想象它们就像是支撑ai大脑功能的有力肌肉。 ai硬件的核心在于处理器，例如图形处理单元（gpu）、张量处理单元（tpu）和神经处理单元（npu）。 gpu：最初设计用于渲染图形。由于gpu在并行处理方面表现出色，因此非常适合用于训练ai模型。 tpu：由google专门用于加速ai计算，tpu在深度学习任务中表现出色。 npu：这些处理单元可以处理涉及神经网络的任务，并在本质上模拟人脑中的神经连接。上述所有硬件组件共同处理和分析大量数据，使得ai系统能够学习、适应和进行预测。 ai硬件技术让我们探索这个技术交响乐中的关键角色。…

工具

开始你的自由职业平面设计师生涯，通过这些平台

By姚伟斌 December 19, 2023September 12, 2023

在 covid-19 之前，一切都是完全正常的。但是这种情况极大地影响了工作文化。人们仍然无法完全安全地返回工作岗位。居家办公（wfh）成为所有员工的新常态。公司开始在他们的系统中采用这种新常态。遥远工作并不是这一全球大流行期间唯一兴起的事情。公司甚至开始更多地向市场上的自由职业者和合同工聘请。这一大流行病为市场上众多优质自由职业者带来了大量机会，成为推动自由职业经济蓬勃发展的完美催化剂。自由职业经济的激增在2020年，我们看到市场上自由职业者数量的最大激增。在2020年第二季度，约有4亿人口失业。这是当时数百万人决定将自由职业作为他们传统的9-5工作的可靠替代品。自由职业的热潮增加的一个主要原因是现在有更多的公司正在聘请自由职业者。一份报告显示，据观察发现，在2020年第二季度美国的自由职业工作发布数量增长了41%。这表明如果你有良好的技能，你绝对可以通过全职自由职业者谋生。许多人正在从全职工作转向<a href="https://yaoweibin.cn/自由职业或副业。这种转变背后的另一个原因是人们正在寻求更好的工作与生活的平衡。因此，自由职业正在得到提振，市场上每个角色都有大量的机会。例如，我们将讨论如何作为一名平面设计师开始自己的自由职业生涯。不同平台上有许多自由职业平面设计工作。首先，让我们更多地讨论平面设计师的工作和角色。自由职业平面设计师的工作内容是什么？平面设计师的工作是通过视觉元素（如颜色、符号和图像）传达任何品牌的信息。没有视觉元素（如标志和图像），没有任何企业能够生存下来。这就是为什么平面设计师始终备受需求。一名自由职业平面设计师的一些重要角色包括：…

工具

保护NodeJS应用程序免受在线威胁的9种工具

By姚伟斌 November 21, 2023September 12, 2023

node.js，作为主要的javascript运行环境之一，正在逐渐占领市场份额。当任何技术变得流行时，它们都会面临数百万专业人士的威胁，包括安全专家、攻击者、黑客等。 node.js核心是安全的，但是当您安装第三方包时，配置、安装和部署方式可能需要额外的安全措施来保护web应用免受黑客攻击。据snyk用户调查显示，83%的用户发现其应用程序存在一个或多个漏洞。snyk是一种流行的node.js安全扫描平台。另一项最新研究显示整个npm生态系统中有约14%受到影响。在我之前的一篇文章中，我提到了在node.js应用程序中发现的安全漏洞，很多人都询问如何修复/保护这些漏洞。提高node.js安全性的最佳实践没有任何框架，包括node.js，可以被称为100%安全。因此，您必须遵循以下安全实践以避免风险。定期记录和监控活动以检测漏洞不要阻塞事件循环使用扁平的promise链来避免嵌套层错误为您的生态系统创建强大的身份验证策略管理错误以防止未经授权的攻击在应用程序中使用反跨站请求伪造令牌仅发送必要的信息以防止数据泄漏使用cookie标志正确管理会话控制请求大小以防止拒绝服务攻击…

工具

探索和享受的前十个元宇宙游戏

By姚伟斌 November 20, 2023September 11, 2023

元宇宙游戏提供了传统游戏所缺乏的沉浸式虚拟体验。元宇宙通过提供高质量的体验正在改变游戏行业。根据来自Statista的数据，虚拟现实（VR）市场规模接近120亿美元。而且，预计到2025年，这一市场规模将超过220亿美元。 Epic Games筹集了$2 billion资金来建设和扩展其元宇宙平台。索尼集团和KIRKBI分别提供了10亿美元的投资。令人印象深刻，对吧？元宇宙将在未来几年改变游戏和其他行业。现在，让我们进入元宇宙游戏。什么是元宇宙游戏？元宇宙是一个虚拟世界，您可以使用设备进行沉浸式体验。例如，您可以进入元宇宙，与世界其他地方的朋友一起观看电影。就是这么简单！游戏是元宇宙的另一个主要应用场景，近年来取得了巨大的增长。这要归功于这个虚拟空间的技术进步。元宇宙游戏的概念和技术似乎很复杂。然而，开发人员可以构建项目，为用户提供极致的游戏体验。正如您可能知道的，元宇宙游戏正在发展并处于早期阶段。一旦玩家体验了元宇宙提供的视觉盛宴，就再也无法回到旧的游戏方式。从将玩家限制在屏幕内的传统二维游戏到了令人印象深刻的元宇宙。此外，您可以使用虚拟平台与朋友聚会，玩国际象棋，甚至玩童年游戏，如hide and seek。大流行病和封锁导致了庞大的在线游戏社区的增加。因此，社区成员现在可以相互互动、参与和竞争。此外，这些活动将加强社区和游戏行业。玩元宇宙游戏的要求…

工具

使用混沌工程工具来检查生产可靠性

By姚伟斌 November 25, 2023September 11, 2023

with the system to identify potential weaknesses and improve its resilience. By intentionally injecting failures and chaos into your system, you can uncover vulnerabilities and ensure that your production environment remains stable and robust.

Chaos Engineering tools help you simulate real-world scenarios and test the system’s response to unexpected events. By introducing controlled failures, such as network latency, server crashes, or resource exhaustion, you can observe how your system behaves under stress and identify any weak points.

With Chaos Engineering, you can proactively identify and address potential issues before they impact your users. By continuously testing and improving your system’s resilience, you can build confidence in its ability to withstand failures and deliver a reliable experience to your customers.

Start implementing Chaos Engineering in your organization today and make reliability a priority. By embracing chaos and learning from failures, you can build a more resilient and stable production environment.