理解灾难恢复术语 – RTO、RPO、故障切换、BCP等等
灾难恢复计划是组织在不寻常事件发生之前必须具备的首要措施。
在IT行业中,首先需要创建一个正式的文件,包含处理灾难及其后果的计划、行动和程序。
灾难是突然发生且没有事先通知的事件,可能是不同类型的。当灾难发生时,个人和组织面临各种困难,包括财务问题和用户体验问题。
如果发生一个attack happens,你必须准备好最小化其影响并更快地恢复运营。这就是制定一个实际的disaster recovery计划将帮助您保持或预防灾难。您还可以减少用户体验、成本和停机时间方面的后果。
此外,您必须使您的计划、人员、策略、设备和系统准备就绪,以使一切恢复正常。但是为此,您必须深入了解灾难恢复。
在本文中,我将详细讨论这个问题,并介绍关键的灾难恢复术语,以便您能够在这种逆境中勇敢地反击并变得更加强大。
让我们开始吧!
什么是灾难?
灾难是一个无法预料的事件,可能发生在任何地方,包括IT行业。它可能是自然发生的,也可能是人为造成的,可能干扰公司的运营并扰乱基础设施。结果,组织及其客户、供应商、员工和合作伙伴受到影响。它对组织在财务、行业声誉、客户信任和security perimeter方面施加压力。
因此,您必须提前准备好克服这种情况。为此,您需要立即恢复所有操作和数据。简单来说,您必须使您的组织能够在最短的时间间隔内为您的客户恢复一切。
灾难有很多种类,例如网络攻击、破坏、恐怖袭击、勒索软件或物理威胁、飓风、地震、火灾、洪水、工业事故、停电等等。
什么是灾难恢复?
灾难恢复是在遭受灾难后恢复正常运营的过程。它涉及恢复对硬件、软件、设备、连接、网络、电源和数据的访问。您必须在灾难发生之前制定一套规则和程序的文件化过程,为您的组织做好准备。
然而,如果您的组织设施被摧毁,您必须通过处理通信、运输、采购、工作地点等事项来延长一些活动。
为什么灾难恢复计划很重要?
为了从自然或人为造成的灾难中恢复,IT行业每个人都需要制定一份完美的计划。确保您在正确的位置拥有合适的员工和工具,以顺利执行计划。
让我们更深入地了解为什么灾难恢复至关重要。
限制损失
灾难是不可预测的。没有人知道它何时来临何时离去。但是,您可以提前做好准备,以控制对基础设施造成的损害。
例如,在易受洪水影响的地区,您可以将重要文件和设备放置在顶楼以避免损坏。
同样,在网络攻击可以破坏数据或窃取数据之前,备份您的重要数据。
恢复服务
如果您制定了一个恢复灾难的坚实计划,恢复所有服务到正常状态是快速而容易的。这意味着在短时间内,您可以恢复几乎所有重要的资产和服务。
最小化中断
您无法预测明天或下一步操作会发生什么。但是,有了完善的恢复计划,您就不必太担心后果。您的基础设施可以在最小中断的情况下继续运营。
培训和准备
IT基础设施包括许多在同一屋檐下工作的员工。所有人都必须了解恢复措施,以便在紧急情况下立即采取必要和预期的行动。
适当的准备还可以降低与您的组织相关的所有人的压力水平。此外,您可以培训员工在发生意外事件时采取必要的行动。
灾难恢复术语
让我们从术语开始,以更近距离地了解灾难恢复。
RTO
恢复时间目标(RTO)是一家组织根据业务性质设置的容忍灾难时间的长短,而不会影响财务增长。
在设置RTO时,公司必须检查可能以多种方式影响组织的停机时间。它用于研究在灾难发生后继续业务运营的可行策略。当客户在应用程序中遇到任何干扰时,他们会询问应用程序恢复所需的时间。答案是每个组织的RTO。
例如:假设您是像PayPal或Pioneer这样的在线交易公司,面临不可预测的事件。在这种情况下,您的RTO将足够快以恢复运营。
换句话说,公司将其RTO设置为一小时或两小时,以避免以财务或数据形式的后果。
RPO
恢复点目标(RPO)是IT基础设施根据时间和信息量处理数据丢失的能力。
有些公司可以接受从备份中恢复所有信息需要大约24小时,但有时可能会造成灾难。根据RPO要求设置您的基础设施至关重要。这包括增强连接,将备用数据库添加到架构中等。
故障切换
想象一下,您正在进行长途旅行。突然,由于某些意外原因,您的轮胎爆胎了。感谢您车上备用轮胎和更换轮胎的工具。
故障切换的工作方式与此类似。
这意味着您需要在灾难期间备用连接。简而言之,故障切换意味着在灾难发生时,您需要具备可用于将信息切换到恢复系统的网络和系统。
故障切换确保您的所有服务都可以正常运行,即使存在基础设施或硬件故障。这样,您就可以防止组织丢失数据和收入,并避免给终端用户带来服务中断。
您可以手动设置故障切换,也可以允许它自动运行以将数据移动到备用服务器。
恢复
IT恢复是一种简单的操作,即在处理灾难后,原始生产返回到其原始位置(系统)。在攻击期间,公司执行故障切换操作,将所有工作负载转移到虚拟机副本或备份系统中。
然而,你不能仅仅跳过返回的下一个步骤。当你恢复一切并重新开始行动时,你需要将所有工作负载转移到它们原来的虚拟机或系统上。将工作负载返回到原始工作场所或系统的这个整体过程被称为故障回退。这意味着你在攻击之后“回来”。
故障回退也用于企业的计划维护。的确,故障回退总是发生在故障切换之后。换句话说,故障切换是第一步,而故障回退是恢复重要数据的第二步。它可以在云与云之间、本地到本地、本地到云之间进行设置,或者其中任意组合。
灾难恢复
灾难恢复(DR)是在规定时间内恢复资产的预先构建计划过程。
灾难恢复使组织能够快速响应并从意外事件中恢复每项服务。它还提供正式的文件,其中包含在出现意外事件时立即采取行动的指示。
业务连续计划
业务连续计划(BCP)是最受认可的灾难恢复计划之一,它允许IT基础设施制定策略来处理服务器、移动设备、个人计算机和网络的IT中断。
BCP与灾难恢复略有不同,它帮助组织制定计划以恢复生产力,以满足关键业务需求。
在这里,公司创建了一个恢复系统,以克服潜在的威胁,如黑客攻击或自然灾害。它旨在保护资产,并确保所有服务在遭到打击后能够迅速恢复正常运行。
业务连续管理
业务连续管理(BCM)是一种特殊设计的风险管理过程,旨在防范对业务流程的威胁。BCM是BCP的下一步,它验证恢复计划,以确保企业中的每个人立即响应计划并恢复所有重要内容。
BCM作为管理框架,能够在面临外部和/或内部威胁时识别基础设施风险。它还通过定期测试来确保框架有效运行,以提高可预测性、降低风险,并使计划与未来的攻击保持一致。
业务影响分析
业务影响分析(BIA)是通过识别关键系统、操作和流程来分析企业的生存率的过程。它告诉你由于业务中断而对组织产生的灾难影响。
BIA在实际发生攻击之前预测后果,以收集能帮助制定强大恢复策略的关键信息。它还识别由于故障而产生的成本,如设备更换成本、现金流、利润、工资等。
创建BIA报告时,必须考虑企业中涉及的关键流程、不同领域的中断影响、可接受的持续时间、可容忍的领域、财务成本等。
呼叫树
呼叫树是在紧急情况下创建一个员工列表并进行联系的过程。它是一个类似树状结构的过程。
例如,在灾难发生时,一个人会联系一小组成员传达紧急消息,这些员工会分别联系每个小组。这样,所有员工都会在威胁下得到通知,并开始他们分配的工作,及时恢复每个功能和流程。制作列表很简单,但在实时情况下实施会引起混乱。
你必须定期进行呼叫活动,以准备每个紧急员工保持警惕。定期测试也可以帮助识别变更或丢失的联系方式,这可能严重影响性能。
呼叫树包含在紧急情况下用于传递指示的信息。它也可以手动完成,但人们使用自动化来加快进程并在当今数字化世界通知成员。
指挥中心/控制中心
它是一个特别准备的虚拟或物理设施,用于在危机期间提供命令或控制恢复计划。它与团队进行通信,管理灾难期间的系统和功能。
传统上,基础设施依赖于指挥中心在没有任何正确方法的情况下处理危机。如今,组织已经完美设计了他们的控制中心,这使得对紧急情况的立即响应成为核心竞争力。
一旦它感知到灾难,指挥中心迅速转向恢复阶段。此外,它在服务、新闻发布、交付等情况下还充当报告点。它还在此类情况下将来自多个学科的人员聚集在一起。
事件响应
Incident response是一种用于应对攻击的响应类型。它借助正确的程序和人员,在正确的时间内有效地保护网络和数据安全。
如果组织在意外事件发生之前制定了事件计划,它可以实时保护其数据免受威胁。事件响应专家始终对问题保持警惕,并在事件发生时自然地采取行动。他们采取一定措施来避免安全漏洞,确保在灾难恢复过程中不会遗漏任何一步。
首先,您必须确定关键数据并将其存储在云端或任何远程位置以确保安全。通过定期更新事件响应计划来解决当前基础设施需求和不断发展的网络威胁。
备份
Backup solutions帮助IT基础设施在正确的时间内维护数据的副本并将其安全存储。如果您面临数据库损坏、意外删除所有数据或任何其他问题,您必须准备好备份以立即恢复数据并继续提供服务。
它涉及复制文件并将其存储在安全位置,以便在异常事件之后轻松访问所有数据。如果一个站点发生故障,您应该在多个位置备份数据,以确保即使一个站点失败,您也能够恢复数据。
弹性
抵抗或经受住灾难而不损害服务和系统的社区、州、组织和个人的能力被称为灾难弹性。
一个组织必须准备承受大量压力,以应对各种危险。确保您具备通过更好的规划减少损失的能力,而不是等待别人来解救您。这将帮助您适应灾难并高效恢复您的IT基础设施。
在这里,主要目标是在必要时保护和恢复基本功能和结构。要成为一个具有灾害弹性的组织,您必须提前做好准备,并具备预测风险、适应变化、共享和学习、整合各个部门以及管理风险水平的能力。
SLA
服务水平协议(SLA)是一项灾难计划,其中您向最终用户说明在紧急情况下恢复服务可能需要的时间。
SLA确保客户的数据安全,不会受到损害或与第三方共享。它是与最终用户问题的唯一联系点。
每个IT基础设施都向其客户提供有关SLA的保证。因此,请确保您事先与最终用户进行沟通。
SPOF
单点故障(SPOF)是一个设备、个人、资源或应用程序,与许多其他系统或应用程序连接。
如果某个设备或资源出现故障,与系统连接的所有关键部件都会受到影响。因此,整个过程和业务操作都会受到影响。
因此,您必须有应对此类问题的策略,以保持组织的运转。您可以做的第一件事是确定可能产生更大影响的那个单一设备或系统。接下来,进行业务影响分析,并获得风险评估评分,了解即将发生的情况。在事件发生之前,深入挖掘并找到它们。
一旦列出所有的单点故障(SPOF),按照恢复过程对它们进行分类。将每个SPOF分为三个不同的类别:
- 可以轻松直接恢复,所需时间和预算较少。
- 恢复可能会困难,但可以开发可靠的流程进行恢复。
- 一旦出现故障,无法恢复。
您可以根据类别做出相应的行动。
系统恢复
在硬件故障发生时,您必须运行恢复过程将特定系统或服务器恢复到原始状态。为了恢复整个系统,您需要准备好恢复要求、备份、固件兼容性和硬件兼容性。
系统恢复是一个将机器重置为先前设置或新购买时的相同状态的过程。这样做将清除由于在系统中安装的软件或应用程序导致的所有病毒感染。
该过程包括IT基础设施的恢复计划,该计划设定和执行某些程序,以确保数据在人为或自然干扰发生时仍然可用。
系统还原
系统还原是一种恢复工具,它允许您将特定文件和信息恢复到其先前状态的正确时刻。
使用系统还原,您可以将注册表键、安装的程序、驱动程序、系统文件等恢复到其先前版本。这在许多灾难中起到了拯救者的作用。
测试计划
它是指存储有关测试策略、估计、资源、截止日期、目标和时间表的文档。它作为一个蓝图运行测试,以确保硬件和软件的安全性。
这包括根据计划的程序和步骤进行各种测试,以管理灾后影响。定期进行测试,以便在行动过程中不会漏掉任何一步。这样,IT基础设施就可以了解缺点,并为战斗做好准备。
结论
没有人知道灾难何时发生。因此,每个企业都需要合适的安全措施。灾难恢复术语将帮助您了解如何应对攻击和灾难。它还将帮助您提前做好准备,以便在意外事件发生时能够迅速应对。您将能够创建一种有效的实时灾难恢复策略,节省数百万美元并保持客户的信任。