信息化 频道

利用灾备自动化技术兼顾业务连续性

  【IT168 信息化】

  行业中似乎一直对业务连续性 (BC) 和灾难恢复 (DR) 流程之间的差别有所混淆。企业们常常使用其中一个术语来指代另一个所描述的动作。许多企业在这两个方面或其中之一上有所欠缺,从而导致了灾难性的结果。谁也不想有灾难,没有企业愿意面临这样的难题:自己的数据中心停止运行或建筑受到破坏时如何保持正常运营?这样的话题令人不悦,而相关的问题更是难以解答。同样烦人的还有如何评估当前薄弱或无效的数据保护方案的实际整体成本问题。通过引入自动化技术,企业则可以有效的解决上述的两大难题,为BCDR做好妥当规划。

  让我们从定义BC、DR这两个常常被误解的术语开始说起。

  业务连续性(BC)指的是组织因为系统故障、人为错误或其他不可预见原因受到或大或小的破坏时维持运营的能力。全面的BC计划包含一整套资源和物流,它们跨越基础架构、执行流程、供应链物流和员工配备等。在IT中,BC是在发生主系统故障时确保将关键业务服务切换到数据中心各种设施的备用或辅助系统。

  灾难恢复(DR)指在主数据中心遭遇灾难导致核心系统或整个物理设施停用时,将IT资源复制到IT业务服务可继续运行的远程站点。完全成熟的DR系统不仅可以故障切换到业务可继续运行的远程站点,还可以将完整的IT服务在故障解除后回切到主站点,只要大部分的"灾难"是短期的,而不是毁灭性的。

  显然,BC和DR之间有许多交叉点,在保护关键数据中心功能方面两者是相辅相成的,也都在有效部署和测试演练方面提出了挑战。当IT人员想要通过技术和程序规划来保障业务交易与企业营收时,则会面临两大障碍。

  BCDR计划障碍:复杂性

  执行BCDR计划可能是颠覆性的。涉及的 IT元素数量太多,使得完整流程的管理几乎是不可能的。此外,用于故障切换和恢复所有这些元素的程序也必须定期进行测试演练。许多数据中心的测试演练频率不足,甚至根本没有这样的测试演练。日前,一份针对CIO所作的调查表明,测试演练的意识正在进步之中,但测试演练的频率并没有增加;54%的受访者表明这样的测试演练一年进行两次左右(请参阅调查简报)。这个频率依然相对低下,而且仅有41%的受访者在其执行的本就不多的测试演练中成功恢复了所有应用程序。

  然而,真正的风险在于,这些受访者可能会认为他们已为灾难做好了准备,因为他们做了规划并且偶尔会进行相关的测试演练。在恢复流程中,时间就是一切。恢复的速度越快,省下的钱也就越多(换而言之,财务损失越少)。BCDR计划测试演练对改善恢复时间和确保流程就绪程度来说至关重要。

  事实上,测试演练实际故障切换和恢复的复杂性是在降低的,这在一定程度上要归功于广泛采用的虚拟化技术。随着服务器、桌面和存储的虚拟化,跨越距离实现系统和数据的完整移动性的能力得以加强。大多数企业为了整合与灵活性而采用虚拟化技术,而这种灵活性也延伸到危机时刻。人力的移动性可以通过桌面虚拟化轻松解决,这使得一些企业可以让员工在公司设施无法访问时,通过异地维持完整的生产效率。

  降低BCDR复杂度的另一项进步是通过自动化来体现的。灾难恢复自动化可以机械化完成主站点IT操作的故障切换和故障回复流程。自动化工具也涵盖了所有数据中心操作,将整个业务应用程序服务(如 ERP和CRM等)作为单个保护和恢复单元进行管理。最有效的自动化解决方案甚至可以映射到操作模式,让IT员工可以定义任何指定业务的不同系统和组件之间的依赖性。这对缩短恢复时间和确保成功完成故障切换或故障回复操作来说意义重大。自动化的BCDR工具还可以提供对业务运行毫无影响的测试演练,这样企业就能更频繁的进行测试演练,为灾难做好更充分的准备。

  BCDR计划障碍:成本

  企业考虑BCDR计划的成本之前,他们必须先考虑意外停机的成本。ESG近期所发布的调查结果表明,大部分企业发现即使是些许的停机时间也能带来惨重的损失。在ESG调查中,74%的受访者表明他们在开始遭遇营收损失前最多可容忍三小时停机;53%表明即使一小时停机他们也无法承受。没错,BCDR成本很重要,但人们必须考虑到业务流程对IT的依赖程度已在增强,而出现灾难时 BCDR计划不足可能会带来巨大损失。

  对成本的担忧使得一些企业被牢牢锁定在旧有的DR策略上,尽管但这些策略已不再有效。例如,磁带恢复需要数小时或几天时间才能完成。从磁带中部分或完整恢复一个数据中心的时间成本是巨大的,尽管虚拟带库 (VTL) 和其他基于磁盘的重复数据删除解决方案可以加快备份和恢复流程,采用传统备份软件执行的数据复原操作依然非常复杂和冗长,远远超过大多数企业可容忍的水平。

  对于由人为错误或技术故障导致的数据丢失(这基本上占了故障和数据丢失情形的 84%)来说,本地恢复通常是最经济的选择。而对于自然灾害等导致的不可控灾难来说,远程恢复依然是非常好的方案。当企业数据中心受到广泛灾难影响,其IT团队必须考虑所提供的服务的重要性等级问题。

  并非所有数据服务都是同等重要的,所以必须要弄清哪些服务是关键的第一级服务,哪些是第二级服务,以及这些应用程序关联了哪些不同的服务级别协议 (SLA)。根据SLA对服务分级可确保所有业务关键应用程序的非常好的正常运行时间,同时又能最有效地投入BCDR资源。

  企业控制成本的还可以通过快照和不间断数据保护等新型技术来降低对磁带的依赖度。这些技术可以大大改善恢复时间、消除备份窗口,并将磁带活动从每日备份缩减为每月备份,从而降低备份和恢复操作的运作成本。此外,企业也可通过WAN优化的复制解决方案来消除物理数据运输,从而节省数据复制的开支。

  自动化BCDR降低成本和复杂度

  BCDR计划涉及的问题可能令人却步。我们是否进行了适当的测试演练?我们是否为小型和重大灾难做好了准备?恢复需要多久时间?停机会给业务带来多少损失?当企业可以充分利用自动化技术进行故障切换和故障恢复,确保企业营收并让业务应用基本不受影响地继续运行时,解答这些疑问就变得轻而易举了。

0
相关文章