【IT168 信息化】
以下是GDS万国数据副总裁汪琪就中国目前灾备发展状况及解决思路所谈的部分观点,各位请参考。如有需要可单独安排汪总或GDS公司其他高层领导接受采访。
Q:灾备一般会分集中于IT的灾备和恢复、集中于业务的业务连续性管理和企业战略的可持续发展等几个阶段,目前,中国企事业单位的灾备水平大多属于哪个阶段?灾备较发达国家的企业现在发展到了什么水平?
汪琪:灾备的起源最早是数据备份和恢复,之后是业务应用系统的备份,在这个基础之上,企业开始将业务的因素考虑进去,业务的连续运营成为企业追求的目标;从而又引入了业务影响分析、风险分析和规划等。业务的恢复涉及到很多业务的流程、资源的调配、人员和组织架构的调整及恢复的策略等多个方面,我们称之为业务连续性规划。第三个阶段是业务的连续性管理,涉及危机处理、上下游问题的应对等管理型问题;业务连续性管理已经将灾备从数据备份和恢复提升了管理的高度。
目前我国企业的灾备大部分还处在第一阶段,即数据和应用系统的备份和恢复,也有些企业在做一些业务连续性规划或正在准备做这样的工作。目前我国还很少有企业达到第三个阶段。
从国外情况来看,上世纪七八十年代,灾备起步,大部分机构和企业都在做第一阶段的事情,上世纪九十年代尤其是2000年前后,因为千年虫和突发性灾难等事件,国际上的一些企业开始特别重视业务连续性规划和管理,这推动了灾备理论和体系不断向前发展。现在,国外灾备比较发达国家的企业谈的更多的是业务连续性管理,也就是说,他们的理论体系已经发展到了这一步,但这并不代表他们已经走到了这一步。
对于企业来说,灾难恢复仅仅能够保证灾难发生之后数据系统的相对完整性,也就是“一旦灾难发生,数据丢失量有多少”的问题。而业务连续性管理解决的却是灾难发生之后企业的业务恢复能力,也就是“一旦灾难发生,企业能够在多长时间内恢复多少业务”的问题。相对于灾难恢复,业务连续性管理更像一个“IT+业务+管理”的混合体。由于金融企业在资产规模、业务性质、客户数量、业务处理能力、管理理念、企业文化等方面存在差异,因此相对灾难恢复而言,业务连续性管理的个性化更加鲜明,也更难套用和复制其他企业的成功经验和模式。业务连续性计划才是企业真正获得永续经营的法宝。它能够帮助企业继续获得核心组织功能,保护国家利益和主要职能,同时保护市场份额和收入,减少破坏时间和损失,保护股东、客户、员工的利益和信心,保护品牌和信誉,使得企业在灾难中获得重生。”
其实,建立灾备系统更重要的意义不仅仅是在灾难发生的时候帮企业把损失降低到最小。更是在建设的过程中发现企业的问题、发现哪些灾难、危机是企业的致命伤。帮助企业去评估它面向风险时候的相应的控制手段和措施,找出遗留的风险。防患于未然。更可以将你企业面临的风险进行优先排序,在进行灾备建设时候节省成本,将有限预算花在刀刃上。
Q:金融行业是对灾备建设要求很高的行业,也是贵公司着力开拓的行业,您认为国内金融机构在灾备管理方面普遍存在哪些问题?
汪琪:总体来说,中国的金融行业尤其是银行业在灾备和业务连续性管理方面领先于其他行业,它们已经有了一定的灾备基础设施、一定的流程制度和管理规范。不过其灾备目前主要还是IT为先,在业务连续性管理、资源配给、组织架构的完整性和覆盖的范围及深度方面还有一些不足。
金融业的灾备建设还有很长的路要走,我认为主要还需在如下几个方面做出努力:其一,要从集中于关注IT层面的备份向业务连续运作层面提升;其二,要把有关灾备的IT工作做深、做细、做广。现在很多金融机构仅仅是备份了核心系统,核心之外的其他很多系统在灾备中也很重要,需要企业进一步扩大范围。
话说回来,即使是在金融行业,大家对灾备的关注度还不够高,参与的资源和力量也不够,这需要行业主管机构的更多指导和规范,需要企业高层管理人员进一步提高其灾备和危机意识。现在,中国金融业跟国际接轨,接轨也要求我们的金融企业遵循更严格的国际相关要求和标准;如果我们的金融机构要引入战略投资者,也要面对更多这样的要求。
Q:您如何评价各机构在今年发生的汶川地震和南方暴雪等灾害中的灾备表现?灾备管理的价值又如何体现的?
汪琪:在汶川地震过程中,几乎所有银行都做出了相对比较及时的反应,当地的银行调集了很多力量投入灾备,为民众提供了很多流动性服务,包括在路边搭起帐篷做业务;很多金融机构把系统搬到了总行或分行所在地,避开了地震活跃带。
通过这几次事件,我们也看到了金融机构在应对突发性灾难中的重要性,因为不管是在救人阶段还是重建阶段,大量的资金和金融活动是必需的;灾难刚发生时,大家可能更关心的是怎么把人救出来,而到了恢复阶段,金融行业作用至为关键。实际上,我们已经看到,金融行业在面对突发性灾难时尽快恢复作业对整个社会体系的快速恢复非常重要。
Q:在金融灾备系统建设中,GDS万国数据曾经提到过三种模式:专属系统热备份模式、数据备份/系统共享备份模式、基础设施和备用设备建设模式。这几种模式是不是各行业通用的模式,或者其他行业是否还有更好的模式?
汪琪:这三种模式是可以面向所有行业的。选择何种模式,主要是看资源是独占的还是共享的;如何确定资源独占或共享,主要还要看客户的具体需求是什么,即恢复的时间目标(RTO)和恢复的点目标(RPO)是什么,这决定了企业要采用什么样的解决方案、要占有什么的资源。
Q:通常我们所说的灾备自建、外包、共建模式各有什么利弊?对于一般性企业而言,选择的标准和条件是什么?
汪琪:共建和外包的模式是希望能共享资源,降低成本,提高专业性;自建的模式适合规模非常大的企业,这样可以体现其规模效益,这类企业的模式和经验也很难跟一般规模的企业分享;对于一般企业来说,自建可能会导致资源闲置,经济效益低。
总体来看,在这三种模式中,外包的优势会大一些,因为这是由专业的企业来提供服务的。在国外,采用共享模式(主要是指外包)的占到了70%左右的比例,国内目前采用独占模式的占很大比例,在资源独占的基础上将运行服务外包的模式也已经为众多企业所接受。
Q:完整的灾备管理要有目标、有规划、有对策、有组织、有保障、有培训,在为客户服务的过程中,您觉得哪些环节遇到的问题最多?
汪琪:首先我要强调灾备管理的整体性,灾备管理是整个体系的联动,从前期的分析、策略的制定,到中间的实施、运营,再到培训、演练,灾备中的哪个环节都不能有短板,否则,就会影响到整体灾备的实施。
在为客户服务过程中,我们经常遇到的问题一般是一前一后两种问题。很多客户都很注重技术方案的细节及实施,但忽略了前期的评估、分析、规划和策略制定,以及后期的预案制度建立、流程开发和梳理、及长期的运维管理。这样就容易导致很多问题,比如,有些客户在技术方案已经基本确定的情况下,遇到问题时再回过头来做风险和业务分析,这样就容易导致分析出来的策略跟已经制定的技术方案不符,只能回过头来对技术方案进行调整;有些则是在流程体系和运行体系还不完善的情况下做实施,结果在运行两三年后,他们发现灾备中心和生产中心越来越脱离了,一旦生产发生问题,企业不敢轻易将系统和业务切到灾备中心。这些会导致企业的重复投资和资源的极大浪费。
Q:我们应该如何做灾备项目中的成本效益分析?
汪琪:灾难恢复的产出不在灾难的时候是看不到的。所以我们在做成本效益分析的时候,首先要分析这个企业如果是遭受了灾难,它停顿多长时间内所受的损失有多少。这个损失来自两方面,一个财务损失,一个是非财务损失,包括按形象的损失、法律诉讼、因为没有办法提供服务导致的罚款等涉及到危机管理方面的成本。
Q:应该如何进行灾备中心的选址?
汪琪:如何选址,要看企业要预防什么灾难。GDS在实际服务过程中发现:单从基础设施方面来看,很多灾备中心的选址并不科学,比如,某公司将灾备中心的地址选在一座紧邻马路的四层建筑里,经过实地考察,GDS发现,路基平面高于建筑物一楼地面约三米,一旦市政管网爆裂将可能会面临水灾的风险。除此之外,该灾备中心还存在建筑的设计在平面规划、设备运输上不能满足要求,缺少消防系统,供电能力不足,避雷和接地系统不符合要求等问题。再比如,某银行将自己的灾备中心建在了太湖边上,建筑平面低于水位线,这样的设计,不亚于在刀尖上舞蹈。
Q:灾备中心应采用何种数据传输方式?
汪琪:一般而言,企业需要结合自己的容灾目标和实际情况来考虑。如果系统性能是优先的考虑对象,能够接受备份中心数据更新的较小延迟,就可以考虑采用异步数据复制方式。如果避免数据丢失是最优先的考虑,生产主机的工作负载能够承受同步拷贝带来的性能损失,运行中心和备份中心的距离不超过100公里,那就可以考虑采用同步数据复制方式。当然,对于数据宝贵、安全性要求高、依赖信息技术强和有保证高度业务持续性要求的大型企业,应该考虑两种方式的相互结合,这样才能确保关键数据的万无一失。
Q:在灾备方面,政府和行业主管机构的管理和引导作用非常重要,您认为我国相关机构在这方面的表现和进展如何?
汪琪:在灾备方面,我国政府一直比较重视,从国信办27号文件开始,政府在信息安全和灾备方面下发了大量文件。2004年至2005年中,国信办就下发了好几道文件。应该说,政府在指导和规范灾备建设方面,做得比较积极。从行业应用方面看,我们银行、证券、保险行业也都出台了相关的文件和规范。现在奥运临近,各行业对灾备更加重视,文件内容也从基本要求向着深化和细化的方向发展。比如银监会的57号文(《银行业重要信息系统突发事件应急管理规范(试行)》),专门就应急演练做出了指导和规范。
当然,毕竟我国在灾备方面发展历史还很短,还有大量的工作要做。我认为,下一步我国需在以下几个方面加强工作:其一,进一步加强对灾备的监管和审计工作。为了使政策得到落实和执行,需要加大监管力度,并定期进行审计,要求行业机构和企业合规。其二,灾备要从单纯的IT应用备份向业务连续性管理方面升级。现在国际上谈的都是业务连续管理,我们要跟上时代的步伐。其三,业务连续和灾难恢复工作的颗粒度要细一些,范围广一些。在出台相关文件和规范时,在内容方面要做到细化,范围要全面;例如除了对核心业务系统作出要求外,对各种重要的业务和系统都要有相应的要求和规范。在银行业,随着城市商行的崛起,其重要性越来越高,由此而产生的风险管理需求将大大增加,响应灾备建设工作指导的进一步的深化和细化越来越重要了。
Q:业务连续性管理很讲究整体性,任何一个环节出问题都可能导致全盘皆输,而其中统筹企业内部资源和外部资源比较复杂,那么在这一方面,GDS万国数据有哪些经验和办法可以分享?
汪琪:从灾备管理需求方面来看,企业的灾备管理需求不能仅仅由技术部门设定,业务各部门必须参与,企业还要参考行业主管机构的指导和标准,要参考上下游、行业和企业环境等各方面的输入,要对来自各方面的风险考虑进去,整合这些信息和需求,才能制定出完善的规划。
在建设过程中,要跟行业主管、当地相关政府机构、合作的第三方、关键的大客户、关键的渠道和业务来源甚至网上支付或结算系统的信息和资源进行协调和整合,要看一旦灾难发生时在所有这些渠道和资源有没有补救的方法和措施。
在运行维护过程中,灾备管理体系仍然是活的,因为各方面的情况会不断发生变化,生产也在变化,那么灾备管理体系也要跟着变。还要进行各方的联合演练,最终形成合力。要在灾备建设中整合好各种资源,需要企业在管理方面做出更大投入。
Q:如您前面所说,企业常常忽略灾备一前一后的规划工作,这样就会影响到企业在这方面的预算。在为客户服务过程中,您在企业预算方面是如何说服客户的?企业应该如何在高投入与小风险间寻求“平衡”?
汪琪:我们的建议是,企业在做灾备建设时,一定要考虑整体拥有成本(TCO)。我们看到的是,企业往往只会考虑其中的某一项,比如在IT投资方面,他们常会忽略以后增加系统会在将来增加多少运行维护成本等问题;又比如有些企业仅把灾备作为一个IT项目,忽略了企业的灾备体系在运行5-10之后的成本问题,最后导致的结果就是浪费。
因此,我们一直建议企业在开始灾备建设时就要做好分析和整体规划工作,要把企业内部和外部的情况都输入进来;要设置清楚长期的建设目标和分期的实施计划,这样就不会有太大疏漏。
Q:考核一家灾备服务企业的服务水平,大致有哪些指标?
汪琪:SLA(服务等级协议)是非常复杂的东西,涉及许多非常细致的指标和标准,包括基础设施建设、可用性、各项服务的水平、响应标准、环境准备时间和安全等。这需要服务方一项一项地落实到工作的细节中去,做到各个层次都就绪。
Q:大家都在谈虚拟化技术在灾备中的应用,您怎么看待这一技术,GDS万国数据的服务和方案中又如何体现这一技术?
汪琪:虚拟化技术在我们的有些方案中有采用。这一技术主要适用于多平台、多存储的用户;利用这一技术,我们可以把企业的前台和后台的存储进行更有效的整合。但这种技术对某些特殊的体系系统并不适用,比如像AS/400这样的非开放式系统,对要求特别高的客户来说也不适用。其优势主要还是在存储和平台的整合。
Q:灾备会涉及到企业安全保密性的问题。据我所知,前几年很多企业在找外包服务方时,经常会谈到这个问题。在您与客户打交道的过程中,近几年还会遇到这样的问题吗?
汪琪:确实,前几年时,我们的客户经常会跟我们谈到这个问题,为此我们做了大量的工作。我们的数据中心是我国灾备行业第一个通过BS 7799标准的数据中心,还通过了ISO 20000、ISO 9001认证及ISO 27001认证;我们在操作流程上面为客户做了不少工作,通过制度、流程和技术手段保证客户信息的私密性和安全性。
经过我们的努力,现在安全保密性已经不是我们的客户最常谈起的问题了,甚至已经不是他们特别担心的问题了。现在客户与我们探讨更多的是,他们的灾备质量应该达到什么程度,为此我们应该给他们提供什么样的服务等。
Q:您怎么看SaaS在数据服务和灾备市场的应用和前景?
汪琪:SaaS与灾备的联系是,把很多小企业的灾备工作,从不可能变成了可能。而在传统的模式下,小企业没资金、没能力做灾备。
Q:贵公司在做这方面的尝试吗?有需要这种服务的客户吗?
汪琪:我们在SaaS方面有尝试,是跟合作伙伴一起做,也有这方面的客户。不过,就目前的情况来看,对小企业来说,灾备可能不是他们最着急的事儿,这也就决定了目前SaaS的服务模式跟部分企业的灾备需求没有太直接的联系。但我们也看到,有了SaaS服务,我们是给企业提供了一种具备增加值的服务。
Q:之前,GDS已经获得ISO 9001、ISO 27001认证,今年7月底,GDS又获得了ISO 20000认证,这对GDS来说意味着什么?
汪琪:通过ISO 20000的审核对我们的影响非常深远。ISO 20000规划了非常完整的IT服务体系架构,它是完全以服务为导向的一个标准,是完全面向客户的服务体验和满意度的。通过此标准审核,意味着我们可以向客户提供更高水平的、成体系的服务;同时,这一标准也促进了我们公司管理的改进和提升。该标准把IT服务划成了一个个的流程,把管理架构从原来的部门制转变成了流程制,这些流程是跨部门的,由一个流程经理来负责管理,这样大大提高了我们的工作效率,减少了出错率。
现在,我们把我们通过的三个标准——ISO 9001、ISO 27001和ISO 20000进行有机结合,把相关规范和标准落实到我们具体的工作中,同时根据标准与客户做对接。以后我们的客户也会在我们的指导下走向ISO 20000,这样一来,通过与客户进行对接和系统集成,我们会创造出新的服务模式,把我们和客户的管理都提高到新的层次。
Q:目前国内和业内通过ISO 20000审核的还有其他企业吗?
汪琪:在数据中心的达标建设方面,我们在国内是领先的。国内第一个通过ISO 20000审核的数据中心是交通银行总行的数据中心,我们是它的项目咨询方。我还没听说业内其他企业数据中心通过此标准。
Q:我知道您还负责贵公司咨询部门的工作,和其他领域的咨询人员一样,灾备行业的咨询人员也需要具备许多条件和素质,能否介绍一下您是怎么选择、培训咨询人员的?
汪琪:第一,我们看重有行业背景的人。因为每个行业的流程和需求都有所不同,行业背景有助我们更了解我们的客户。其实在跟客户打交道过程中,我们做的很多工作不仅是IT方面的,也会帮客户梳理业务流程和业务需求。这就要求我们的咨询人员行业背景要强。第二,我们注重咨询人员的综合素养,这包括沟通能力、逻辑思维能力、创造能力、应变能力等。做咨询没有一定之规,没有固定的模式,有很强的互动性,所以对人的要求比较高。第三,我们要求咨询人员要具备专业知识和相关能力。这些知识包括业务连续性管理方面的知识、IT方面的知识、对客户的特殊业务学习和了解的能力等。
对咨询人员,我们有定期不定期的培训,包括项目的培训、工作实践中的培训等。在部门内部和部门之间,我们也有知识共享的机制。