【IT168 信息化】
大型银行在整个灾备中心建设的时候是几十亿,每一年的维护费用是一亿以上。这对于普通的中小金融机构是无法承受的,所以,如果你是一个城市商行科技部总管应该怎么办?
“从911事件到玉树地震,所有重大的事件都引起我们对灾备中心建设的思考。”2010年中国金融科技大会上来自中国金融电子化公司数据备份中心主任张慧首先介绍了灾备中心建设的重要性。同时,张慧从中小金融机构异地灾备建设的现状以及灾备建设难点易点分享了记者。
▲
中国金融电子化公司数据备份中心主任 张慧
80%以上的商业银行没有灾备中心
在国内,160家城市商行里有80%以上的商业银行是没有灾备中心的,仅有一些简单的数据备份措施,存在较大的系统风险,这是目前中小金融机构异地灾备建设的现状。
灾备外包服务中心想解决的问题就是要符合国家政策要求,也就是GB/T20988所有这些规范和管理的要求。中国金融电子化公司主要做在这种维护金融稳定方面,去协助中国人民银行总行做好提供服务,提供信息安全技术工作。主要是金融标准的制定和宣贯,核心系统及接口软件开发等。中国金融电子化公司和鞍山市商业银行、桂林商业银行以及齐鲁银行等等在灾备服务上,一步一步往前推进。
建立灾备中心出发点,张慧认为主要有几个方面:
首先、建设的必要性,灾备中心国家政策要求,对于这种国家经济命脉的金融行业,灾备体系建设是金融机构的业务连续运作的最后一道防线,是金融机构生存的必备条件之一,也是国家防范和化解金融风险的最有效措施之一。
第二、金融机构的需要,因为金融机构促进的是老百姓的生活和生存,就是金融机构的良好IT规划和治理,它的这种业务连续性规划和灾备技术手段都需要专业的指导和规范。这种技术路线也需要一个统一,技术路线方面需要标准及评测去指导这种技术路线。灾备中心的宗旨就是在关键的时候要起到关键作用,一旦金融机构发生了意外的灾难事件要及时控制不良的局面。
第三、在共享和集约方面,灾备中心、灾备人员和组织,灾备的项目管理方面的共享,在一定程度上实现了能够在网络方面、设备方面、人员组织管理方面还有包括相关的知识库,包括项目实施运维技术进行共享,使这种服务能够术业有专攻,能使服务有针对性、能使服务的质量能够最好地提供出来,同时也大大节约了各个金融机构的整体建设成本。
中国金融电子化公司作为人民银行的直属企业,有几十年大型信息系统项目建设的经验,也是有一支成熟可靠的人才队伍,同时还有很多在国内大型的商业银行,还有通过对国外的技术,通过所有的比如做灾备的厂商,他们也是首席工程师和我们进行交流,在经验上参考的是国内外最高的经验技术。
在这种理念思路上引入的是国内的十个非常好的实践,这十个非常好的实践不仅仅是做一个系统,而是要做一个业务连续性,应用怎么及时接过来的、人员意识培养和培训是不是跟进了、灾备系统怎么去和支付系统连起来、怎么和银联系统连起来、怎么在灾难的时候能够真正启动,所有的人员是否能够及时到位?这都是要用十个非常好的实践不断推进和实施的。
在建设流程方面,在从分析评估、架构设计、开发实施、启动管理和后续维护,这是一系列的条件。在分析和评估、架构设计、开发实施、启动管理等这都是一系列要按照目标和需求、场景和策略去制定相应的方案。在做这些方案的时候教你如何按照这种计划、进度安排和管理、更新和维护、审计和评估是不是能够及时到位?这些都是关心的问题。
在做这关键的灾备系统建设的时也会按照相应的规划设计、实施和运营管理去进行整个灾备系统的建设。
要在关键的时间找到关键的人
只有灾难的定义, 才能更好的做好灾备建设。灾验是指影响企业业务运转的意外的事件,灾难的影响取决于意外发生的时间和涉及范围,我们要减轻灾难造成的影响。恢复的关键在于确定对业务生成至关重要的人、物等以及涉及的范围更广以及组织结构,这些组织结构是不是能够把这些人把这些灾备系统做好。
无论是国际还是国内都要做到应用灾备,在异地灾备上至少要做到一个等级三以上,现在所实施的主要是主流的灾备一般是在等级四以上系统,而且尽可能要用比较少的资金投入,尽可能做到五级的灾备等级。
做好灾备建设要有几个指标要达到的。在RTO(企业能容忍的恢复时间)上主要是针对的服务丢失是指灾难发生后从IT系统停机导致业务停顿开始到IT系统恢复可以支持业务恢复运营之时所需要的时间,我们要求尽可能控制在两个小时。为什么是两个小时?因为有很多决策方面的问题、业务就位问题、人员到场的问题,所以,要把这些系统停机到整个业务的时间定义为RTO。
RPO(企业能容忍的最大数据丢失量)-恢复点目标,主要针对数据丢失是指发生意外灾难事件时可能丢失的数据量。这种数据丢失让它尽可能小于等于10分钟,目前所做到的所有实施的灾备在RTO、RPO,80%以上的灾备中心建设都是按照RTO小于2个小时、RPO小于等于10分钟,按照这个标准完成的。
风险分析可以帮助识别威胁,研究整个生产中心的脆弱性、评估面临的风险、对企业的资产它的潜在危险的结果,然后来判断用什么样的策略。针对不同的场景它可能会造成什么样的灾难场景?是系统故障造成业务停顿还是机房灾难造成业务停顿?还是整个城市或者区域造成业务停顿?我们会对这个风险场景来分析,评估目前整个生产中心要防范的是哪类别的风险,针对哪一类别的风险做灾备中心的建设和业务连续性的建设。
对业务影响,所有的这些系统都是非常重要的总有先后等级。把所有的系统做一个评估,评估的什么是关键业务、什么是重要业务、什么是敏感业务?这样可以得到一个灾备系统建设策略。哪些是数据性、哪些必须做应用性、哪些要做到业务性,这样分级、分层把握使得我们投入最少。
灾备建设的原则
实用性和前瞻性原则,还有全局性和节约化的原则,共享性和多元化的原则。
灾备建设目标
整个信息系统安全业务连续,业务连续,是我们总体的目标,同时要满足国家政策的要求,建立这种共享的异地灾备中心,然后服务金融机构,在业务连续性体系的建设和标准,还有包括我们在这个基础上能够形成一个整体,就是在做异地灾备中心的同时,就能够把基础打好。同时,灾备中心也可以做到测试,还有报表分析、预测、评估等等。在三年内会为100家以上的中小金融机构提供异地灾备的服务,五年内200家以上。
整个灾备总体建设思路
根据银行业面临的灾难以及日常应用系统停机的原因进行分析,然后去分析主要针对的计划外停机引起系统灾难做的针对性工作包括逻辑故障、组件故障、场地等问题进行风险防范和场景的分析。得到的是灾备体系的建设思路,在网络建设方面是要建设一个高可靠的灾备网络,在应用监管能力方面,要建立的是一个全面的应用监管能力。数据复制系统,达到数据及时准确获取。技术支持能力建设,建立全面技术支持团队,要专业、稳定。配套的灾备体系建设,是要相应的流程制度,管理要跟上。
面对的中小金融机构在业务和技术方面的综合考虑,针对整个成本的降低,得到一个建设思路,就是说这种全局的网络系统建设得到组织系统的复制,因为麻雀虽小五脏俱全,应用处理能力的复制,整个数据系统的复制,这个是灾备系统必不可少的。
业务系统分类与两地三中心,比如城市商业银行,是先做同城,有的先做同城,有的先做异地,最后要做到两地三中心,那么哪些我们去做一个,毕竟资源在这儿,我们会对这种业务系统做一个规范,哪些准备,哪些是同城和异地都备的,哪些是你要做到异地备份的,我们都会做一个分析。做完这些备份,还有一个数据的丢失怎么追补,哪些是业务上、应用上能控制的,哪些要通过手工的凭证补录的,这些也是在灾难管理的时候要不断进行的工作,在灾备中心的配置模式上,也是考虑的。
目前,对所有的IT技术和IT恢复指标有一个综合比较,在比较后形成一系列自己的灾备系统建设的设计方案,得到一个总体的架构。这种解决方案的特点,能够让它达到的是所有灾难全面的防护能力就是软件、硬件、数据丢失等等。
第二、容灾和备份的一体化把控,在恢复方面使这些恢复能够做到很短时间内恢复。
第三、在本地和异地做到双重恢复机制。在带宽上做到一个节省传输带宽差异比较,能够让比如网络中断了是不是灾备要重新实施?不。为什么?因为有差异比较,如果网络中断以后能差多少数据?把差异的数据做一个传输。
第四、管理方面也是简便易行。开放式的架构使得系统扩展成本低意味生产系统、灾备系统可扩展性都很好。比如今天是惠普主机,明天可以用IBM的主机,这是实施完灾备以后不能把生产系统和灾备系统架构绑定要让它的结构还是开放性的。
在技术原理方面也能够做到本地和异地的时时快速恢复、异地灾备的远程复制、全面的保护方式。
灾备关键的技术比如镜像技术、快照技术可以提供256个时间点的快照,把这些数据隔一段时间做一个照片。不仅有生产数据,而且有生产数据之前的半个小时或者几分钟甚至几秒钟之前的数据,由快照和录像的能去做。在这种快照技术里照的并不是把这个数据,为什么在快照节省空间、节省空间的关键秘诀在于什么?
我们造的是变化量,我们造的是把这些,比如9点到10点之间变化的是267,这个时候快照照的是267,下一次照的是90,再下一次照的是1和2,存起来的是1和12,这样快照区也很少占用资源也很少。
在本地有一个镜像数据能够做到本地磁盘备份,如果意外我们镜像数据能够跟上,业务不会中断。在恢复时会非常简单。
实际的效果来看,RPO改进非常明显,远程的传输带宽节省了85%,总体应用成本和维护成本非常低,管理维护非常简单,不是因为成本降低管理复杂,而是成本降低管理还简单了。在某大型银行在整个灾备中心建设的时候是几十亿,每一年的维护费用是一亿以上。这对于普通的中小金融机构是无法承受的,所以在这方面,如果是一个城市商行科技部总管应该怎么想?我们从这个角度做这个方案设计和做风险的评估,做整体的实施。而且在实施过程中,如果发现核心系统整个架构和技术方面的一些问题,我们也会及时和金融机构进行协调。某商业银行,为了节省成本它的主机系统只用了一个正交换机,分为两部分,这几个接口用在这个主机,这几个口用在这个主机。在做架构调整时,我们建议这个架构做灾备的时候改进使不稳定因素先降低,作为灾备系统更加能做到备份的功能。
总体说来,目前服务的优势是首先是高等级的灾备中心基础设施,再就是主流、成熟、可靠的灾备技术方案,强大、专业、资深的服务团队,业界先进的方法论,成熟的项目管理体系,在数据、系统的安全方面,我们做到全方位、全过程、持续稳定、高品质、转移灾备服务。( 本文根据中国金融电子化公司数据备份中心主任张慧在2010中国金融科技在会发言整理)