【IT168 信息化】
近期社区在热议“双机热备”这一话题,其实从系统整体来看,当双机热备起作用,必然是发生了导致系统使用故障的事件。从多年的运行经验出发,我总结了造成系统不可用的6个主要原因和解决办法,供大家工作时参考,希望能尽量避免宕机的发生。
原因1:网络故障。
原因2:应用系统本身所固有的问题。
当处理某些问题时,资源耗用过大,造成系统性能急剧下降,导致整个系统几乎无法使用。
原因3:基础设施问题。
包括电源、空调等的故障以及维修保养造成停机。空调故障造成过热而使得存储系统热保护,进而主机也进入热保护状态,但主要原因还是机房设计不合理所引起的。
原因4:系统部署方案的不合理。
因为备份方案的问题,造成操作系统的文件系统崩溃进而导致宕机。
原因5:人为原因。
曾因电工误操作,关闭所有UPS的输出开关,造成所有设备停机。
原因6:硬件故障。
原因1网络问题的发生,是一个综合性的管理问题,病毒防护的缺失,网络滥用等等;原因2和4主要是对系统的不熟悉导致解决方案的偏差,从管理上找原因,可能是未能全面正确的评估——但这个确实比较难,很多问题是因为本身的业务模式所决定的解决方案的独特性,进而使用了非普遍使用的方案和技术,增加了风险;原因3是未能正确平衡投资与系统可用性的缘故,未能随系统应用的发展而及时调整基础平台;原因5的发生绝对是基本管理缺失;原因6,硬件故障是真正的依从概率而发生的,反映了系统运维管理的缺失。
我总结,双机热备方式只是一个保险措施,CIO只有更多的加强IT管理,将技术、人、流程、IT风险管理等综合考虑,才是IT管理的价值所在。
双机备份是企业实现数据的连续采集和数据安全的重要手段,对于金融、电信、生产制造、医疗等企业而言尤为重要。
双机备份有“冷、热”之分。双机热备即当主机发生故障停止工作后,从机在设定的时间内主动启动并担任起主机的工作。其好处是在业务系统的容忍时间内,不影响业务的正常运行。相对而言,双机冷备则需要人工手动使从机工作,其成本较低。CIO如何根据企业特点和自身需要选择双机备份的方案呢?
会员评论:
如果系统能容忍几个小时的宕机,则可以选择双机冷备的方案,冷备的服务器台数和生产系统的台数并不是1:1,这样成本比较低。
—— 孙亮 青岛怡之航物流有限公司亚洲IT经理
并不是所有的应用都要采用双机热备方案,重点要看系统的重要程度。如果是热备,硬件和软件的配置成本比较高。一般而言,如果系统有宕机的可能,并且对切换的时间要求并不是太高(比如15分钟以内),就可以采取非热备方式——比如双机高可用性。
——郭智勇 浙江省交通投资集团有限公司信息中心
冷备方案比较实用,用到的服务器可以一对多,但是要预先考虑好操作系统的环境一致性。如果不一致,可以先用虚拟化来统一环境会比较好,而且可以加快切换的进度,甚至可以完成自动切换。
——陈罡 丽晶时代电子线缆有限公司CIO
银行一般采用双机热备或集群技术,目前更进一步采用虚拟化及云计算等来实现备份。
——林丽 东亚银行CIO
目前的主流技术方向是服务器虚拟化,可以通过虚拟化实现双机甚至多机热备。
——刘歆轶 海克斯康测量技术(青岛)有限公司信息技术经理
如果切换时间控制在3至10秒钟之内,基本上可算是“零宕机”。而对于一般生产制造服务企业而言,设定的切换时间可以稍长一些,并不会对业务带来很大的影响,这样的话,备份方案的投资预算相对也会降低一些。
——刘晓军 重庆光大(集团)有限公司信息部经理
我们用两台小型机作服务器,通过软件实现双机高可用性。两台服务器中,一台跑应用层,一台跑数据库,并通过心跳线通信。当任意一台发生故障时,另一台自动接管故障机上的应用,即应用层与数据库将会在一台机上运行。当故障机恢复后,再把相应的应用接管过来。
——周琴 广东格兰仕集团有限公司IT部副部长
如果采用4-5台高性能的PC级服务器做虚机,用两个存储同步保存数据,则基本无切换时间。
——周四阳 时代地产总裁助理
如果业务系统对宕机时间是零忍受,建议采用集群或虚拟化。
——李杰 茂业国际控股有限公司信息管理中心总经理 (本文作者为丽晶时代电子线缆有限公司信息管理部经理)