没有外围的技术缺陷,只有核心的管理缺失
中国银联股份有限公司(下称银联)网络瘫痪的后果远比想象中严重。
2006年4月20日10点56分,银联网络系统因主机原因出现了“大面积”的瘫痪,导致北京、上海、广州、江苏、浙江、福建等18地的银行卡不能跨行交易,据不完全数据统计显示,34万家商户以及六万台ATM机因此受到影响。
近年来,由于系统故障而引致的银行卡跨行交易中断并非首次,不过仅限于小范围地区,这次受影响的持卡人、商户以及交易中断时间达到银联成立以来之最,也是金融系统之最。就此,银联在事隔6天之后发布了极其含糊的官方说法,表示“故障原因是由于银联新近准备上线的某外围设备的隐性缺陷诱发了跨行交易系统主机的缺陷,使主机发生故障。”
但同时银联又强调,这个结论还有待相关厂商的专家进一步确认。11月底,《信息周刊》记者电话采访银联询问最终结果。银联声称,虽已查明故障原因,但考虑到这属于银联内部的筹划,而且涉及的技术细节过于专业,用户可能难以理解,因此拒绝透露“主机致命”的真正原因。
不过,知情人士透露说,原来银联计划在4月25日上线一台新设备,20日上午工作繁忙时段,正当银联技术人员进行测试的时候,系统主机突然出现宕机,导致整个系统瘫痪,全国跨行交易无法正常进行。这一次宕机事件,反映出银联事前对产品测试中可能出现的问题估计不足,并没有估计到系统瘫痪的面积会如此之大、情况如此严重,事先所准备的应急预案只不过是针对小范围的故障的。
一次小疏忽引发了一场意想不到的大事故。受影响企业之一的杭州银泰百货公司信息部负责人金龙发指出:“如果考虑更周全一点,也许问题就不会发生。”关键系统的切换几乎都会选择在交易量最小的时间,如夜间进行,此时万一出现事故,也可将风险降至最低。
由于银联系统瘫痪了近9个小时,时间如此之长备受质疑。一般来说,当主机宕机之后,另一个备份机可以接管系统,保证系统的正常运行,从主机切换到备份机的时间不会很长。业内人士猜测,很可能是银联主机宕机以后,主机冗余不足或者备份机根本没有起作用,或者当初应急系统设计和建设不够理想,又或者是银联新上的系统和原系统有冲突,导致整个系统瘫痪。
不能坐等互联网强盗来“发现”你的致命弱点
2006年9月21日17点左右,作为中国三大域名服务提供商和网站服务提供商之一,北京新网数码信息技术有限公司(下称新网)的域名解析(DNS)服务器出现故障,其名下注册的约有10万左右域名不能访问,部分DNS还被解析到不正确的主机上。
来自新网的数据显示,该公司为超过60万家企业客户提供服务,占据了中国互联网基础服务业务20%以上的市场份额。此次灾难据不完全统计,造成了中国近3成网站从互联网上消失。直到第二天中午,新网才恢复其80%客户网站的正常访问。
尽管新网进行了积极的补救,而且事后新网也证实,DNS服务器出现问题是由于遭到大规模黑客攻击,但是,新网显然没有考虑到用户的感受,并没有就是否赔偿用户损失做出说明及承诺。新网处理此事略显粗硬的态度激怒了部分用户,在新网注册大量域名并在这次事件中被波及的中国网库发表声明,要求新网公开向中国网库道歉,同时赔偿直接和间接经济损失150万元。
互联网基础服务商遭遇网络攻击不是什么新鲜事,因此造成的服务中断事故也有多起。万网、百度等均曾因黑客攻击而导致服务中断。此类事件中,责任认定是最大的难题。在新网断网事件中,新网自身IT系统是否存在漏洞或操作上的失误,均无法为外人所知,但如果单纯将责任归咎于黑客攻击,显然对遭受损失的用户有失公允。
美国科学家的一项研究表明,似乎无所不能的互联网,却有着“阿喀琉斯之踵”(编者注:阿喀琉斯是希腊神话里的无敌英雄,可一旦被射中右脚后跟,就会轰然倒地。英语中意指致命的弱点。),只要几个关键环节被破坏,整个互联网将在瞬间瘫痪。互联网基础服务提供商时刻都会面临着与新网类似的危机,如何避免造成难以挽回的损失呢?加强自身的系统安全?减少漏洞?保证操作规范?这些也许还不够,公开透明的事后处理方式也同样重要。
(信息周刊)