【IT168 信息化】我们不能阻止云服务提供商服务中断。但是,有许多方法可以保护自己。
分散存储
亚马逊4月份发生的声名狼籍的云服务中断事故使包括Foursquare和Reddit在内的一些流行的网站断网。但是,亚马逊的许多客户安全渡过了这场风暴,没有发生断网故障。
这些用户设计自己的系统具有弹性,使用多个可用的区域,在传统的数据中心进行热备份或者在云提供商设置中有一个备份并且准备在一旦出现故障时开始运行。
硅谷的照片共享公司SmugMug甚至在其竞争对手断网的时候仍然在这个中断故障期间保证了连接。保证连接的部分原因是SmugMug没有使用亚马逊的弹性块存储。亚马逊的这个服务组件发生了断网故障。
但是,SmugMug还把它的系统分散在亚马逊称作“可用区域”的几个数据中心。
SmugMug首席执行官Chris MacAskill称,其它公司如果也把自己的应用程序分散开的话也能在中断故障时保持连接。MacAskill还建议企业使用多个亚马逊区域,这些区域比可用区域的隔离程度还要高。当然,亚马逊要对使用多个区域收取额外的费用。因此,这些需求需要考虑。
SmugMug主要依赖亚马逊,使用亚马逊基于云的S3(简单存储服务)服务存储用户的照片和视频。SmugMug还使用许多EC2(弹性计算云)的实例。但是,SmugMug没有使用亚马逊的弹性块存储,而是仍然使用传统的数据中心。亚马逊弹性块存储附加在单个的EC2实例,通常用于存储运营数据。
MacAskill称,那有它自己的弱点。例如,在亚马逊发生中断故障的那个星期,该公司失去了一个核心路由器、它的备份和一个核心的主数据库服务器。我希望我不必再处理路由器或者数据库硬件故障问题。这是我们仍在朝着云方面发展的原因。
他说,尽管发生中断故障,他从亚马逊得到的基于云的服务仍比SmugMug自己的东西好,并且比其它云服务提供商的服务好。我们完全相信这些服务。
以色列的创业企业Kitely仅使用一个亚马逊的可用区域。但是,幸运的至这个区域没有发生中断故障。
然而,Kitely计划从这次体验中吸取教训。Kitely负责研发的副总裁Oren Hurvitz称,我们打算把我们所有的服务分散到多个可用区域。
Kitely运行基于OpenSim平台的基于云的虚拟会议和协作环境。Kitely不断地进行检查以保证其服务的正常运行。
Hurvitz称,我们的系统是根据任何服务都可能在任何时间停止工作的假设设计的。如果我们发现一台服务器没有反应,那么,我们就关闭这台服务器并且启动一台新的服务器。