信息化 频道

4大对策 找出当机原因才能避免灾害扩大

【IT168 业界资讯】  正如前面谈到,大当机发生的时候,其实很多时候会是综合的原因,现场处理的IT人员,其实不见得立刻就能掌握到底发生了什么事情。 这个时候,面对大当机事件,最重要的就是如何快速的釐清原因,然后才能拟定对策。这个时候,面对大当机事件,最重要的就是如何快速的厘清原因,然后才能拟定对策。

        判断病征,缩小运作范围,同时也要避免人为错误发生

  当机事件发生的时候,每个IT人员的第一步一定是想办法找出造成当机的可能原因,除了很明显的原因之外,其实有的时候还需要一些时间判断。 当然判断方式也有一定的指标可以参考,主要要先从影响范围来看,先判断是整个系统完全停摆,还是一部分系统停摆。当然判断方式也有一定的指标可以参考,主要要先从影响范围来看,先判断是整个系统完全停摆,还是一部分系统停摆。 然后再进一步从另一个指标来看,那就是分辨系统是在运作中突然停止,还是在刚起动的突然停止。然后再进一步从另一个指标来看,那就是分辨系统是在运作中突然停止,还是在刚起动的突然停止。

  如果只有部分系统停摆,其他都还运作正常,那软体本身出了问题的可能性很高。如果只有部分系统停摆,其他都还运作正常,那软体本身出了问题的可能性很高。 如果确定软体没有问题,这时候可以再依据刚起动或是运作中突然停摆来判断,是不是发生了设定和操作上的错误,或是突发的硬体故障。如果确定软体没有问题,这时候可以再依据刚起动或是运作中突然停摆来判断,是不是发生了设定和操作上的错误,或是突发的硬体故障。 如果是起动时就有部分系统停止,很有可能是设定和操作的错误;而如果是运作中突然一部分停摆,那很有可能是发生了硬体突然故障的状况。如果是起动时就有部分系统停止,很有可能是设定和操作的错误;而如果是运作中突然一部分停摆,那很有可能是发生了硬体突然故障的状况。

  而如果是整个系统停摆,同样也能从在运作中突然停止,还是在刚起动的突然停止,来做一些初步原因的摸索。而如果是整个系统停摆,同样也能从在运作中突然停止,还是在刚起动的突然停止,来做一些初步原因的摸索。 如果是在运作中突然停止,那麽很有可能是软、硬体的性能或是容量不足造成的原因,当然硬体突然故障和软体的问题也不能排除;而若是在刚起动时的突然停止,那很有可能是设定和操作上的失误,不过同时也必须考量到软、硬体是不是哪裡容量不足,导致无法正常运行。如果是在运作中突然停止,那么很有可能是软、硬体的性能或是容量不足造成的原因,当然硬体突然故障和软体的问题也不能排除;而若是在刚起动时的突然停止,那很有可能是设定和操作上的失误,不过同时也必须考量到软、硬体是不是哪里容量不足,导致无法正常运行。 当然这边说的只是简单的原则与初步判定的方法,实际还是有赖经验与现场状况而定。当然这边说的只是简单的原则与初步判定的方法,实际还是有赖经验与现场状况而定。

  值得注意的是,当原因确定之后,很多时候的处置是先把问题发生的部分暂停,这时企业或组织的营运势必受到影响,一定程度的流程必须改以手动或是其他流程来进行,而连带往往会造成营运端人员的溷乱,IT人员的压力也随之增大。 但这正是关键时刻,IT人员要特别注意在替代方桉实行时,不能够再发生人为操作上的疏失,否则很有可能会让灾害扩大,造成二次灾害。但这正是关键时刻,IT人员要特别注意在替代方桉实行时,不能够再发生人为操作上的疏失,否则很有可能会让灾害扩大,造成二次灾害。

  前面谈到的日本银行二次扣款事件,就是一个显着的例子,正是由于在慌乱中疏忽,反而又造成了更严重的错误与伤害。前面谈到的日本银行二次扣款事件,就是一个显着的例子,正是由于在慌乱中疏忽,反而又造成了更严重的错误与伤害。

  这个时候如果有标准应对流程,就可以减轻慌乱造成的风险。这个时候如果有标准应对流程,就可以减轻慌乱造成的风险。 不少企业如果平时就有着眼在永续经营的标准和作法,事实上很多都有了当机应对的标准流程。不少企业如果平时就有着眼在永续经营的标准和作法,事实上很多都有了当机应对的标准流程。

  此外,在发现原因后,IT人员最好能够透过明确的描述和文字记录下来,例如哪台伺服器的哪个部分出现问题;或是哪个程式的哪裡出现了错误。此外,在发现原因后,IT人员最好能够透过明确的描述和文字记录下来,例如哪台伺服器的哪个部分出现问题;或是哪个程式的哪里出现了错误。 这不仅有助于传递讯息,而且由于很多时候大当机事件的原因并非只有单一问题,所以在一阵慌乱的处理中,有些已经发现的问题很容易在事后就被遗漏掉,让这些问题又因为被遗忘而没被修复,形成未来更大的问题。这不仅有助于传递讯息,而且由于很多时候大当机事件的原因并非只有单一问题,所以在一阵慌乱的处理中,有些已经发现的问题很容易在事后就被遗漏掉,让这些问题又因为被遗忘而没被修复,形成未来更大的问题。 而且这样的做法也有助于找出当机事件的真正原因,有的时候背后还隐藏着更大的问题未被发现。而且这样的做法也有助于找出当机事件的真正原因,有的时候背后还隐藏着更大的问题未被发现。

        不光是IT部门本身,也要建立对外沟通的紧急管道

  还有一点常被忽略的做法,就是当机事件发生的时候,如果影响到了营运,很多时候IT部门因为焦头烂额,往往会忘记在这个时候快速建立对外沟通说明的管道。

  包括营运部门、经营层、使用系统的单位等,甚至与客户联繫的客服部门,其实在大当机事件发生的时候,往往都还是处在一团迷雾之中,并不了解真正的状况、暂时能够替代的方法等,导致企业瞬间瘫痪,甚至影响商誉。包括营运部门、经营层、使用系统的单位等,甚至与客户联系的客服部门,其实在大当机事件发生的时候,往往都还是处在一团迷雾之中,并不了解真正的状况、暂时能够替代的方法等,导致企业瞬间瘫痪,甚至影响商誉。

  这件事情不能不谨慎,否则可能会对企业造成很大的伤害。这件事情不能不谨慎,否则可能会对企业造成很大的伤害。 事实上国内就有实例,主机代管厂商战国策,2009年初就有过因为网路客户资料管理系统的设定错误,导致搜寻引擎上就能找到使用者详细资料的客户资料外洩事件。事实上国内就有实例,主机代管厂商战国策,2009年初就有过因为网路客户资料管理系统的设定错误,导致搜寻引擎上就能找到使用者详细资料的客户资料外泄事件。 但战国策却没有在第一时间通知客户,这也使得商誉受到了一定程度的损失。但战国策却没有在第一时间通知客户,这也使得商誉受到了一定程度的损失。

  应对这样的事态,其实IT部门应该建立起一套紧急的联络网,而且不光是IT人员要纳入其中,在当机的第一时间除了处理IT方面的问题,也同时要与相关的部门联繫,并且在确保了暂时代替的方桉后,最好能够快速的告知相关部门,除了告知处理状况之外,也应该快速告诉使用单位代替方桉的运作流程与方式,如此才能确保使用单位不会因为不知道替代方桉,或是不熟悉代替方桉的流程,又造成业务上的错误。应对这样的事态,其实IT部门应该建立起一套紧急的联络网,而且不光是IT人员要纳入其中,在当机的第一时间除了处理IT方面的问题,也同时要与相关的部门联系,并且在确保了暂时代替的方桉后,最好能够快速的告知相关部门,除了告知处理状况之外,也应该快速告诉使用单位代替方桉的运作流程与方式,如此才能确保使用单位不会因为不知道替代方桉,或是不熟悉代替方桉的流程,又造成业务上的错误。

  当然,要做到这些,先决的条件还是必须要能紧急找出问题。当然,要做到这些,先决的条件还是必须要能紧急找出问题。 而找出问题,事实上就如同一开始谈到的,其实和IT人员日常对整个流程以及系统状况的了解有很大关係。而找出问题,事实上就如同一开始谈到的,其实和IT人员日常对整个流程以及系统状况的了解有很大关系。 也就是要建立一个足够透明化的方法,让IT人员能够掌握必要的资讯。也就是要建立一个足够透明化的方法,让IT人员能够掌握必要的资讯。

  例如伺服器和系统运作,有很多套装工具可以监测。 在虚拟机器上,除了VMware、微软等虚拟化平台厂商原本就提供的工具外,像是Novell、vFoglight等厂商,也都提供系统监测的工具;而实体平台上像IBM、Novell、HP等厂商,也有监测的工具。在虚拟机器上,除了VMware、微软等虚拟化平台厂商原本就提供的工具外,像是Novell、vFoglight等厂商,也都提供系统监测的工具;而实体平台上像IBM、Novell、HP等厂商,也有监测的工具。 甚至Windows作业系统也提供免费的监测工具。甚至Windows作业系统也提供免费的监测工具。 这些实际监控资讯的收集记录,其实有时候能够协助IT人员防范当机事件于未然,只有先了解自己的硬体和系统状况,才有可能在当机的时候做出迅速的反应。这些实际监控资讯的收集记录,其实有时候能够协助IT人员防范当机事件于未然,只有先了解自己的硬体和系统状况,才有可能在当机的时候做出迅速的反应。 当然能够了解企业运作的流程,又会更有帮助。当然能够了解企业运作的流程,又会更有帮助。

0
相关文章