信息化 频道

川庆物探:IT运维能力决定“找油”能力

  【IT168 评论】在这个人人关注大数据的时代,对海量数据进行处理有着强烈需求的企业很容易被视为大数据技术应用的潜在用户,IT界似乎更关心那些涉及大数据的新技术如何为这类用户带来价值。但事实上,目前真正困扰这类用户的IT难题,往往根本不需要用大数据这样超前的技术去解决。用简单易用的技术去满足这些被长期“忽略”的需求,其用户价值未必不如那些尚不成熟的大数据技术可观。

  在处理海量数据上,一直有强烈需求的石油勘探行业,正流行着各种关于云计算、Hadoop的技术普及潮流。但在川庆物探研究中心计算所主任工程师郭玲看来,这些前瞻的新技术,目前与石油勘探行业业务应用的结合点并不十分清晰,是否能够提升“找油”能力也还有待考量。真正影响整个行业“找油”能力的是企业的IT运维管理能力,而这个难题,却常常被IT厂商忽视。

  “糖果”带来的计算压力

  技术的进步让“凭经验找油”的时代一去不返,今天的石油勘探项目都是“从数据中找油”。通过地震波法采集相关的地质数据,再对这些数据进行相应的分析、解释获取准确的油藏信息,已成为石油勘探业高效“找油”的关键保障。

  对石油勘探项目而言,除了存储海量数据的设备外,最关键的IT资源就是计算资源。因为采集上来的地质数据往往数量庞大,而且需要通过地震资料处理类软件和地震资料解释类软件经过复杂的运算才能完成数据分析工作,这两类软件分别用于地震数据的处理(包括去噪、反褶积、动静校正、速度分析、叠加、偏移、反演、地震监测)和地震数据的解释,其所需要的运算量相当庞大。“在我们这个行业,采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算,通过矩阵的变化,迭代后会产生更庞大的数据量。但处理结果输出时,又需要进行大量计算,最后变成与原始数据体量规模类似的数据。”郭玲告诉记者,地质数据在整个处理过程中,体量的变化就像一个“糖果”:两端小,中间大,数据处理的每个过程,对计算资源的需求量都非常大。

  为了保障勘探项目的顺利进行,为各项目组提供服务,川庆物探研究中心计算所投资建设的高性能计算平台有2000多个计算节点,近4万个CPU,每个CPU的核数超过了1万。硬件上的投入看似已经到位了,但当项目繁忙、需要很多应用软件同时在高性能计算平台上运行的时候,系统的稳定性就会出现问题。

  “我们应用的处理软件种类有十几种,解释软件有二三十种,对于分配给不同软件的计算资源、内存是否够用,是否有因CPU过热导致系统出错等问题,因为无法‘透视’相关信息,我们很难搞清。计算节点太多了,没有可视化的工具,我们只能通过Linux系统提供的一些字符命令查看某些计算节点的状况,全靠手工调整资源,管理效率极低,根本无法保证业务软件能够100%正常运行。”这种状况带来的直接影响是,计算所不得不为这些软件预留出更多的计算资源以备不测,以“资源浪费”换“保险”。郭玲直言,项目忙的时候,计算资源常常不够用,但实际上有很多资源被闲置浪费了,完全可以分配给其他软件使用。所以,在计算平台构建起来不久,如何让计算平台上运行的软件所占用的计算资源的情况直观地显示出来,成为了他们当时最需要解决的运维难题之一。

川庆物探:IT运维能力决定“找油”能力

  破解第一个运维难题

  川庆物探研究中心计算所的高性能计算平台的规模并不算小,但按照郭玲的话说,项目忙的时候,计算资源依旧捉襟见肘。从长远发展的角度看,计算资源也是非常有限的资源。为了解决这个问题,他们咨询了不少IT运维管理软件厂商,最后发现并行科技的Paramon和Paratune运维软件和他们的需求相对匹配,破解了他们的第一个运维难题。

  “过去,最影响计算平台效率的是看不见这些资源的状态,更看不见它们与应用的关系。我们需要更直观的方法去查看、了解所有计算资源的状态,并分析、统计这些计算资源是否被充分利用,空闲的资源能否被分配给其他软件,在用的资源是否正常运转,出问题的资源在哪儿,是否需要调整。”郭玲表示,让所有计算资源的状态实现可视化是IT运维的基础,所以运维软件必须要能直观反映出机群整体及节点服务器部件的运行情况,帮他们快速衡量出软件对硬件的实际需求,准确、高效地建立软件与硬件之间的对应关系。

  “CPU、GPU的相关数据,温度、利用率、内存都可以直观看到,用了这些运维管理工具和过去有很大不同。现在,不管是机群监控,还是管理都可以更便捷、更高效,虽然还不能自动调配资源,但通过可视化的运维,进行资源调配时完全可以有的放矢,机群的整体工作效率明显有所提升。”她说,现在还可以在运维平台上查看应用运行特征的状态分析,为软件系统优化提供了客观的基础数据,保证了软件优化的正确性和高效性。

  有可视化、图形化的运维平台做保障,实现系统预警就有了基础。虽然目前计算资源的调度工作依旧只能依靠手工实现,但至少他们可以知道问题出在哪儿,哪些资源已经超负荷,而哪些资源还被闲置。 “现在可以相对轻松地监控运行在计算平台上的应用能否顺利完成,了解什么时候分配给应用的计算节点已达到峰值。如果当前CPU利用率较低,就可以将要运行的软件加载上去,提高平台的处理效率。如果某个应用占用了10个节点,我们可以清晰地看到这10个节点的运行状态、内存占用状态等。”郭玲表示。

  在项目忙的时候,郭玲和她的同事们不会再手忙脚乱了。

川庆物探:IT运维能力决定“找油”能力

  机房管理将决定“找油”效率

  “机房管理的自动化是我们迫不及待想解决的问题。”在郭玲看来,像川庆物探研究中心计算所这样,承载地学研究、勘探数据分析等任务的石油勘探行业的研究所或计算中心都面临着同样的难题。随着数据规模不断增长,计算压力逐渐变大,计算所的规模也在扩大。光川庆物探就有三个数据中心,两个在成都,一个在新疆,需要管理的硬件、软件的数量越来越多,管理人员的数量却没有增加,手动管理已不现实。要想确保业务顺利开展,所有的可监控的业务都应该做到提前报警,并做好监测预案。

  郭玲强调,在这个行业,最耽误不起的是时间。现在项目进度快、压力大,配合项目完成数据处理和解释的时间都是有严格规定的,一旦出现问题或丢失数据,只能靠投入更多的时间、人力、物力去弥补,用户就“不答应”。如果不能保证项目的进度,每一年计算所对IT投入的规划就必然会受到质疑。

  从整个行业目前机房运维的状况来看,自动化程度还非常低。运维管理软件只能做到“半自动”,计算、存储资源的控制、调度还是要手动操作。“川庆的三个数据中心现在也只能各管各的,远程监控还没有实现。实际上,我们更希望在这个领域多做研究,实现机房统一、远程、自动化的管理,让投资的硬件、软件资源的利用率更高,保障业务、为业务服务。”

0
相关文章