信息化 频道

数据挖掘绝非“大忽悠”也不是“懵懂少年”

  [编者按]两个月前,IT168年信息化频道编辑撰写的《数据挖掘:炒着热吃着冷》一文中揭示了目前国内数据挖掘行业的四种怪现象,并质疑数据挖掘对于国内企业的真正价值。ITPUB网友 DMmanDMman对此展开更深层次的剖析并形成了本文。我们欢迎这样的声音,我们期待更多网友的互动!


数据挖掘绝非“大忽悠”也不是“懵懂少年”

  【IT168 专稿】正如所有受到常用注目的新兴技术一样,数据挖掘的运用也是极其多样化的。言过其实的报导声称可以建立算法,在数据的海洋里发现秘密。但事实上机器学习中没有魔术,没有隐藏的力量,没有炼金术。有的只是一些可以将有用的信息从原始数据中提炼出来的清晰明了的实用技术。                       ——摘自《数据挖掘:实用机器学习技术》前言


  讨论数据挖掘是“大忽悠”还是“懵懂少年”,实质上就是指数据挖掘“要不要”和“行不行”的问题。认为数据挖掘是“大忽悠”的人,是因为他们没有认识到数据挖掘的价值,才认为数据挖掘是没有必要的;认为数据挖掘是“懵懂少年”的人,是因为他们没有学会正确运用数据挖掘,才认为数据挖掘的结果是没有价值、不成熟的。事实真的如他们所说吗?

  自然法则的原则是生存即有意义,需求推动发展。数据挖掘近年来在研究和应用中的突飞猛进,绝非若干人心血来潮的结果。笔者认为数据挖掘虽不是企业的“救世主”,但也绝非“大忽悠”。数据挖掘在国内发展不尽如人意,关键还是在于实施者和应用者对这一技术的理解和掌控能力有限。

为何出现“大企业成功案例少,中小企业需求小”的尴尬局面?

  数据挖掘在“大企业成功案例少,中小企业需求小”,这种状况的确存在。之所以出现如此的境况,原因是多方面的:企业面临着障碍,软件存在着缺陷,关键还是缺少人才,特别是复合式人才、懂数据挖掘的人才。笔者认为,软件本身的缺陷是次要的。软件虽然不完美,但在某些方面已经趋于成熟,使用者不能通过运用它获得价值,关键还是自己有问题。

  数据挖掘有三个步骤:准备——输入数据收集和整理;实现——统计建模和数据分析;可信度——输出结果的评价和整理。从目前的实施情况来看,大部分实施人员都把精力和注意力放在第二个阶段(其实这个阶段的工作中,机器是主体,人是辅助体),而没有重视繁琐无味而又至关重要的输入准备中,笔者认为,这很可能就是很多大企业实施失败的原因所在。

  正如《数据挖掘:炒着热吃着冷》一文中所说的:“即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。数据是数据挖掘应用的依据,数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。”本来数据质量就不高,再不能妥善合理的转换整理,挖掘的结果可想而知。试想:吃的米饭里不除尽沙子,造成消化系统的工作不良,何能先去质疑胃的功能呢?

0
相关文章