信息化 频道

数据挖掘绝非“大忽悠”也不是“懵懂少年”

为何缺乏一将难求的复合型项目人才?

  数据挖掘的实现是一个流程,是需要一个团队来实现的。由于项目的实施具有很强的背景色彩,需要具有行业知识的业务人才参与。缺乏复合型人才,正说明了社会对数据挖掘的广泛需求。这个年轻的领域还未有足够多的人才投入进来。如果数据挖掘的教材和萨师煊、王珊老师的《数据库原理》一样,充盈在中国的高校里,这个问题可能就会迎刃而解了。

如何解开实施过程中CEO的心头疙瘩?

  《数据挖掘:炒着热吃着冷》一文认为:“数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。”其实,数据挖掘后产生的结果不一定都有价值,需要人去评价筛选。实施过程也是极其多样,因为挖掘的本身具有启发式性质,是用来辅助预测的。

  该文中提出的CEO会与实施人员产生矛盾的几点,笔者认为其实都有办法解决。

  一是争议自变量的选择权。确定哪些因素与目标变量有关系,CEO和实施人员往往各执一词。其实大可不必。数据挖掘本身就是挖掘潜在的规则,谁也不能肯定各个自变量为决策做出的贡献。不断的迭代,调整模型,用挖掘的结果来使挖掘者满意,而不是用挖掘的输入来说服CEO(包括说服挖掘者本身)。理想的方式是由结果来决定的,并不能由CEO和挖掘人员双方结合决定,双方只是提出各自的意见,再因为谁主谁辅而争执不休岂不多余?

  二是在客户群体分类的粒度上,若干问题没有一定的衡量标准。挖掘模型可以根据客户的需求通过调整参数来调整模型的输出,再苛刻的CEO也会有一个满意的吧。

  三是CEO对数据挖掘以概率值示人的结果质疑。岂不是不符合人之常情?现实中的事情有哪些不是在概率的基础上预测的,数据挖掘给出概率的可能性来支持决策是多么的正规合理啊。

质疑“挖掘结果未必能改善现状”

  《数据挖掘:炒着热吃着冷》一文认为挖掘结果未必能改善现状,并给出若干事例加以说明,笔者认为应该辩证的看待这一问题。

  比如,文中提到“数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实”。这正是数据挖掘的特点,如果他能告诉使用者为什么,他就不叫机器学习了;如果他能保证潜在的用户成为现实,就不属于应用技术的范畴了。

  文中举例,“美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。”——虽然没有改善的经营状况,但抱怨停止了,企业的形象提升了,能说没有改善现状吗?再者,生产商既然挖掘出原因,为什么他们采取的措施是换上新的包装,而不是在实际产品中增加冰激凌中的水果数量呢?这并不是数据挖掘技术本身的问题,关键还在于应用者的理解和能力。

  数据挖掘毕竟是新事物,是一种新崛起但不成熟不完美的技术。他还有一条漫长的道路要走,但他会走这条漫长的道路,因为需求是极广大的。

0
相关文章