信息化 频道

Yahoo前任数据官:数据挖掘与分析技巧

  【IT168 信息化】

  没人怀疑数据质量是一个企业商业智能的基础,但是除了质量之外如何管理数据,特别是如何管理海量数据给每一个企业提出了难题。

  所谓的“Big Data”是由IBM和Gartner分析师提出的概念,我们比较时髦的称其为大数据,根据Yahoo公司前任首席数据官兼副总裁Usama Fayyad的说法,处理大数据能够测试一个企业的传统数据仓库能力,如ETL等。

  为何说“分析”是大数据的未来?

  Fayyad曾被视为数据挖掘领域的No.1,他演讲大多是来自于亲身经历,他向我们解释了为什么说分析是大数据未来的发展方向。

  早在上世纪90年代,Fayyad就职于NASA的喷气推进实验室。来自于Palomar天文台的科学家共管理者3个TB的数据,他们通过各种照片以及公式来试图区分银河系中的各种行星。而每张照片中都将抽取出40多个不同的变量,这使得精确预测成为不可能完成的任务。

  Fayyad说:“这个数据集意味着数十亿个看上去类似的对象。”

  Fayyad和他的团队使用了决策树算法作为数据挖掘的基础,来确定这40多个变量对不同分级的作用,他们最终找到了8个变量的集合,正是这8个变量困扰了天文学家将近30年。

  “这在天文观测领域是一件轰动的发现,而建立的数据模型能够将准确率提升到94%。” Fayyad说。

  但并不熟所有的分析技术都像天文观测这样复杂,有些时候很小的元素甚至是很明显的元素都是非常重要的。

  Fayyad和他的团队在2003年成立了DMX公司,专注于数据挖掘领域,并在2004年被互联网公司Yahoo收购。之后,Fayyad又帮助戴姆勒克莱斯勒公司进行微市场销售预测工作,除了建立一些数据集市之外,他还在报表呈现上做了一些工作。Fayyad向我们介绍,当报表以不同的方式呈现出来之后,结果变得非常明显,然而这里面的数据时没有变化的,都是他们之前的数据。

0
相关文章