信息化 频道

数据科学家称新型事务性数据值得关注

  【IT168 信息化】

  数据科学家开始在分析与商业智能领域中赢得声誉,随着数据容量、流动速度和种类的增长,它们一定会在分离信号的噪音方面发挥越来越重要的作用。分离信号的噪音是新创分析公司Metamarkets的CTO Michael Driscoll提出的。

  但是Driscoll认为吸引数据科学家的不会是非结构化数据;相反,他们关注的是结构化数据的粒度——特别是事务数据流。

  记者最近采访了Driscoll,对近几年的数据变化情况与数据分析工具进行了探讨。

  数据业务的种类在最近几年是如何变化的?

  Michael Driscoll:这实际上包含了一些变化趋势。首先是出现了传感器技术。这其中包括手机、导航设备或现金收银销售机器。我们的汽车和房子里安装了越来越多传感器,它们负责跟踪行为和事实,以及客户的选择与购物。这是导致数据容量与速度显著增加的原因之一。以前,虽然我们拥有了数量众多的设备,但是它们都没有得到足够的监控。这是趋势的一部分——带宽、存储和计算成本的指数级下降,使得以前保存相对昂贵的数据现在都可以被保存起来。

  最大且最受关注的数据是事务数据和事务流。以前,许多系统在设计时只是对事件进行概要分析,但是现在人们越来越有可能执行数据底层分析,即事务层。事务可能发生在超市信用卡刷卡机的刷卡操作时,发生在高速公路的电子收费区,以及发起电话呼叫时。所有这些事务都拥有众多的属性,通常是指在事务发生时或发生之后向实际的服务器发送的数据。所有这些事务就构成了整个世界的变化。对于我而言,这就是最有意思的结构化数据类型。

  为什么您认为事务数据是最值得关注的?

  Driscoll:事务代表着事实,如果建立模型,那么从真实操作建立模型要比从单纯说词建立模型更容易。同样,按照我的经验,如果要从我2年前任职的北美电信公司的顾客维系建立模型,我们可以取回全部客户通话日志,对准备放弃这个供应商的客户进行数据分析。我们可能已经做了这一步,并且执行了一些情感分析。人们可能会宣称(实际上人们通常会这样做)手机的信号质量有问题,他们经常会遇到通话断线问题。因此,他们是有情绪的,这正是他们取消合约的原因。如果我们分析真实的数据,我们会发现取消合约与信号质量、通话断线次数并没有很直接的联系。而更重要的是他们的朋友(经常通话的朋友)是否在上个月取消了合约。这就是问题的区别所在。结构化数据能够反映非结构化数据很难发现的真实情况。

  这些新数据源如何影响模型的建立方式?

  Driscoll:直到现在,许多关于实际数据的统计建模通常都只是针对非常小的数据集。或者,我可以说许多统计建模都是针对汇总数据执行的。随着支持每日数十亿的成熟事务数据的出现,它改变了公司建立客户模型的方式。这些模型变得更加复杂、更加强大且更具挑战性。最终,在模型的时间粒度方面,它改变了建模范围,将客户行为分析的周期从较长的季度或月份减小为分钟。(原文出处:http://www.searchdatabase.com.cn/showcontent_54245.htm?lg=t

0
相关文章