【IT168 信息化】
“数据科学家”一词依旧魅力不减。作为向数字、社交和移动媒体公司交付预言分析产品的新创公司,Metamarkets的首席技术官和共同创始人Michael Drisoll表达了上述观点。
尽管Driscoll使用这个词汇来描述分析与商业智能领域的新角色,但是其他公司并未决意仿效。对这个概念的争议依旧难分仲伯。
Driscoll将数据科学家比作土木工程师。
他说:“土木工程师既是物理学家又是建筑工人。”同样,数据科学家必须能够在数据领域的理论与实践之间发现平衡点。
TechTarget网站最近就关于数据科学家及将来他们如何使用预言分析探寻结果的问题采访了Driscoll。
什么是数据科学?
Michael Driscoll:数据科学是一个新词汇,与其他新东西一样,是一个不断变化的词汇和概念。实际上,数据科学家就是结合了数学家与统计家的理论知识与软件开发人员的实践工程技能的人。近十年来,作为一门涉及统计学、应用数学和计算机科学的交叉学科,机器学习领域开始复兴。但是,所有这些理论成果的使用都离不开编写代码。所以,数据科学家是一种综合了理论与实践的混合型人才。
在谈论到数据科学的实践环节时,您所指的是什么?
Driscoll:通常,我认为数据科学家具有三个技能。一是“数据整理”,包括熟练地分解、转换、提取和处理数据的能力。二是数据建模,主要是获取一组数据,能够开发数据的假定模式,并测试统计工具的假设。三是数据可视化。一旦将数据转换为一种可用形式(第一种技能),并开发了关于数据特性与某些观测值和数据输出之间关系的模型(第二种技能),然后以一种决策者理解的方式表达发现的结果。这需要一定的表达能力,或者可视化表述的能力,这正是数据可视化的作用所在。
为什么叙述如此重要?
Driscoll:如果一位数据科学家想要在海量信息和海量信息输出的时代有所作为,那么我们需要掌握一些高效的信息处理方法。数据可视化正是其中一种方法。事实上,它可能是我们可以利用的最高效的信息处理方法。
如何组合预测分析和数据科学?
Driscoll:数据也是数据处理的结果。所有数据科学的最终目的都是预测用户与系统的行为。实际上,仅仅了解数据的表面信息是不够的。您要能够预测未来将发生什么。根据Popper的介绍,科学技术的唯一目标是预测真理。而预测也是数据科学家工作的真正目标。它是前瞻性的,而不是历史回顾。有人可能会说,商业智能及其报告都是关于过去发生的事情;预测分析则是关于未来。
然而,有人认为预测分析需要回顾过去才能预测未来。
Driscoll:这是必然的!预言分析的目标是研究过去,但是最终目的是预测未来。举个例子,社交平台尝试理解用户在社交系统上的行为,发现那些可能触发更高平台参与度的行为,有可能他们在注册后三个月内都保持活跃。因此,他们会查看用户的历史操作,即回顾过去。此外,社交平台还分析用户性别、朋友数、教育经历。他们会从不同角度观察用户特性,然后在三个月之后,他们会研究哪一些观察特性可能引起将来最高的用户参与度。他们发现,朋友数是最高相关度特性,它促使用户在三个月中更积极地使用社交平台。这就是预言分析成果。结果,当用户注册使用社交平台之后,他们会尽可能地推荐更多人加入您的网络。预测分析的实际目标是将观察的事件与结果联系在一起;这可能是最简单的做法。分析的方法还有很多,但是您最终会建立一个系统数学模型。要测试该数学模型是否正确,您需要进行预测,然后观察后续的事件是否确实与系统假设相符合或冲突。
但是,建立模型真的需要数据科学家的参与吗?
Driscoll:下面介绍的是一个预测模型:信用卡购物行为及其是否为欺骗行为的特性。假设两个特性是购物时间与购物发生国家。在一些情况下,只需要以可视化方式显示不同国家的信用卡欺骗行为,您很快会发现结果。当信用卡所有人位于美国,而购物发生在爱沙尼亚,那么这些购物行为就都是欺骗行为。您实际上不需要使用统计模型,就能够得出结果。您只需要绘制出数据。事实上,只有当区别非常微小时,您才需要使用统计技术来确定所观察的趋势是否有效。显而易见的事情是很容易处理的。只有在分析更细微的差别时,我们才真正需要使用统计技术来区分噪音与信号。(原文出处:http://www.searchdatabase.com.cn/showcontent_53785.htm?lg=t)