【IT168评论】对于大数据的准确定义众说纷纭,但一般认为Gartner的3V模型是对大数据最好解释——需要全新工具管理的high-volume(大容量)、high-velocity(高速率)、high-variety(高变化率)信息。到目前为止,许多人对大数据的概念还很模糊,为此ODCA(Open Data Center Alliance,开放数据中心联盟)计划推出“大数据消费者指导手册”,试图让各个企业了解什么是大数据、大数据为何重要及如何使用大数据获益。
ODCA(Open Data Center Alliance,开放数据中心联盟)创立于2010年,是一个全球IT企业产业联盟,旨在研发开放式云计算标准。ODCA的高层称“大数据消费者指导手册”是其云计算成果的延伸。“大数据环境能从许多云的范例中获益,”ODCA技术顾问John Pereira说。大数据的本质,特别是容量能在短时间内大量扩增的性质,令其能够很好地与云环境融合。“大数据能够让你更充分地考虑分布式的环境,一项云范例则可帮助你进一步建立该环境,”Pereira补充道。
指导手册总结了大数据平台对于各行业的重要性。例如银行业,可将大量不相关的资源及潜在的信用卡诈骗信息等融合在一起,以得出更有用的信息。除此之外,手册还提供了大数据的一般定义及术语,方便企业与大数据服务商之间的沟通交流。
指导手册同时也提到了IDC的惊人数据:现今企业中有90%的信息都是非结构化数据,且绝大多数以文档、电邮、备注及网络内容的形式存储。属于“大数据”范围的非结构化数据还包括传感器、设备日志、手机GPS信号、社交网站及网络交易等产生的机器数据。
“我们试图向企业们推荐与厂商无关的方案,并不会特别地照顾某一个厂商。”Pereira说。ODCA提醒各个企业需要谨慎部署自己的大数据策略,防止事倍功半。“任何人都希望以最高效的方式写入数据,那么如何预写信息就非常重要了,”ODCA执行董事Marvin Wheeler说,“不让数据如传统方式扩张也完全取决于数据的写入方式。”如何处理数据扩张是企业要面临的重要问题。据McKinsey Global Institute的数据,88%的美国企业部门数据的存储量大于美国国会图书馆。一些专家估计90%的数据是近两年才生成的。