中国计算机报观察：大数据五大悖论-信息化专区

中国计算机报观察：大数据五大悖论

作者：张建设编辑：李焕珠 2013-05-14 14:46 来源：中国�

【IT168 评论】大数据已被提升到国家战略高度。美国启动了“大数据研究和发展计划”，动用美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局和美国地质勘探局等6个联邦政府部门的资源，大力推动大数据相关收集、组织和分析工具及技术的研发，致力于开放型、共享型政府建设。

　　大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后，当今的数据爆炸孕育了数据密集型科学，将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。

　　大数据具有“取之不尽，用之不竭”的特性，在不断的再利用、重组和扩展中持续释放其潜在价值，在广泛的公开、共享中不断创造着新的财富。

　　然而，大数据的3V特征也好，4V特征也罢，仍然没有撇清与海量数据、超大规模数据的关系;为数不多的应用案例，依然难逃传统数据分析和数据挖掘的嫌疑;大数据的实时分析、产品的关联度分析，很难抹去精准营销、精益管理的传统思维定式。这更像是一种“新瓶装旧酒”的困局，一种“唐·吉诃德式”的悖论——越是强调大数据的实践应用，就越扼杀大数据的潜在价值。

　　为何如此?根源在于，大数据的价值在于预测未知领域、非特定因素的未来趋势，在于破解长期的、普遍的社会难题。而目前的大数据技术和应用，依然局限于历史和实时数据的关联分析，局限于满足短线的、特定的市场需求。

　　“解决我，不然我将吞掉你的体系”。正如当年罗素悖论试图颠覆现代数据基础——集合论一样，破解社会难题与苟安于市场需求的悖论正在向大数据宣战。解决悖论的过程，恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力，正好是大数据落地生根的推动力。

　　方法论缺位

　　大数据与海量数据、超大规模数据有何不同?如何跨越学术与产业、技术与应用的鸿沟?

　　自2008年《自然》杂志推出“大数据”专刊以来，大数据概念就从学术大讨论，转向了企业的数字化转型，进而上升到“开放政府数据”的战略布局。然而，单纯的数量上的规模庞大，并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开，因为三者均没有设置数量级等门槛。

　　概念的模糊，没有影响到大数据概念的炒作，却着实影响到了大数据应用的推广。IBM对全球95个国家和地区、26个行业的144名业务人员或IT专业人士做了调研，该调研发现，大多数企业已经认识到大数据的决策价值和业务优化的潜能，但是他们对布局企业数据战略却束手无策，甚至多数企业不确定如何推进大数据应用。这一现象可以归因于企业管理者对于大规模投资大数据和高级分析工具，特别是对数据科学家等人才的需求，表示怀疑。因为他们还没有认识到从哪里获取数据，一些企业还没有抹去数据仓库与业务无法融合的阴影。

　　老生常谈的大数据3V或4V特征，更是让CEO们望而生畏。“大数据是指利用广泛信息源来推动实时决策的做法。”哈佛商学院客座教授托马斯·达文波特在接受媒体采访时的阐述可能曾让企业家们怦然心动，但他接下来的解释却与IT企业的说辞没太大区别。在达文波特看来，大数据的特征可以用3个'V'来描述：数量(Volume，大量数据)、速度(Velocity，数据变化很快)以及多样性(Variety，数据源内部的和外部的，系统的和散乱的)。有时还有第4个V：真实性(Veracity，反映数据质量)。加上IDC和Teradata给出的另一个V——价值性(Value，数据的使用价值和潜在价值)，这些概念和定义均没有回答大数据与业务融合的问题。

　　方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望，满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天，在廉价的、便捷的数字化存储普及的当下，数据无处不在，技术正以标准化、商品化的方式提供，事实上思维和方法论才是决定大数据成败的关键。但目前来看，跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善，以至于被大数据畅销书和大数据技术服务公司反复借用的大数据应用案例，均是一些蹩脚的例证。

　　预测能力待考

　　凭什么说大数据预测是准确的?有什么依据证明数据推动型战略有利于提升企业业绩?

　　“运用大数据做决策的那些行业前三名企业，比其竞争对手在产能上高5%，在利润上高6%。”这是麻省理工学院的数字商业中心最近完成的一个调查的数据。该调研还发现：越是自定义为数据驱动型的公司，越会客观地衡量公司的财务与运营结果。

　　的确，被誉为大数据应用楷模的谷歌、亚马逊等数据型公司在2013年第一季度确实取得了不俗的业绩。其中谷歌营业收入增长了31%，亚马逊增长了22%。但是，一些大数据技术和解决方案服务的公司并没有取得如此的业绩。比如IBM第一季度营业收入下滑5.1%，净利润下滑1.1%;微软第一季度营业收入下滑8%，净利润下滑22%;英特尔营业收入下滑2%，利润下滑25%。

　　“几家欢乐几家愁”的业绩表现，与大数据有关还是无关呢?这与大数据预测是否精准的问题同样难以回答。学术界、企业界都不会质疑大数据的预测功能。《大数据时代》一书的作者维克托·迈尔-舍恩伯格说，大数据的核心就是预测。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。他认为，大数据大大解放了人们的分析能力。一是可以分析更多的数据，甚至是相关的所有数据，而不再依赖于随机抽样;二是研究数据如此之多，以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究，而可以在相关关系中发现大数据的潜在价值。因此，当人们可以放弃寻找因果关系的传统偏好，开始挖掘相关关系的好处时，一个用数据预测的时代才会到来。

　　遗憾的是，无论是IBM的大数据接受程度调研，还是麻省理工学院的大数据战略效果评估，都是传统的随机抽样，甚至是结构性访谈，而非大数据的全体数据、模糊数据采集。被广泛引用的谷歌预测H1N1流感传播轨迹、沃尔玛将啤酒和尿布摆放在一起的故事，无非是产品和词汇的关联性分析。同样，《少数派报告》讲述的华盛顿特区警局预测犯罪的故事，也不过是电影的情节，而且与“无罪推定”、“犯罪的四个要件(犯罪主体、犯罪的主观方面、犯罪的客观方面、犯罪客体)”等常识相悖。

　　马克·吐温说：历史不会重演，但自有其规律。技术的进步让人类揭示历史规律更加便捷和更有可能，大数据技术的进步就是其中之一。因此，与其说大数据的核心价值是对未来的预测，不如说是对过去沉睡的规律的揭示。在“自证预言”等复杂因素的作用下，大数据对社会的一些预测和判断，很可能到后来只是“事实证明”。

　　数据并非功能较多

　　怎样做决策?谁来做决策?这样的问题只能由企业家回答，大数据充其量是“用数据说话”的旁证。

　　数据之于信息社会就如燃料之于工业革命，是人们进行创新的力量源泉。没有大量鲜活的数据和健全的服务市场，这些创新就实现不了。这是维克托·迈尔-舍恩伯格的观点。一些学者更进一步，将大数据视作第三次工业革命的战略资源。

　　不可否认，大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步，是人类决策工具的进步。但正如《哈佛商业评论》所批评的：“高管们明明还是按照传统的方式做决定，以那些高薪人士的意见为主，却拿出一份香艳的数据报告证明自己的决定是多么英明。其实那不过是吩咐下属四处寻找的专为这个决定做辩护的一堆数字。”这些所谓的“伪大数据决策”也许是一种常态，“高价智囊请闭嘴”、“让数据做主”很可能只是大数据倡导者的理想。

　　《点球成金》的故事经常被大数据概念的倡导者拿来佐证“专家的消亡和数据科学家的崛起”。改编自迈克尔·刘易斯的《魔球：逆境中制胜的智慧》的影片《点球成金》，讲述了一个真实的故事，介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学，描述了他抛弃几百年延续的选择球员的惯常做法，采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆，是让数据说话的成功范例。但是，其所分析的数据根本称不上大数据，甚至连海量数据也够不上。比利·比恩成功的关键不在于“让数据说话”，而是为“球队为赢球而建，不是为球星而建”的经营常识找到了数据注脚。

　　正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分，视为机器学习的一种应用一样，数据决策和数据旁证的博弈其实是人和机器的博弈。熟稔经营之道的企业家们并不情愿轻易将决策权交给大数据、放任服务器。而且，数据有时候也可能是企业管理的“绊脚石”。

　　直觉主义让位于数据分析，专家决策让位于群众智慧，只能是大数据倡导者的一厢情愿。一个折中的办法是，数据做分析，专家做判断，数据给答案，专家做选择。但对企业家而言，专家可以找，思想家必须自己做。从数据战略的构建，到群体智慧的萃取;从社会关系网络的解析，到复杂的自组织系统的发现，均依赖于企业家的智慧，而不能完全依赖于机器。即便是有一将难求的数据科学家的协助，大数据决策依然是辅助系统。

　　数据产权模糊

　　可怕的不只是隐私泄露。被反复聚合、多次利用的数据，其产权属于谁?收益归谁?

　　“只要有电器的地方，他都不敢开会。”有媒体用这句话夸张地描述梁稳根和他的三一重工在长沙的窘境。然而，在基于社交媒体和数字化记忆的大数据时代，人们不仅担心无处不在的“第三只眼”，而且担心隐私被二次利用。因为，亚马逊监视着我们的购物习惯，谷歌监视着我们的网页浏览习惯，微博似乎什么都知道，包括我们的社交关系网……

　　可怕的不是这些隐私数据，而是大数据的全数据分析、模糊计算和重关联却不求因果的特性，让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法，危险不再是隐私的泄漏，而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险，无法贷款，甚至实施犯罪前就被预先逮捕。

　　面对大数据对隐私的疯狂挖掘，传统的隐私保护手段——告知与许可、模糊化和匿名化——几乎无一奏效。维克托·迈尔-舍恩伯格给出了理论上的解决方法，即个人隐私保护从个人许可转向让数据使用者承担责任，在使用预测分析时考虑个人动因以及催生大数据审计员。其实就是说坚持“对行为而非动机”负责的原则。

　　比个人隐私和企业商业机密更复杂的是数据产权的模糊。一方面，大数据能够透过对公开数据的处理分析释放出无限能量，发现其背后的潜在价值;另一方面大数据的频繁重组、聚类创造着新的财富，并通过相关关系关联到社会关系网络。然而，数据的原始所有权和价值使用权、收益权消融在复杂的网络之中。大数据倡导者将其定义为“非竞争性”资源。不同于物质性资源，大数据的价值不会随着它的被使用而减少，而是可以不断被处理，不断被发现新的价值。这意味着大数据的全部价值远远大于其最初的使用价值，大数据应用的精髓就在于不断发现其潜在价值。

　　大数据产权和收益权的问题随之产生。“伴随着互联网成长起来的新一代，习惯于对创造力、知识、专业技能，甚至产品和服务的开放性共享，以促进社会总体财富的增长。”《第三次工业革命》一书的作者杰里夫·里夫金的这种解释，也许是对大数据产权问题的一种回答，即交给“共享型经济”来解决。正如云计算奠定了大数据的技术基础、大数据释放了云计算的商业价值一样，共享型经济有可能铺就大数据的社会基础，而大数据则有望确立共享型经济的合法地位。

　　无论如何，大数据正在推动产权认知和结构的变革，以往IT产业链的主宰者或将在变革中遭遇冲击。

　　商业模式困局

　　大数据服务公司如何构建商业模式?如何避免成为“鸿沟里的牺牲者”?

　　大数据的魅力在于它能够让企业在无边界的数据海洋里遨游，发现社会进步的内在韵律，捕捉社会发展的先行参数。比如从消费者兴趣图谱中萃取研发创新智慧，而不局限于产品关联性分析;比如对企业内外部利益相关者群体智慧的发掘，开展企业和产业的健康诊断，而不局限于短效的精益管理;比如对地震等自然灾害的预警，构架社会应急机制……

　　一言以蔽之，就像云计算不是卖服务器一样，大数据不是卖数据或咨询报告。如果说云计算遵循SaaS(软件即服务)、PaaS(平台即服务)和IaaS(基础设施即服务)的模式，而大数据将云计算引向AaaS(分析即服务)的阶段。在这一阶段，云计算是基础设施，大数据是服务工具，两者将满足特定语境下的、短线的市场需求，更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。

　　换言之，大数据将演绎“信息转化为数据，数据集聚成知识，知识涌现出智慧”的进程。按照哈耶克在《自由宪章》一书中对人类知识增长和进步的论述，大数据应该是一个人类知识增长的复杂过程。首先大数据原本并不以具有明确的目标和对象为出发点，而是在不断收集、重组和聚类中，发现社会发展的先行参数和相关关系。其次，大数据在社会难题中的应用不仅没有设定的目标，也没有设定的问题，能发现什么启示是自然形成的结果。再次大数据发现的结果往往超出既有的思维和判断，往往不能为社会所接受，检验其预测的准确与否。

　　但是，满足市场需求的大数据应用模式，有利于技术和数据公司将既有的资源和能力转化为商品，有利于这些企业寻找到以客户需求和盈利模式为支撑的商业模式。而对于大数据应用者而言，数据的聚类和多次利用，也有利于实现跨部门、跨行业等跨界融合，有利于实现企业和产业的开放式创新。而致力于破解社会难题的大数据应用，却很难在短期内找到盈利模式。

　　满足市场需求与破解社会难题的悖论，与弗里·摩尔的高科技营销模型不谋而合：企业不难从技术概念跨越到早期应用市场，却容易在高速增长的主流市场阶段“陈发式”灭亡，成为“鸿沟里的牺牲者”。

　　在社会难题中淘金

　　正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样，悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决，也将推动大数据应用的普及和社会价值的释放。

　　经过新闻媒体和学术会议的大肆宣传之后，大数据技术趋势一下子跌到谷底，许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线，大数据已经走过了萌芽期和泡沫化的炒作期，并将在未来3~5年内步入低谷期。

第1页：大数据的实践应用扼杀其潜在价值第2页：解决悖论的努力大数据发展的推动力

关注我们