费埃哲陈建：如何利用新媒体挖掘新洞察-信息化专区

费埃哲陈建：如何利用新媒体挖掘新洞察

作者：河北分站编辑：河北分站 2015-01-26 16:15 IT168网站原创

　　数据是业务决策背后的驱动力。从整个组织日益多样化的数据源中提取数据已经日趋复杂。越来越多的数据超越了传统分析算法范围。据统计，大约80%的数据是非结构化的数据，复杂、零乱，其中很大一部分可以更好地开发利用。

　　大数据时代让我们意识到当初的假设有可能是错误的。我们认为一切数据都源于易于管理的1和0。事实上，全球多达80%的大数据是非结构化的，这意味着它不再适合大多数的分析模型。社交媒体如博客、微博、微信、设备日志、与客服代表的会话等内容正迅速发展。人类的自然语言包括了不同语境，简单的数据分析模型恐怕无法应对。

　　文本分析技术正在填补这项空白。通过将其与其它技术相结合，可充分利用结构化和非结构化数据，将复杂而凌乱的文字信息转化为有关消费者行为的洞察，可以帮助人们提取有用的商业价值，并改进预测模型。文本分析蕴藏了巨大的商业价值，并预计在未来五年内会成为主流。

　　数据科学家可以从以下几方面思考如何部署文本分析技术：

　　?智能化理解：各种机器学习方法能够确定一段文字是关于什么信息的，然后进行分类或量化，再进一步分析。这有助于发掘客户的特点，并将其转换成结构化的数字输出到预测模型。

　　?处理复杂文本：非结构化和半结构化的文本源，如XML文件、Excel电子表格或博客文章很复杂，它们内容庞杂、议题广泛。有必要整合两种或更多数据源在一起，以获得更深刻的见解。这种全面的方法可以揭示复杂的、微妙的消费者行为模式。整理和组织不同的数据是一项艰巨的任务。现在，我们拥有的分析技术和数据架构可合并不同类型的文本来进行统一分析。

　　?简化管理：分析文本复杂琐碎，但输出的结果往往需要通俗易懂。举例来说，从文本分析提取新的见解到预测评分卡，我们可以使输出透明、简单、准确。这可以产生更大的预测能力，同时还提供了灵活性，以满足特定的业务需求和监管要求，或者部署到规则驱动的决策流程和运营流程之中。对监管者来说，文本分析的贡献显而易见，可通过自动审计跟踪、定期检验和提交合规报告来核查。

　　新技术推动新洞察

　　术语文档矩阵(A Term Document Matrix)产生了一个需要进一步分析的结果集。例如，购买了产品的客户A的购买频率如何，与未购买产品客户B有何区别。这需要我们进行还原步骤，我们对术语进行排序，以便基于它们的信号强度建模。这些术语的存在和频率可以用数字显示在建模数据集，并直接并入非常好的预测模型。

　　这种“语义评分卡”是传统评分卡辅以非结构化信息(按属性将数据进行分类，并分配权重)。可进行复杂的数据运算，以确定哪些术语信号最强，以及哪些特定术语应进行组合，从原始文本中识别出较大的概念。

　　命名实体提取(Named Entity Extraction, NEE)基于自然语言处理，借鉴了计算机科学、人工智能和语言学等学科。它可分析文本的结构，以确定哪些部分可能代表如人、地点、组织、职称、产品、货币金额、百分比、日期和时间等实体。

　　NEE算法为每个标识的实体生成一个分数，该分数表明识别正确的概率。数据科学家可以视情况为所讨论的组织或目标设计阈值。例如仅接受那些高于80%的分数的实体。阈值可以作为预测模型的标准包括在内。

　　基于相似性，使用算法来匹配实体，我们可以混合许多不同来源、可能彼此没有关系的数据——例如：保存客户信息的结构化文件和有关与客户互动的非结构化文本。它也可帮助我们推断个别实体之间关系的性质和强度。例如，我们可以估算一个人作出购买决定的权力，而传统的源数据往往无法直接观察到该项能力。

　　另一个可以监测客户行为变化的分析技术是文档主题生成模型(Latent Dirichlet Allocation, LDA)，它可以发现数据的相似性以便进行分类和分组。 LDA使用统计算法从非结构化数据抽取主题、概念和其它含义。它不理解语法或者人类语言，而只是寻找模式。

　　例如，LDA可以用来检查一个有10万篇帖子的博客，以确定博客的主旋律。它可以抽取四、五个主题或内容的“原型”，并区分出有关职场政治或相关主题的帖子。任何数量、类型非结构化的、半结构化和结构化源数据可以应用LDA检测模式来进行分析。

　　这种灵活的技术通常用于营销分析，针对提供存款、取款和购买行为的客户提取原型。它也可把不同类型的呼叫分类到呼叫中心，确定客户打电话的理由，并利用这些资料更好地预测出现纠纷的风险，以更准确地预测呼叫量，或改进产品功能和结构。

　　在实际应用时，银行可借助分析发现一些消费者虽然时常出差，但忠诚度很高。这些客户往往会与客服代表沟通由于出差而错过还款的事由，并减免滞纳金。这样的分析可以帮助银行了解如何重视客户，降低客户流失率，提高客户忠诚度。

　　LDA分析还可以快速、方便地应用和更新消费者相关信息。可以判断消费者的最新行为是否与他们的历史行为一致。如果消费者有不寻常事情发生，或者行为与他们现有的文件不一致，系统可以发出警示。

　　例如，分析催收员的某个欠费账单的沟通摘要发现，消费者正变得十分沮丧，或失去信心，他可能无法偿还债务。有可能是一位家庭成员身患重病，这意味着催收战略应立刻进行调整。这种类型的分析可以揭示未来的变化，一位遵守还款约定的客户可能会放弃还款承诺。

　　文本分析的情感分析可以挖掘更深的洞察——超越客户的言语表达和行为表现。这里采用的分析技术通常是基于自然语言处理(Natural Language Processing, NLP)。文本分析中最令人兴奋和具有挑战性的领域是探索如何使用NLP技术来理解消费者。

　　例如，消费者说“太好了”是积极的意思表示吗? “你一直很有帮助”是真正的表扬还是讽刺?人类是复杂的生物，往往不会直接说出内心的真实意思。东方人尤其喜欢模糊、朦胧的表达方式。这些因素使我们不能基于词语表面的意思来了解真实表达。当电子邮件和短信继续获得消费者的青睐，我们却失去了一些重要线索，如音调和语气等。情感分析正试图通过一些自动化手段来探寻其中玄机。

　　在中国，非结构化的数据分析刚刚起步。随着消费者的相关文本数据不断增长，企业必须在其大数据战略中整合文本分析技术。这些非结构化的数据拥有巨大的价值，等待我们开发。(本文作者为费埃哲公司中国区总裁陈建)

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

关注我们