【IT168 技术】 数据整合将是2011年信息技术的重点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/在线信息中找出与业务有关的内容。
ETL(提取转换加载)数据仓库,以及新出现的率先加载的变体ELT仍然是主要的整合方式。但是这一方式将得到新出现的动态多源头信息整合和语义整合的补充。这一方式还将受到数据配置(类型、分发和属性特征)的推动。
这些新出现的ETL方式构成了新数据整合。这些方式具备有易用、内嵌应用、侧重于终端用户的整合特点。
新数据整合针对的是大量不同的数据源和需求,以及日益增长的DIY数据分析需要。下面我们将为大家介绍一下Tableau、Attivio、FirstRain、谷歌和Extractiv公司采取的一些相似但又不同的方式。每一个案例都在新数据整合方式中具有代表性。
Tableau: 易于探索
没有任何一家商业智能厂商能够比Tableau软件公司更能体现DIY精神。公司的可视化、探索性数据分析软件能够让终端用户深入挖掘结构性数据源,共享和公布分析结果。Tableau的实力和易用性为公司赢得了大批用户。
在11月份推出的Tableau 6.0版具有“数据融合”功能。其不仅能够通过名称和特征对来自不同的数据域进行连接,还可以求和,如从月份到季度,便于将存储在不同的合计层的数据进行整合。
为了便于融合,该软件还支持“别名”。如能够将州名全称与缩写进行匹配、将产品编号和产品名称进行匹配等等。
在使用中,该软件可以实现预算和销售计划与现货进行比对,用户可以将电子表单中的数值与公司记录进行比对。此外,该软件还具备将外部信息与公司数据进行融合。
与大多数商业智能应用一样,Tableau一直致力于“结构性”数据。但是随着用户开始面对如潮水般的在线和社交源,这一重心必将会发生改变,转变为搜索与文本分析增强型商业智能。
Attivio: 通用与统一
企业搜索和商业智能已经发展了十余年,其主要用于信息孤岛,一个仅限于文档,另一个仅限于从运作和交易系统中收集数据。Attivio的目标是打断数据库和文档之间的壁垒,依靠一个统一目录提供搜索接口。Attivio的努力使得BI界面与分析工具融合在了一起。
Attivio通过API和连接器(由公司和合作伙伴提供)从完全不同的源,或是从文档和数据库、电子邮件、内容管理、以及企业应用系统中收集大量数据。
Attivio主动智能引擎(AIE)先提取内容(文本、元数据、结构信息),然后处理、充实和连接这些内容。公司共同创始人兼首席技术官Sid Probstein称:“充实提取的内容和分类等组件可在整合进程中增加智能。”
Probstein称:“Attivio主要执行‘动态图表生成’。‘动态图表生成’主要基于所发现数据的数值和类型。我们拥有大量组件,这些组件可在小型数据集合被处理后识别和报告整合机会”
FirstRain的时间排序
FirstRain是一种商业信息搜索和监测工具,除了拥有一套关键的公司信息数据库外,其能够从新闻、博客、行业、政府、科研和大学资源等开放网站上挖掘和整合信息。其目标是“获得关联,发现管理或商业结构中的变化,跟踪行业发展趋势。”
公司技术副总裁Marty Betz称:“语义分析应用是指‘商业结构意识’,这对于识别和传递分散于不同资源中的相关商业信息十分关键。同时,这也对是否有能力将从公开网站上发现的信息依时间顺序进行整合十分关键。”(时间排序相当重要。事实上,当我们用谷歌搜索美国宾夕法尼亚州参议员时,排名第三的搜索结果居然是已在参议院网站上被删除了的前Arlen Specter参议员)
Betz称:“通过利用我们的方式分析信息流,系统能够动态建模,及时调整它们对公司和行业周边市场环境的理解。”