应 用 摘 要
TRS网络信息雷达系统(TRS InfoRadarV4)实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询。
应 用 领 域
能源通用
方 案 内 容
网路漫漫,上下求索
互联网信息规模和蕴藏价值越来越大,如何方便、快捷地获取有价值的信息至关重要。
手工搜索互联网?
原始手工收集信息的方式,费时、费力,劳动强度与难度可想而知。因此,各个行业都迫切需要智能、快捷的信息采集与处理方式。
嗨,那不是结构化数据!
潜在客户、竞争产品价格等关键信息,常以半结构化、文本形式存在Html网页中,很难直接加以利用,如何实现网页、文档中结构化数据灵活采集?
如何告别“电子垃圾”?
有时候,我们对弹出的广告等垃圾信息厌烦透顶,如何过滤无用信息实现精确采集?
信息采集后的管理要求
有价值的信息采集回来,如何将这些信息进行分类、排重等智能处理,以及对信息进行存储、管理、发布、检索,满足客户不同的信息处理要求?
互联网:黄金流量与快速准确搜索的翘楚
用户如何在海量资讯中快速、准确的找出自己最需要的信息,节省大量的信息查找时间?同时随着行业网站的不断发展,信息规模越来越大,如何建立行业网站群之间的垂直搜索来提高访问量?
政府:了如指掌,7×24小时网络舆情监控
如何在萌芽状态就对海量信息中的负面信息进行监控和预警,如何更好地把握舆情导向、对突发事件做出快速响应和处理?
企业:得情报者得天下
伴随着全球化竞争加剧、信息大量过载等问题的出现,使竞争的激烈程度远远超出了人们的想象。竞争对手在关注着你的一举一动,你该怎样面对?
技 术 路 线
TRS绿色节能搜索
TRS网络信息雷达系统(TRS InfoRadar)实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询。
双模服务1+1>2
TRS InfoRadar不仅支持独立产品模式,而且支持SaaS模式。
独立模式:按照用户的需求设置采集网站,定制分类模板,建立本地数据库,用户完全拥有软件产品。
SaaS模式:数据采集、加工的繁琐工作由厂商完成,用户只需定制需要的信息即可。
绿色节能搜索冲击波
TRS InfoRadar倡导绿色环保节能搜索。
绿色环保:TRS InfoRadar按需过滤掉互联网的电子垃圾信息,准确获取目标。
节能先锋:TRS InfoRadar是节约能源先锋,通过自动化、智能化、多样化、个性化的雷达信息采集和监控,避免了人力、物力等资源的浪费。
第一波:超群的信息采集
采集全面,采全率高

各类元数据准确采集
定位元数据:支持利用mata和html标签实现各项元数据信息的精准采集与智能抽取,能够采集结构化数据。
与CKM整合,实现丰富的信息抽取:包括人名、电话等详细信息,供人们分析和利用。
多种个性化设置:在需要的情况下人工配置,实现部分元数据的准确解析。
高效采集,性能超群
采集的效率:在10M网络带宽环境下,每小时可以采集5万个网页。
高效的更新:已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。数据索引更新时间平均小于0.02s/记录。
大规模集群应用:单个采集工具能支持千万数量级的网页采集。通过集群应用,就可以实现更大规模的海量搜索。
第二波:智能的信息处理
自动分类:采集的网页可以基于内容的自动分类,不需人工干预,自动分类达到85%以上准确率。同时,提供智能分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。
自动排重:采用TRS相似性检索技术实现,可根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。
垃圾过滤:自动过滤网页中新闻的正文内容,剔除广告、版权等垃圾信息。
其它:自动生成网页摘要以及自动抽取网页中的关键词等。
第三波:及时的信息发布
一键式发布:支持自动和人工发布两种方式。采集的信息可及时发布到提供服务的网站上。
可发布专题内容。
第四波:快捷的信息检索
支持多语言网页的采集和检索:支持中、英、日、韩、俄、法、西、德、阿拉伯语等语言。
支持大量并发用户的查询请求:采用基于成本优化的查询算法,多用户并发检索,每秒可响应60个以上查询。
支持对多种属性的检索:包括按日期、URL、标题等,同时提供排序功能。
快捷的检索速度:成功管理用户T级规模的数据,保证了检索速度和可靠性。现在,在G级数据集合上达到亚秒级检索速度。
技 术 图
业务分析图
