应 用 摘 要
随着企业信息的急剧膨胀以及信息化的普及,企业面对海量数据遇到的最大问题就是不便于管理。为了便于管理,就需要将信息进行统一的数据化管理。然由于过去对信息平台建设的认识不够,造成数据分散,平台多样化的问题。因此,企业信息搜索管理平台就是信息集中管理的必备条件。
应 用 领 域
通用
方 案 内 容
目前企业信息搜索主要需要满足以下功能:
1. 可以对多种数据库,并对这些数据库内信息进行统一搜索。
2. 可以处理多种格式文本信息。
3. 实现关键词搜索、各种逻辑搜索。
4. 可以按照相关度或者时间排序。
5. 可以在所有信息中统一搜索,也可以在单个平台信息搜索。
海量科技利用在检索领域多年的经验,以全文检索服务为核心,设计出一套企业搜索引擎方案。整个方案设计分成:文本转化、全文检索服务、类google风格Web搜索页面。

提取word、excel、ppt、pdf、html、txt等格式信息,转化成全文检索服务可识别的文本文件。为了和数据库中的文件格式统一,可生成xml。
完成数据入库、索引、搜索功能。
支持英文检索 可以对文本内容为英文或中英文混排的文本进行检索。
支持逻辑检索 可以同一篇章内进行与、或、非、逻辑关系检索。
支持表达式检索 可以表达式方式进行多个词的与、或、非检索。例如:“海量+科技+天津”。
支持中英文混合检索 可以用复元检索、组配检索、扩展组配检索进行中英文混合检索。例如:检索“海量Hylanda”。
支持整句检索 也可以检索整个句子。例如“北京是个美丽城市”。
支持检索结果按照词频排序输出 检索时可以计算检索词的词频,并在输出检索结果时根据词频排序。
支持检索结果按照相关度排序输出 检索时可以计算检索词与命中篇章主题的相关度,并在输出检索结果时根据相关度排序。
支持边索引边检索 全文检索基础件支持索引的同时可以进行多线程检索。
格式的支持
可以处理带格式的文本
例如:
<标题>全文检索软件包说明书
<作者>海量
<正文>全文检索软件包是一个…
可以对<标题>、<作者>、<正文>分别建立索引,以供检索。
支持的数据格式 为了保证软件包核心的内聚性,本SDK只支持.txt,.xml文件。(MS OFFICE、.HTML、.htm、.pdf等格式的文本可利用本公司提供的插件处理后再进行索引。插件不属于此软件包)。
支持数字检索 可以对文本中的数字进行检索。
支持GBK 支持GBK,但是对特殊符号不进行索引。
支持utf-8 支持utf-8,但是对特殊符号不进行索引。
支持Unicode 软件包分为Ansi版和Unicode版。Ansi版可以索引Ansi编码方式的文本;Unicode版可以索引Unicode编码方式的文本和Ansi编码方式的文本。
数据维护
海量全文检索基础件为了方便索引数据管理,保证索引数据安全,提高索引效率,提供了多种索引数据管理功能。
数据检查 对索引文件进行校验,以验证数据的完整性和有效性。
数据优化 当索引创建结束后,建议对索引进行优化,可以对索引数据进行优化以节省空间和加快检索速度,尤其是对于静态数据的全文索引,应该在索引完成后进行优化整理。
数据修复 建立索引过程中,当系统当机或意外掉电等情况发生时,将会产生错误的或不完整的索引数据,此时可对索引数据进行修复。(建索引过程中,数据库没有正常关闭,需要进行修复才可继续建索引。)
数据紧缩 当删除了大量数据后,对索引进行压缩可以回收被删除数据的空间并同时进行优化,从而达到回收空间和加快检索速度的目的。
数据删除 可以索引数据库中删除掉任何文章记录。
搜索页面
用户进行数据检索的通道,采用大家常用的类似google的web检索页面,进行信息的检索。
技 术 路 线
索引速度快
索引的速度关系到系统管理者的工作效率,同时过长的索引时间增加了数据灾难风险,因此是全文检索软件的主要技术指标之一。
海量全文检索基础件实现了大数据量下的快速索引
膨胀率
索引膨胀率直接关系到系统存储资源的消耗,处理不当索引数据会达到原数据量的几倍之多,从而造成存储空间的大量开销。另外,由于硬盘读取速度所限,巨大的索引数据量将直接影响检索速度。
海量全文检索基础件索引膨胀率最低可达18%。
检索速度快
10亿汉字平均检索时间5MS。
数据灾难的保护
由于对于海量数据建立全文检索的时间比较长,其间存在发生意外情况(系统当机或突然断电)。这时,如果没有可行的数据保护和数据灾难恢复机制,那么将对用户带来重大的损失。
海量全文检索基础件,在突发情况下,可以妥善的保护已建立部分的索引数据。并可快速地对正建部分受损的索引数据实施修复。从而,避免数据灾难。