信息的迅速增长必然需要强大的信息检索工具,而在信息检索工具中,全文检索是最具通用性和实用性的。互联网迅速发展所代表的信息爆炸对全文检索技术又提出了新的要求。
应用领域
互联网的普及,使得全文检索技术真正成熟起来,其应用范围已经扩展到Internet的各个领域:
Internet搜索引擎
Internet搜索引擎包括三个部分:收集网页的机器人、分类和索引及检索引擎,全文检索技术是搜索引擎的核心支撑技术。搜索引擎比传统的信息检索更为复杂,表现在:
信息是分布在Web空间的,要求系统对平台、网络等各种复杂环境的适应能力强;信息不稳定,动态性强,因此要求系统的动态索引技术具有超级性能;信息是海量的,要求检索引擎具有先进的查询算法,并且对相关排序要求很高;由于搜索引擎的用户是普通用户,因此使用知识词典进行启发式检索就显得特别重要;相关排序(Relevance Ranking)和相关反馈(Relevance Feedback)技术对Internet搜索特别重要。一次最普通的检索可能得到成千上万的结果。用户应该首先得到最相关的结果,可惜的是,单纯基于IDF的相关性模型,很难得到理想的结果,应该很好地利用HTML文档的"结构特征"。相关反馈能够根据用户对检索引擎的命中结果的判别执行更加符合用户意图的查询。
.COM网站的站点检索
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。
企业信息门户的检索引擎
根据未来协会经济学家Tim Oren的理论:你与消费者甚至竞争者分享的东西越多,你就越成功。电子化企业应以建立企业信息门户为重点,把企业信息库的信息发布到公司的Internet/Intranet Web站点上,与Intranet的同事共享公司信息,或者与公司的客户/合作伙伴分享公司信息。企业信息门户的一个核心问题是建立一个高效的知识检索解决方案,在该解决方案中,对信息检索的要求包括:
* 跨越所有的数据源。包括文件系统、消息系统(E-mail System)、新闻组、各种关系数据库管理系统以及Web网站等,支持各种数据和信息格式。
* 检索结果需要按照商业分类规则(Business Classification Rules)进行排列。对于用户某个特殊的知识检索请求,把所有不同信息类别中的命中结果按照相关性或分类排列。
* 能够浏览不同格式的信息。用户不需要安装产生这些信息和知识的原始软件。
电子商务网站的内容检索引擎
全文检索等信息检索手段对于一个电子商务站点是很重要的,借助信息检索技术可以帮助客户快速定位到所要的信息或产品。检索成为商机,成为一笔业务成功的一个要素,如拍卖行电子商务站点,客户通常根据关键词或者摘要中的关键词来查找所要的物品。在电子商务系统中,数据全部在具有严格安全控制的数据库中,信息检索不是静态网页,而是动态生成网页,对电子商务站点的系统资源开销是很大的。大量并发用户突发访问情况下的可靠性,是电子商务对全文检索系统的基本要求。
Internet时代信息收集和交换的桌面平台
Internet时代,需要这么一个信息收集和交换的桌面平台:它不仅能够进行桌面文档的管理和Internet信息的收集,而且它还可以作为信息交换的桌面平台。
* 桌面文档的管理:管理PC桌面上的文件, 并加以归档分类。可以管理的文件应包括Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式。
* Internet信息的收集:使用IE等浏览器浏览Internet网页时,能够把要保存的网页拖入本地PC桌面上的个人资料库, 并加以归档分类以便日后再利用。
* 作为B2C/C2C信息交换的桌面平台:个人或企业可通过它交换和销售资料库。
发展趋势
全文检索(Full Text Retrieval)在技术上日趋成熟。中文全文检索技术的研发始于1987年左右,目前已经商品化的软件有近10种。可喜的是,国内厂商自主开发的全文检索系统居于领先地位,市场占有率超过90%以上,包括fullsearcher、TRS、Quick IMS、南辰、 天宇、I-Search等。自主中文全文检索技术已经达到了较高水平,在传统市场也获得了很高的占有率,但是要在整体上提高中文全文检索系统的水平和可用性,必须在如下几个方面有突破:
(1) 中文自然语言处理技术 无论从数据挖掘角度来提高全文检索的查全率和查准率,还是提供更易使用的自然语言查询接口方面,中文自然语言处理仍然是关键因素,这也是中文全文检索系统领先于国外同类产品的问题所在。 (2) 全文检索系统的评价 与其他领域一样,我国全文检索技术的研究和系统开发缺乏科学的评价,国际上TREC Conference(http://trec.nist.gov) 被认为是最具权威的信息检索技术评测规范,实验室系统、商业系统均积极参加。但国内的系统至今没有参与,要得到国际上的认可,就必须参加TREC。 (3)系统的可靠性 没有99.999%以上的可靠性,就无法适应NonStop eBusiness(永不停顿电子商务)等关键业务的苛刻需求。 (4)系统的响应速度 分析用户检索表达式的使用频度,大大加速在子集里检索的速度。无论数据库多大,检索词的检索速度均在1秒之内。
最新进展
以中文全文检索为核心开发的fullsearcher检索系统,可以广泛地应用于各种信息数据库、信息门户的建设, 以及从Web站点检索、Internet搜索引擎到电子商务等各种应用中文信息的发布检索。在众多的中文全文检索软件中,其最新的进展表现在: (1)领先的中文信息处理技术 内嵌汉语自动分词系统,支持按词索引、按字索引、按关键词索引、字词混合索引,大大提高了检索的准确性和响应时间。 (2)检索信息快、准而且全 基于成本优化的查询算法,使得G级数据库查询速度达到亚秒级,并支持大量并发用户同时访问。允许使用文中的任意字、词、句和片段进行检索,提供了基于文献内容而不仅仅是文献外部特征的全文检索手段。TRS所提供的按词和按用户自定义关键词进行索引和检索,以及基于知识词典的扩展检索功能,满足了特殊应用领域的高查准率和高查全率的要求。 (3)检索功能强大 全方位检索手段,支持与搜索、去除搜索等标准的国际搜索语法。另外拼音搜索、南方音模糊搜索、多字漏字错字模糊搜索、对检索结果按与检索表达式的相关性和重要性程序排序等。
详情请点击查看“全文检索者搜索软件系列介绍”
全文检索已经成为网站的必备功能,随着政府上网、企业上网的深入开展,网上中文信息和电子商务应用的不断丰富,必然对基于互联网的中文全文检索技术提出更高的要求。技术的进步是没有终点的,更快更准永远是全文检索技术的追求。 |