论提高搜索引擎效率和精度的关键技术(2)
作者:佚名; 更新时间:2014-12-05
3 基于概念的检索
大多数搜索引擎提供的检索服务是一种关键字检索(KeywordSearch),即检索出那些显式地包含用户指定词条的文档。由于自然语言中广泛存在同义和多义现象,关键字检索显然是不够的。一些搜索引擎,例如Magellan,信捷职称论文写作发表网,开始在关键字检索的基础上引入基于概念的检索(ConceptSearch)。该方法利用了词条在概念上的相关性,因此可以检索出那些并不显式地包含用户指定的词条,但是却包含其同义词或者下位词的文档。例如,用户向Magellan查询“robot”时,Magellan除了返回包含“robot”的结果,还会找到提及“crawler”,“spider”,“wander”等词条的结果。这样,既方便了用户请求的输入,也提高了信息检索的召回率。
搜索引擎在实现基于概念的检索时,一般通过对用户的查询进行概念/词条扩展,然后转化为关键字检索。概念/词条关系的获得可以有以下两种方法。
1) 手工建立词典来存储概念层次及词条之间的交叉联系,该工作通常由领域专家来完成。
2) 使用语法分析、统计等技术从文档集合中自动学习。
4 相关度反馈
在很多情况下,用户难以提出查询,其初始的查询请求q通常是不精确、不完全的。与基于概念的检索类似,相关度反馈技术也可以帮助用户形成查询请求。但是,基于概念检索的目的是通过扩展查询请求来提高系统的召回率,而相关度反馈技术则是通过对查询请求不断地进行修正以提高系统的精确度。。
具有相关度反馈功能的系统中,系统按照下述过程对用户的查询请求进行逐步求精。
1) 索引器给出查询q的检索结果集合S。
2) 用户对S中文档的相关度进行评估,并反馈给系统。所有被用户标记为“相关”的结果组成了正反馈集合S+,标记为“不相关”的结果组成了负反馈集合S-。
3) 系统根据用户的反馈对查询q进行修正。例如,在矢量空间索引模型中,可以将正反馈集合中的文档矢量加到查询矢量上,同时减去负反馈集合中的最不相关的若干文档矢量,即V(q)←V(q)+∑d∈S+V(d)-∑d∈argmax(S-)V(d)。
4) 重复步骤1),2),3),直到用户得到满意的结果为止[3]。
一些研究和实验结果表明,利用相关度反馈可以较好地改进检索效果。但是,目前很少有搜索引擎支持该功能。其原因可能是因为相关度反馈需要用户的参与,而普通用户在使用搜索引擎时不太愿意花时间利用这些附加功能。
5 分词技术
网上的中文信息具有分词复杂、多内码转换等特点。因此,中文智能搜索有其独有的特点。
对中文信息的访问,不可避免的会遇到分词,这也是中文搜索引擎要解决的主要问题。现有的汉语分词算法有很多,如基于词库的最大匹配法、逆向最大匹配法、最佳匹配法、高频优先分词法;基于语法和规则的分词法;基于频度和统计的分词法;基于神经网络的分词法和专家系统分词法等[4]。这些算法适用于不同要求的场合但又存在各自的缺陷,在具体应用时一般使用几种算法相结合的方式来弥补单纯使用一种分词法所带来的不足。分词技术中的基于词库的算法日前使用较广,也较为成熟。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具备完备性和完全性两方面。词库的完备性,简单来说就是对任意一个字串,总能按词库找到对它进行切分的方法。词库的完全性,意味着词库应包含所有的词。通常先构造一个最小完备词库,然后在此基础上进行扩展,建立一个完全词库。
上一篇:论恶意软件及防护方法
下一篇:关于工业蒸汽锅炉自动化控制的探析
热门论文