摘 要: 针对当前元搜索引擎存在的问题,提出一种个性化元搜索结果整合算法。首先对成员搜索引擎根据相应条件设定权值,对各成员搜索引擎得到的搜索结果按贡献量加权分块排序,根据用户检索词条与兴趣库和元搜索结果的文本相关度对块内搜索结果进行整合排序。实验结果表明,该算法能够满足不同用户的个性化需求,在保证了搜索结果查全率的同时提高了查准率,很大程度上改善了用户检索效果和效率。
关键词: 个性化元搜索;多重排序;权重;排序整合;相关度
随着Internet的迅速普及,网络上的信息量成指数增长。由于网络上的信息是海量和无组织的,具有分布散、动态变化、结构复杂等特点,人们在互联网上检索信息主要依靠搜索引擎。单个搜索引擎检索机制、范围、算法等的不同,导致同样一个检索请求在不同搜索引擎中的查询结果的重复率不足34%[1]。LAWRENCE S[2]等研究表明,任何一个搜索引擎索引的Web页面都不超过页面总数的1/3。因此,要想获得一个全面、准确、符合用户需求的搜索结果,就必须反复调用多个搜索引擎进行搜索。
如何在无比庞大的网络信息库中更快速、更准确地找到能够满足用户所需的信息,已经成为Web搜索领域研究的热点问题。搜索引擎的优劣、成功与否完全由用户对其搜索结果的满意度决定。目前存在的搜索引擎实用性不断加强,在一定程度上满足了人们检索信息的需求,但其自身在查全率和查准率方面与生俱来的局限性,无法为用户提供更全面、更精准的检索需求。
元搜索引擎是一种基于搜索引擎的搜索引擎[3],其搜索过程是首先将用户提交的搜索请求分发给多个成员搜索引擎,再将各个成员搜索引擎的搜索结果进行整合反馈给用户。元搜索引擎没有独立的数据库,而是依赖于其他成员搜索引擎,因此元搜索引擎在进行搜索时会遇到这样的问题:成员搜索引擎的搜索算法不同、源数据库和数据采集技术不同、各个成员搜索引擎返回文档没有统一的全局相似度等问题,造成搜索结果各不相同,纷繁复杂而不能满足用户的搜索需求。元搜索引擎最终要为用户提供个性化搜索服务[4]。针对这种情况,设计一种元搜索引擎搜索结果排序整合算法,对各个搜索引擎返回的文档进行分析、排序,尽可能返回更加贴切的结果给用户,具有很大的可行性。本文针对元搜索引擎中搜索结果整合问题,提出了一种基于用户兴趣的结果整合排序方法,在检索过程中考虑了用户兴趣,实现了元搜索引擎的个性化,既保证了搜索结果的查全率,又提高了查准率。
1 个性化元搜索引擎结果整合算法的实现
结果合成是元搜索引擎的一个核心问题,是将多个搜索引擎的检索结果整合到一起的过程。以往元搜索引擎中没有根据成员搜索引擎权值的结果贡献量概念,也没有根据用户使用情况动态进行调整,在合成算法中,如Comb Sum、CombMNZ、Round-Robin等[5-6]没能结合用户兴趣和成员搜索引擎的优先级问题,使得得到的结果合成效果不是很理想。为此,本文提出一种算法,结合了以往各种优秀算法的长处,加入了用户兴趣、成员引擎结果贡献量及多维排序,为用户提供更加全面、准确、高效、个性化的检索服务。算法思想是:首先对成员搜索引擎根据其排名信息和用户偏爱度设定权值,得到各成员搜索引擎的结果贡献量,根据多维排序算法对结果分块,对各个搜索引擎以及用户所关注内容设置权重,根据用户反馈动态更改相应权重,根据用户查询和用户兴趣库与搜索结果文档相关度权值整合排序,将最终最符合用户个性化需求的结果返回给用户,既保证了搜索结果的查全率,又提高了查准率。
本文提出了一种个性化元搜索引擎结果整合算法,在考虑了成员搜索引擎自身特点与用户兴趣及用户查询的相关度等因素后,引入成员搜索引擎结果贡献量及结果分块,加入了词条匹配等级的概念,更好地体现了用户的个性需求。经实验验证,此算法能够使用户在庞大繁杂的元搜索结果中更快找到自己感兴趣的结果,较其他元搜索引擎以及其他整合排序算法大大提高了查询的效率和效果。
参考文献
[1] 梁美玉,杜军平,高田.基于领域知识的个性化智能语义检索系统[J].中南大学学报(自然科学版),2011(42):866.
[2] LAWRENCE S, GILES C L. Searching the World Wide Web [J]. Science, 1998, 280(5360): 98-100.
[3] 李广建,黄崑.元搜索引擎及其主要技术[J].情报科学,2002,2(2):22-27.
[4] 徐娟,王群.3G融合计费解决方案探讨[J].电信快报:网络与通信,2008(9):13-17.
[5] NAIK S K, MURTHY C A. Hue-preserving color image enhancement without gamut problem[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1591-1598.
[6] HUANG K, WANG Q, WU Z. Color image enhancement and evaluation algorithm based on human visual system[C]. 2004. Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004, 3: iii-721-4 vol. 3.
[7] MONTAGUE M, ASLAM J A. Relevance score normalization for metasearch[C]. Procee dings of 10th International Conference on Information and Knowledge Management.Atlanta, USA, 2001:427-433.
[8] WHITE R W, KAPOOR A, DUMAIS S T. Modeling long-term search engine usage[M]. User Modeling, Adaptation, and Personalization, Springer Berlin Heidelberg, 2010.
[9] SI L, CALLAN J. Using sampled data and regression to merge search engine results [C]. Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2002: 19-26.
[10] 张卫丰,徐宝文,周晓宇,等.元搜索引擎结果生成技术研究[J].小型微型计算机系统,2003,24(1):34-37.
[11] KEYHANIPOUR A H, MOSHIRI B, PIROOZMAND M, et al. Web fusion: fundamentals and principals of a novel Meta search engine[C]. Neural Networks, 2006. IJCNN′06. International Joint Conference on IEEE, 2006: 4126-4131.
[12] BINGRU L Y C X Y. Research on Web mining-based intelligent search engine[J]. Computer Engineering and Applications, 2002(4): 11.