现代图书情报技术 2009, 25(11) 49-52 DOI:     ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(319KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
搜索引擎
内部文档
比较
相似度
本文作者相关文章
原福永
郭丽娜
PubMed
Article by Yuan,F.Y
Article by Guo,L.N

基于内部文档比较的重排序算法*

原福永 郭丽娜 毛伟伟

(燕山大学信息科学与工程学院 秦皇岛  066004)

摘要

分析现有搜索引擎重排序方法的不足,并对初始检索结果集中的每个文档相对于其他文档与查询词之间的相似度进行研究。提出一个基于内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。实验结果表明,该算法比当前的重排序算法具有更高的查准率。

关键词 搜索引擎   内部文档   比较   相似度  

Re-ranking Algorithm Based on the Inter-Documents Comparison

Yuan Fuyong  Guo Lina  Mao Weiwei

(College of Information Science and Engineering, Yanshan University, Qinhuangdao 066004, China)

Abstract:

 This paper analyzes the shortages of the existing re-ranking methods of the search engine and researches on the similarity between each document and the query, which refers to the other documents of the result set. It presents a re-ranking algorithm based on the inter-documents comparison and shows the documents to the users, according to the descending order of the similarity. The results of the experiments demonstrate that the algorithm has a much better precision than the current re-ranking algorithms.

Keywords: Search engine   Inter-document   Comparison   Similarity  
收稿日期 2009-10-12 修回日期 2009-10-28 网络版发布日期 2009-11-25 
分类号:

TP393

基金项目:

*本文系国家社会科学基金“十一五”规划子课题“信息技术环境下多元学与教方式有效融入日常教学的研究”(项目编号:BCA060616)的研究成果之一。

通讯作者: 郭丽娜 通讯作者E_mail: guolina66@163.com
 

参考文献:

[1] Wray Buntine, Jaakko Löfström, Sami Perttu, et al.Topic-specific Scoring of Documents for Relevant Retrieval[C]. In: Proceedings of ICML 2005 Workshop 4:Learning in Web Search, Bonn, Germany.2005.
[2]张俊林. Google怎么做(3.搜索结果重排序)[EB/OL].[2009-09-10]. http://blog.csdn.net/malefactor/archive/2006/05/19/745966.aspx.
[3]杨广翔,俞宁,谌莉.搜索引擎结果的重排序方法[J].计算机应用,2005,25(2):306-307.
[4]徐宝文,张卫丰.搜素引擎与信息获取技术[M].北京:清华大学出版社,2003:113-115.
[5]徐金雷,杨晓江.专业搜索引擎的排序算法研究[J].现代图书情报技术,2006(7):20-21

本刊中的类似文章
1.孟晓明.对称搜索技术P2P在网格资源检索中的应用*[J]. 现代图书情报技术, 2006,1(2): 54-58
2.姜丽华,张宏斌,杨晓蓉 .基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006,1(5): 10-12
3.刘洁清,吴京慧 .面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006,1(5): 40-43
4.伍宪.利用搜索引擎进行高质量情报检索[J]. 现代图书情报技术, 2000,16(6): 51-53
5.陈树年,李青华.近几年来我国对搜索引擎的研究[J]. 现代图书情报技术, 2000,16(6): 57-59
6.王德英.光盘数据库──《报刊库》、《中刊库》检索功能和检索方法的比较分析[J]. 现代图书情报技术, 1999,15(1): 47-49
7.郑菲.Internet搜索引擎AltaVista的研究[J]. 现代图书情报技术, 1998,14(1): 17-19
8.陈朝晖.Internet中文信息搜索引擎GoYoYo的研究[J]. 现代图书情报技术, 1998,14(2): 28-31
9.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21
10.陈朝晖.网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998,14(6): 32-35
11.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42
12.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
13.汤天波,高峰.可视化技术在网络链接分析中的应用研究[J]. 现代图书情报技术, 2009,3(2): 78-82
14.何维,王宇.基于句子关系图的网页文本主题句抽取*[J]. 现代图书情报技术, 2009,3(3): 57-61
15.Miao Chen,Xiaozhong Liu,Jian Qin .从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009,3(3): 38-45
16.李勇文.OAI元数据搜索引擎的设计与实现[J]. 现代图书情报技术, 2005,21(2): 37-39
17.李景.主要本体表示语言的比较研究[J]. 现代图书情报技术, 2005,21(1): 1-4
18.毛军 .图书馆信息服务和搜索引擎的跨界合作[J]. 现代图书情报技术, 2006,1(9): 2-7
19.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
20.杨思洛.搜索引擎的排序技术研究[J]. 现代图书情报技术, 2005,21(1): 43-47
21.徐芳.基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术, 2009,25(5): 81-85
22.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50
23.毛力 .学术数据库与普及型搜索引擎的合作研究[J]. 现代图书情报技术, 2006,1(9): 13-17
24.宋琦,薛建武 .智能检索中基于用户模型的本体映射方法研究[J]. 现代图书情报技术, 2006,1(9): 29-33
25.林桂娜,高先锋,毕忠东,周敬治 .构建数字图书馆存储系统应注意的若干问题*[J]. 现代图书情报技术, 2006,1(10): 85-88
26.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68
27.徐娟,马自卫 .网络资源采集与学科导航系统的研究与实现[J]. 现代图书情报技术, 2006,1(6): 11-16
28.徐金雷,杨晓江 .专业搜索引擎的排序算法研究[J]. 现代图书情报技术, 2006,1(7): 20-24
29.于俊洋,沈夏炯 .用FCA对搜索结果进行分类*[J]. 现代图书情报技术, 2006,1(12): 44-48
30.张晓孪,王西锋 .FCA中的概念语义相似度计算[J]. 现代图书情报技术, 2007,2(3): 51-54
31.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
32.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67
33.韩涛 .WSRF标准规范体系研究*[J]. 现代图书情报技术, 2007,2(5): 13-16
34.李春旺 .基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007,2(1): 49-52
35.陈权,曹卓文,杨晓江.一个基础教育网站搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(6): 70-73
36.陈丹,郑增威.增量式索引技术在信息搜索引擎中的应用[J]. 现代图书情报技术, 2007,2(6): 87-90
37.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52
38.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
39.陈艳春,李双平.基于Lucene的企业级搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(8): 63-66
40.廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007,2(6): 38-41
41.张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术, 2007,2(6): 52-55
42.宋振晖.竞争情报系统监控引擎的研究与设计[J]. 现代图书情报技术, 2007,2(6): 56-59
43.张俊丽,高劲松,张帆.基于网格的国外搜索引擎系统的比较研究*[J]. 现代图书情报技术, 2007,2(9): 28-33
44.化柏林 .基于句子匹配的文章自写度测评系统[J]. 现代图书情报技术, 2007,2(11): 40-44
45.卢胜军,真溱.本体匹配基本理论框架研究[J]. 现代图书情报技术, 2007,2(11): 28-32
46.白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007,2(11): 58-62
47.秦新国.基于句子相似度的文档复制检测算法研究[J]. 现代图书情报技术, 2007,2(11): 63-66
48.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
49.黄水清,朱书梅.开放获取资源统一访问平台全文检索工具的设计与实现[J]. 现代图书情报技术, 2008,24(7): 7-12
50.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37
51.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63
52.欧阳剑.基于OPAC的开放式中文图书资源库的设计与实现[J]. 现代图书情报技术, 2008,24(9): 92-97
53.任平,林佳.国内四种非书资源管理系统的比较研究[J]. 现代图书情报技术, 2008,24(11): 94-98
54.刘峰,肖珑.商业性电子资源管理系统应用分析与评价[J]. 现代图书情报技术, 2009,3(1): 86-92
55.卢胜军,李法勇,钱建军,真溱.WCONS+:一种基于WCONS的本体集成[J]. 现代图书情报技术, 2009,3(2): 18-22
56.付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析*[J]. 现代图书情报技术, 2009,25(6): 61-65
57.孙海霞,钱庆,成颖.基于本体的语义相似度计算方法研究综述*[J]. 现代图书情报技术, 2010,26(1): 51-56
58.李树青,程国达,王维民.基于加权XML模型的XML数据与DTD模式匹配*[J]. 现代图书情报技术, 2010,26(1): 57-65
59.夏崇镨,康丽 .基于叙词表的主题爬虫技术研究*[J]. 现代图书情报技术, 2007,2(5): 41-44
60.刘峰,施水才,肖诗斌,王弘蔚 .基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007,2(1): 29-32
61.姜华.基于本体的语义检索技术研究与实现[J]. 现代图书情报技术, 2008,24(4): 39-43
62.郭少友.基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010,26(2): 24-30
63.徐建华,伍宪,胡燕菘.国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术, 2001,17(1): 48-51
64.王宇芳,黄镝,李晓玲.网络数据库检索系统的功能与比较[J]. 现代图书情报技术, 2003,19(6): 58-60
65.韩红,朱江,王桦,柴苗岭,郑甦.清华同方(CNKI)与重庆维普(VIP)网络版中文期刊全文数据库的比较研究[J]. 现代图书情报技术, 2003,19(6): 61-64
66.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50
67.姜恩波.搜索引擎的信息过滤技术[J]. 现代图书情报技术, 2001,17(3): 33-35
68.王森,王宇.基于文本结构树的论文复制检测算法[J]. 现代图书情报技术, 2009,(10): 50-55
69.康小丽,章成志,王惠临.基于可比语料库的双语术语抽取研究述评*[J]. 现代图书情报技术, 2009,(10): 7-13
70.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54
71.安璐.通用关系数据库与模糊数据库的比较研究*[J]. 现代图书情报技术, 2003,19(5): 62-65
72.许涛,吴淑燕.Google搜索引擎及其技术简介[J]. 现代图书情报技术, 2003,19(4): 58-61
73.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33
74.张燕,惠佳颖.网络搜索引擎评价[J]. 现代图书情报技术, 2001,17(4): 34-36
75.王启云.如何利用搜索引擎检索网络信息[J]. 现代图书情报技术, 2001,17(4): 40-43
76.曹军.ASP、PHP和JSP的比较研究[J]. 现代图书情报技术, 2001,17(4): 59-61
77.白萍.搜索引擎在医学导航中的作用[J]. 现代图书情报技术, 2001,17(5): 83-84
78.王智宇.搜索引擎Excite检索功能详述及评析[J]. 现代图书情报技术, 2001,17(6): 30-32
79.佟贺丰.搜索引擎注册技巧与网站推销[J]. 现代图书情报技术, 2001,17(6): 33-34
80.周海英.光盘检索与网络检索的比较研究[J]. 现代图书情报技术, 2001,17(6): 35-37
81.胡安朋.化学结构情报线性标记法的比较研究[J]. 现代图书情报技术, 2000,16(2): 35-39
82.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43
83.贾君枝.国内因特网发展状况比较分析[J]. 现代图书情报技术, 2000,16(4): 41-43
84.曹玉霞.搜索引擎新思维[J]. 现代图书情报技术, 2000,16(5): 33-34
85.常春.Google应用技巧[J]. 现代图书情报技术, 2004,20(6): 53-55
86.陈氢.集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004,20(4): 27-31
87.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38
88.陈定权.Web信息检索技术最新进展[J]. 现代图书情报技术, 2002,18(2): 39-41
89.詹仁锋.对互联网经济信息资源利用问题的思考[J]. 现代图书情报技术, 2002,18(1): 63-65
90.朱俊卿.搜索引擎Google研究[J]. 现代图书情报技术, 2002,18(1): 45-47
91.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30
92.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32
93.刘宝杰,陈进.DT1000与MELINETS中文图书编目之比较[J]. 现代图书情报技术, 2002,18(4): 25-27
94.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65
95.孙静宇.TRS全文检索系统在吉林大学图书馆的应用[J]. 现代图书情报技术, 2002,18(3): 88-90
96.陈树年.网络信息分类法研究[J]. 现代图书情报技术, 2002,18(3): 54-57
97.徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究  [J]. 现代图书情报技术, 2004,20(11): 46-48
98.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26
99.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34
100.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38
101.马建玲,史凤.国外图书馆Mylibrary个性化服务系统比较研究*[J]. 现代图书情报技术, 2004,20(10): 70-73
102.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50
103.段寿建,杨朝凤,甘健侯.基于领域本体的概念语义相似度和相关度综合量化研究*[J]. 现代图书情报技术, 2009,25(11): 40-43
104.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43
105.王香莲.Google和百度两种搜索引擎比较研究[J]. 现代图书情报技术, 2004,20(8): 52-55
106.王秀玲.搜索引擎Inktomi研究[J]. 现代图书情报技术, 2004,20(1): 46-49
107.包冬梅,周曰卿.著名中英文搜索引擎检索性能测评[J]. 现代图书情报技术, 2004,20(1): 36-40
108.甘利人,李岳蒙.主题法、分类法与Ontology的比较研究[J]. 现代图书情报技术, 2005,21(12): 1-6
109.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37
110.邱均平,余以胜 .基于知识库系统的智能搜索引擎研究[J]. 现代图书情报技术, 2005,21(7): 51-53
111.邵诚敏,仇琛.两大中国专利检索系统的比较分析[J]. 现代图书情报技术, 2005,21(4): 86-87
112.刘蓉,王国顺,文亮.一个基于ASP.NET与Yahoo Web APIs的搜索网站的实现[J]. 现代图书情报技术, 2005,21(8): 42-44
113.丁一.Web上基于特定主题的RG-HITS算法研究[J]. 现代图书情报技术, 2005,21(6): 26-29
114.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47

Copyright 2008 by 现代图书情报技术