| 现代图书情报技术 2008, 24(7) 43-46 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||
|
基于用户查询关键词的网页去重方法研究 | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
谢蕙 秦杰 胡双双 | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
(河南工业大学信息科学与工程学院 郑州 450001) | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 摘要:
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 关键词: 网页去重 元搜索 特征码 中文分词 | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
The Study on the Duplicated Web Pages Detection Algorithm Based on the Keyword from User’s Submission | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
Xie Hui Qin Jie Hu Shuangshuang | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China) | |||||||||||||||||||||||||||||||||||||||||||||||||||
| Abstract:
Based on the study of the duplicated Web pages detection algorithm with feature code, the paper proposes a duplicated detection algorithm based on the keyword from user’s submission for meta search engine. The main steps of algorithm are introduced. And this algorithm is tested and verified its validity in an experiment. | |||||||||||||||||||||||||||||||||||||||||||||||||||
| Keywords: Duplicate detection Meta search Feature code Chinese word segmentation | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2008-03-27 修回日期 2008-04-30 网络版发布日期 2008-07-25 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 分类号: TP285 |
|||||||||||||||||||||||||||||||||||||||||||||||||||
| 基金项目: | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 谢蕙 通讯作者E_mail: xiehui0517@163.com | |||||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||||||||||||
[1] Cho J,Shivakumar N, Garcia-Molina H.Finding Replicated Web Collections[C].In:Proceedings of the ACM International Conference on Management of the Data. USA:ACM Press, May 2000,29(2):355-366. |
|||||||||||||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 1.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 2.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 3.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 4.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 5.丁晟春,成晓 .基于用户提问的领域本体知识库的知识检索*[J]. 现代图书情报技术, 2007,2(1): 62-64 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 7.翁勍力,施水才,赵捧未 .基于网页摘要分析的元搜索引擎研究*[J]. 现代图书情报技术, 2006,1(12): 40-43 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 8.化柏林 .知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007,2(8): 48-51 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 9.丁振国,吴宝贵,辛友强.基于Bloom Filter的超大规模网页去重策略研究[J]. 现代图书情报技术, 2008,24(3): 45-50 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 10.姚兴山.基于Hash算法的中文分词的研究[J]. 现代图书情报技术, 2008,24(3): 78-81 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 11.张金柱,张东,王惠临.基于字位信息的中文分词方法研究*[J]. 现代图书情报技术, 2008,24(5): 39-43 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 12.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 13.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 14.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 15.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 16.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 17.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| 18.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37 | |||||||||||||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||||||||||||