现代图书情报技术 2007, 2(2) 49-52  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(501KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
搜索引擎
Web信息抽取
包装器生成
HTML标签树
节点相似度
本文作者相关文章
藕军
任明仑
PubMed
Article by
Article by

搜索引擎返回结果自动抽取

藕军 任明仑

(合肥工业大学计算机网络研究所 合肥 230009)

摘要

提出一种从搜索引擎返回结果页面上自动抽取结果记录及后续页面链接信息并生成Wrapper的方法:对于一个有效的结果页面,通过比较其HTML标签树上节点的相似度从而识别出潜在记录块,利用启发式规则从潜在记录块中将结果记录块和后续页面链接分别识别出来,然后利用其在标签树上的位置信息分别构造Wrapper。实验结论及与已有方法的比较表明,该方法简单可行且高效。

关键词 搜索引擎   Web信息抽取   包装器生成   HTML标签树   节点相似度  

Automated Extraction of Search Engine Results

Ou Jun   Ren Minglun

(Institute of Computer Network of Hefei University of Technology,Hefei 230009,China)

Abstract:

Present a new method for automatically extracting Search Result Records(SRRs) and Subsequent Result Page Links(SRPLs) from a search engine’s response page. Compare the similarity of nodes on the HTML tags tree of a valid response page to recognize Candidated Records Blocks(CRBs).And recognize SRRs and SRPLs form CRBs based on several heuristic rules.Then building wrapper for them using their location on tags tree. Experiments and comparison with other methods show that the methed is useful and efficient.

Keywords: Search engine   Web information extraction   Wrapper generation   HTML tags tree   Nodes similarity  
收稿日期 2006-11-24 修回日期 2006-12-09 网络版发布日期 2007-02-25 
分类号:

TP391.3

基金项目:

通讯作者: 藕军 通讯作者E_mail: 1717go@gmail.com
 

参考文献:

1Wu Z, Meng W,  Raghavan V,  Yu C, He H, Qian H,  Vuyyuru R. Towards Automatic Incorporation of Search Engines into a Large-Scale Metasearch Engine. IEEE/WICWI-2003 Conference.2003
2Doorenbos R B, Etzioni O,  Weld D S. A Scalable Comparison-Shopping Agent for the World-Wide-Web.Proceedings of the first International Conference on Autonomous Agents, California,1997
3Line Eikvil.网上信息抽取技术纵览.2003.http://www.byiit.com/in2in/www/hongbiao/IESurvey/toc.htm(Accessed Sept.21,2006)
4Liu B,  Grossman R and  Zhai Y. Mining Data Records in Web Pages. SIGKDD’03, 2003
5Hongkun Zhao, Weiyi Meng, Zonghuan Wu, Vijay Raghavan, Clement Yu. Fully Automatic Wrapper Generation for Search Engines . Proc. of 14th International World Wide Web Conference (WWW14), Japan,200566-75
6Dheerendranath Mundluru, Zonghuan Wu, Vijay Raghavan, Weiyi Meng, Hongkun Zhao. Automatically Extracting Subsequent Response Pages from Web Search Sources.IEEE Workshop on Knowledge Acquisition from Distributed, Autonomous, Semantically Heterogeneous Data and Knowledge Sources .2005
7W3C. DOM. 2004. http://www.w3.org/TR/2004/REC-DOM-Level-3-Core-20040407(Accessed Sept.21,2006)
8李效东,顾毓清.基于DOM的Web信息抽取.计算机学报,2005,25(5):526-533

本刊中的类似文章
1.孟晓明.对称搜索技术P2P在网格资源检索中的应用*[J]. 现代图书情报技术, 2006,1(2): 54-58
2.姜丽华,张宏斌,杨晓蓉 .基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006,1(5): 10-12
3.刘洁清,吴京慧 .面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006,1(5): 40-43
4.伍宪.利用搜索引擎进行高质量情报检索[J]. 现代图书情报技术, 2000,16(6): 51-53
5.陈树年,李青华.近几年来我国对搜索引擎的研究[J]. 现代图书情报技术, 2000,16(6): 57-59
6.郑菲.Internet搜索引擎AltaVista的研究[J]. 现代图书情报技术, 1998,14(1): 17-19
7.陈朝晖.Internet中文信息搜索引擎GoYoYo的研究[J]. 现代图书情报技术, 1998,14(2): 28-31
8.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21
9.陈朝晖.网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998,14(6): 32-35
10.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42
11.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
12.汤天波,高峰.可视化技术在网络链接分析中的应用研究[J]. 现代图书情报技术, 2009,3(2): 78-82
13.Miao Chen,Xiaozhong Liu,Jian Qin .从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009,3(3): 38-45
14.李勇文.OAI元数据搜索引擎的设计与实现[J]. 现代图书情报技术, 2005,21(2): 37-39
15.毛军 .图书馆信息服务和搜索引擎的跨界合作[J]. 现代图书情报技术, 2006,1(9): 2-7
16.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
17.杨思洛.搜索引擎的排序技术研究[J]. 现代图书情报技术, 2005,21(1): 43-47
18.徐芳.基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术, 2009,25(5): 81-85
19.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50
20.毛力 .学术数据库与普及型搜索引擎的合作研究[J]. 现代图书情报技术, 2006,1(9): 13-17
21.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68
22.徐娟,马自卫 .网络资源采集与学科导航系统的研究与实现[J]. 现代图书情报技术, 2006,1(6): 11-16
23.徐金雷,杨晓江 .专业搜索引擎的排序算法研究[J]. 现代图书情报技术, 2006,1(7): 20-24
24.于俊洋,沈夏炯 .用FCA对搜索结果进行分类*[J]. 现代图书情报技术, 2006,1(12): 44-48
25.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
26.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67
27.李春旺 .基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007,2(1): 49-52
28.陈权,曹卓文,杨晓江.一个基础教育网站搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(6): 70-73
29.陈丹,郑增威.增量式索引技术在信息搜索引擎中的应用[J]. 现代图书情报技术, 2007,2(6): 87-90
30.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
31.陈艳春,李双平.基于Lucene的企业级搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(8): 63-66
32.张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术, 2007,2(6): 52-55
33.宋振晖.竞争情报系统监控引擎的研究与设计[J]. 现代图书情报技术, 2007,2(6): 56-59
34.张俊丽,高劲松,张帆.基于网格的国外搜索引擎系统的比较研究*[J]. 现代图书情报技术, 2007,2(9): 28-33
35.白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007,2(11): 58-62
36.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
37.黄水清,朱书梅.开放获取资源统一访问平台全文检索工具的设计与实现[J]. 现代图书情报技术, 2008,24(7): 7-12
38.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37
39.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63
40.欧阳剑.基于OPAC的开放式中文图书资源库的设计与实现[J]. 现代图书情报技术, 2008,24(9): 92-97
41.付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析*[J]. 现代图书情报技术, 2009,25(6): 61-65
42.夏崇镨,康丽 .基于叙词表的主题爬虫技术研究*[J]. 现代图书情报技术, 2007,2(5): 41-44
43.刘峰,施水才,肖诗斌,王弘蔚 .基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007,2(1): 29-32
44.郭少友.基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010,26(2): 24-30
45.徐建华,伍宪,胡燕菘.国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术, 2001,17(1): 48-51
46.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50
47.姜恩波.搜索引擎的信息过滤技术[J]. 现代图书情报技术, 2001,17(3): 33-35
48.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54
49.许涛,吴淑燕.Google搜索引擎及其技术简介[J]. 现代图书情报技术, 2003,19(4): 58-61
50.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33
51.张燕,惠佳颖.网络搜索引擎评价[J]. 现代图书情报技术, 2001,17(4): 34-36
52.王启云.如何利用搜索引擎检索网络信息[J]. 现代图书情报技术, 2001,17(4): 40-43
53.白萍.搜索引擎在医学导航中的作用[J]. 现代图书情报技术, 2001,17(5): 83-84
54.王智宇.搜索引擎Excite检索功能详述及评析[J]. 现代图书情报技术, 2001,17(6): 30-32
55.佟贺丰.搜索引擎注册技巧与网站推销[J]. 现代图书情报技术, 2001,17(6): 33-34
56.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43
57.曹玉霞.搜索引擎新思维[J]. 现代图书情报技术, 2000,16(5): 33-34
58.常春.Google应用技巧[J]. 现代图书情报技术, 2004,20(6): 53-55
59.陈氢.集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004,20(4): 27-31
60.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38
61.陈定权.Web信息检索技术最新进展[J]. 现代图书情报技术, 2002,18(2): 39-41
62.詹仁锋.对互联网经济信息资源利用问题的思考[J]. 现代图书情报技术, 2002,18(1): 63-65
63.朱俊卿.搜索引擎Google研究[J]. 现代图书情报技术, 2002,18(1): 45-47
64.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30
65.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32
66.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65
67.孙静宇.TRS全文检索系统在吉林大学图书馆的应用[J]. 现代图书情报技术, 2002,18(3): 88-90
68.陈树年.网络信息分类法研究[J]. 现代图书情报技术, 2002,18(3): 54-57
69.徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究  [J]. 现代图书情报技术, 2004,20(11): 46-48
70.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26
71.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34
72.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38
73.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50
74.原福永,郭丽娜,毛伟伟.基于内部文档比较的重排序算法*[J]. 现代图书情报技术, 2009,25(11): 49-52
75.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43
76.王香莲.Google和百度两种搜索引擎比较研究[J]. 现代图书情报技术, 2004,20(8): 52-55
77.王秀玲.搜索引擎Inktomi研究[J]. 现代图书情报技术, 2004,20(1): 46-49
78.包冬梅,周曰卿.著名中英文搜索引擎检索性能测评[J]. 现代图书情报技术, 2004,20(1): 36-40
79.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37
80.邱均平,余以胜 .基于知识库系统的智能搜索引擎研究[J]. 现代图书情报技术, 2005,21(7): 51-53
81.刘蓉,王国顺,文亮.一个基于ASP.NET与Yahoo Web APIs的搜索网站的实现[J]. 现代图书情报技术, 2005,21(8): 42-44
82.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47

Copyright 2008 by 现代图书情报技术