现代图书情报技术 2007, 2(5) 41-44  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(578KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
主题爬虫
叙词表
搜索引擎
本文作者相关文章
夏崇镨
康丽
PubMed
Article by
Article by

基于叙词表的主题爬虫技术研究*

夏崇镨 康丽

(中国农业大学计算机系 北京 100083)

摘要

将叙词表同传统的信息检索技术相结合,提出用叙词表的族对爬虫的主题进行描述的方法并用该方法设计实现一主题爬虫。实验结果证明本文提出模型和算法的有效性。

关键词 主题爬虫   叙词表   搜索引擎  

The Focused-crawler Based on Thesaurus

Xia Chongpu   Kang Li

(Department of Computer Science,China Agricultural University,Beijing 100083, China)

Abstract:

Combining the thesaurus with the traditional information retrieval technology, a new method is presented that family in thesaurus is used to describe the predefined topic.Also develops a focused-crawler based on this method. On which we compare its efficiency with other well-known Web search engine. The experimental results showes the effectiveness of our models and algorithms.

Keywords: Focused crawler   Thesaurus   Search engine  
收稿日期 2007-02-06 修回日期 2007-03-26 网络版发布日期 2007-05-25 
分类号:

TP393

基金项目:

*本文系北京市自然科学基金资助项目“基于遗传算法网页信息搜索技术”(项目编号:4062013)的研究成果之一。

通讯作者: 康丽 通讯作者E_mail: kangli.cau@gmail.com
 

参考文献:

1赵焕洲,唐爱民. 对两种知识组织系统——叙词表与Ontology的比较研究. 情报理论与实践,2005,28(5): 469-471
2毛军. 基于RDF的叙词表研究. 情报学报,2003,22(2):163-168
3李波,戴秀梅,侯汉清. 计算机建立分类法和主题词表转换系统的尝试. 现代情报,2003,23(6): 112-115
4常春,卢文林. 叙词表编制历史、现状与发展. 农业图书情报学刊,2002(5):22-28
5贺纯佩,李思经. 农业叙词表在中国的发展和农业本体论展望. 农业图书情报学刊,2003(4):16-19

本刊中的类似文章
1.孟晓明.对称搜索技术P2P在网格资源检索中的应用*[J]. 现代图书情报技术, 2006,1(2): 54-58
2.姜丽华,张宏斌,杨晓蓉 .基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006,1(5): 10-12
3.刘洁清,吴京慧 .面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006,1(5): 40-43
4.伍宪.利用搜索引擎进行高质量情报检索[J]. 现代图书情报技术, 2000,16(6): 51-53
5.陈树年,李青华.近几年来我国对搜索引擎的研究[J]. 现代图书情报技术, 2000,16(6): 57-59
6.郑菲.Internet搜索引擎AltaVista的研究[J]. 现代图书情报技术, 1998,14(1): 17-19
7.陈朝晖.Internet中文信息搜索引擎GoYoYo的研究[J]. 现代图书情报技术, 1998,14(2): 28-31
8.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21
9.陈朝晖.网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998,14(6): 32-35
10.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42
11.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
12.汤天波,高峰.可视化技术在网络链接分析中的应用研究[J]. 现代图书情报技术, 2009,3(2): 78-82
13.Miao Chen,Xiaozhong Liu,Jian Qin .从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009,3(3): 38-45
14.李勇文.OAI元数据搜索引擎的设计与实现[J]. 现代图书情报技术, 2005,21(2): 37-39
15.毛军 .图书馆信息服务和搜索引擎的跨界合作[J]. 现代图书情报技术, 2006,1(9): 2-7
16.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
17.杨思洛.搜索引擎的排序技术研究[J]. 现代图书情报技术, 2005,21(1): 43-47
18.Alistair Miles,Brian Matthews,Michael Wilson,Dan Brickley.SKOS Core: 简约知识组织网络表述语言[J]. 现代图书情报技术, 2006,22(1): 3-9
19.徐芳.基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术, 2009,25(5): 81-85
20.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50
21.毛力 .学术数据库与普及型搜索引擎的合作研究[J]. 现代图书情报技术, 2006,1(9): 13-17
22.朱良兵,纪希禹 .基于Topic Maps的叙词表再工程[J]. 现代图书情报技术, 2006,1(9): 81-84
23.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68
24.徐娟,马自卫 .网络资源采集与学科导航系统的研究与实现[J]. 现代图书情报技术, 2006,1(6): 11-16
25.徐金雷,杨晓江 .专业搜索引擎的排序算法研究[J]. 现代图书情报技术, 2006,1(7): 20-24
26.于俊洋,沈夏炯 .用FCA对搜索结果进行分类*[J]. 现代图书情报技术, 2006,1(12): 44-48
27.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
28.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67
29.刘春艳,陈淑萍,伍玉成 .基于SKOS的叙词表到本体的转换研究[J]. 现代图书情报技术, 2007,2(5): 32-35
30.李春旺 .基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007,2(1): 49-52
31.陈权,曹卓文,杨晓江.一个基础教育网站搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(6): 70-73
32.陈丹,郑增威.增量式索引技术在信息搜索引擎中的应用[J]. 现代图书情报技术, 2007,2(6): 87-90
33.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52
34.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
35.陈艳春,李双平.基于Lucene的企业级搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(8): 63-66
36.张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术, 2007,2(6): 52-55
37.宋振晖.竞争情报系统监控引擎的研究与设计[J]. 现代图书情报技术, 2007,2(6): 56-59
38.张俊丽,高劲松,张帆.基于网格的国外搜索引擎系统的比较研究*[J]. 现代图书情报技术, 2007,2(9): 28-33
39.白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007,2(11): 58-62
40.曾新红,林伟明,明仲.中文叙词表本体的检索实现及其术语学服务研究*[J]. 现代图书情报技术, 2008,24(2): 8-13
41.司莉,陈红艳.网络叙词表用户界面设计策略[J]. 现代图书情报技术, 2008,24(5): 14-20
42.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
43.黄水清,朱书梅.开放获取资源统一访问平台全文检索工具的设计与实现[J]. 现代图书情报技术, 2008,24(7): 7-12
44.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37
45.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63
46.欧阳剑.基于OPAC的开放式中文图书资源库的设计与实现[J]. 现代图书情报技术, 2008,24(9): 92-97
47.曾新红.中文叙词表本体——叙词表与本体的融合[J]. 现代图书情报技术, 0,(): 34-43
48.付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析*[J]. 现代图书情报技术, 2009,25(6): 61-65
49.黄炜,张李义.基于语义爬虫的商品信息主题采集研究*[J]. 现代图书情报技术, 2010,26(1): 3-8
50.刘峰,施水才,肖诗斌,王弘蔚 .基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007,2(1): 29-32
51.曾新红,林伟明,明仲.中文叙词表本体一致性检测机制研究与实现*[J]. 现代图书情报技术, 2008,24(5): 1-9
52.郭少友.基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010,26(2): 24-30
53.徐建华,伍宪,胡燕菘.国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术, 2001,17(1): 48-51
54.常春.Ontology在信息管理领域的研究背景[J]. 现代图书情报技术, 2003,19(6): 4-7
55.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50
56.姜恩波.搜索引擎的信息过滤技术[J]. 现代图书情报技术, 2001,17(3): 33-35
57.杜慧平.国外计算机辅助编制叙词表软件评价*[J]. 现代图书情报技术, 2009,(9): 17-21
58.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54
59.许涛,吴淑燕.Google搜索引擎及其技术简介[J]. 现代图书情报技术, 2003,19(4): 58-61
60.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33
61.张燕,惠佳颖.网络搜索引擎评价[J]. 现代图书情报技术, 2001,17(4): 34-36
62.王启云.如何利用搜索引擎检索网络信息[J]. 现代图书情报技术, 2001,17(4): 40-43
63.白萍.搜索引擎在医学导航中的作用[J]. 现代图书情报技术, 2001,17(5): 83-84
64.王智宇.搜索引擎Excite检索功能详述及评析[J]. 现代图书情报技术, 2001,17(6): 30-32
65.佟贺丰.搜索引擎注册技巧与网站推销[J]. 现代图书情报技术, 2001,17(6): 33-34
66.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43
67.曹玉霞.搜索引擎新思维[J]. 现代图书情报技术, 2000,16(5): 33-34
68.常春.Google应用技巧[J]. 现代图书情报技术, 2004,20(6): 53-55
69.陈氢.集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004,20(4): 27-31
70.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38
71.陈定权.Web信息检索技术最新进展[J]. 现代图书情报技术, 2002,18(2): 39-41
72.詹仁锋.对互联网经济信息资源利用问题的思考[J]. 现代图书情报技术, 2002,18(1): 63-65
73.朱俊卿.搜索引擎Google研究[J]. 现代图书情报技术, 2002,18(1): 45-47
74.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30
75.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32
76.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65
77.孙静宇.TRS全文检索系统在吉林大学图书馆的应用[J]. 现代图书情报技术, 2002,18(3): 88-90
78.陈树年.网络信息分类法研究[J]. 现代图书情报技术, 2002,18(3): 54-57
79.徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究  [J]. 现代图书情报技术, 2004,20(11): 46-48
80.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26
81.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34
82.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38
83.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50
84.原福永,郭丽娜,毛伟伟.基于内部文档比较的重排序算法*[J]. 现代图书情报技术, 2009,25(11): 49-52
85.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43
86.王香莲.Google和百度两种搜索引擎比较研究[J]. 现代图书情报技术, 2004,20(8): 52-55
87.王秀玲.搜索引擎Inktomi研究[J]. 现代图书情报技术, 2004,20(1): 46-49
88.包冬梅,周曰卿.著名中英文搜索引擎检索性能测评[J]. 现代图书情报技术, 2004,20(1): 36-40
89.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37
90.邱均平,余以胜 .基于知识库系统的智能搜索引擎研究[J]. 现代图书情报技术, 2005,21(7): 51-53
91.唐爱民,真溱,樊静.基于叙词表的领域本体构建研究[J]. 现代图书情报技术, 2005,21(4): 1-5
92.刘蓉,王国顺,文亮.一个基于ASP.NET与Yahoo Web APIs的搜索网站的实现[J]. 现代图书情报技术, 2005,21(8): 42-44
93.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47

Copyright 2008 by 现代图书情报技术