现代图书情报技术 2007, 2(8) 63-66  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(629KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
搜索引擎
Lucene
插件
抓取器
本文作者相关文章
陈艳春
李双平
PubMed
Article by
Article by

基于Lucene的企业级搜索引擎的设计与实现

陈艳春1 李双平2

1(石家庄铁道学院经济管理学院 石家庄 050043)
2(北京易维博科科技有限公司 北京 100010)

摘要

针对企业文档信息资源丰富而又缺乏有效搜索工具的问题,提出构建企业级搜索引擎。首先分析企业级搜索引擎应具有的功能和总体架构,在实现中,对Lucene索引器进行深入研究;在抓取器的体系设计中,采用插件设计思想,来对不同的文档类型解析、抽取;在任务调度方面,实现一套多任务并行的调度机制;在用户接口设计上,采用Yui-ext组件和DWR远程对象调用框架,实现Web方式下的异步通信,提升用户体验。

关键词 搜索引擎   Lucene   插件   抓取器  

Design and Implementation of Enterprise Search Engine Based on Lucene

Chen Yanchun1   Li Shuangping2

1(Economic & Management Institute,Shijiazhuang Railway Institute,Shijiazhuang  050043,China )
2(Ewayboke Corporation Limited,Beijing 100010,China)

Abstract:

The enterprise-level search engine is proposed to solve the problem that enterprise have abundant document information resources but lack of effective search tools.The function and the overall framework of the enterprise-level search engine are analyzed firstly.Lucene indexer is studied in depth during implementation secondly. Then the plug-in unit is used to carry out the analysis and extraction of different types of documentsi in design. A set of parallel multi-task scheduling mechanism is established in the task scheduling. When the user interface is designed,Yui-ext components and DWR remote object invocation framework is applied to implement asynchronous communication by the Web,which can promote the users’ experience.

Keywords: Search engine   Lucene   Plug-in   Crawler  
收稿日期 2007-07-06 修回日期 2007-07-19 网络版发布日期 2007-08-25 
分类号:

TP393

基金项目:

通讯作者: 陈艳春 通讯作者E_mail: chenyanchunsjz@163.com
 

参考文献:

[1] 李刚,宋伟,邱哲.征服Ajax+Lucene-构建搜索引擎[M]. 北京:人民邮电出版社,2006.
[2] 邱哲,符滔滔.Lucene+Heritrix开发自己的搜索引擎[M]. 北京:人民邮电出版社,2007.
[3] 金恩年.智能商品查询服务系统的研究与设计[D].上海:华东师范大学,2006
[4] 丛磊.桌面搜索引擎的研究与实现[D].北京:北京化工大学,2006
[5] Gospodnetic O, Hatcher E.Lucene in Action[M].USA:Manning Publications Co.,2006.
[6] 孙卫琴.精通Hibernate Java对象持久化技术详解[M].北京:电子工业出版社,2005.

本刊中的类似文章
1.孟晓明.对称搜索技术P2P在网格资源检索中的应用*[J]. 现代图书情报技术, 2006,1(2): 54-58
2.姜丽华,张宏斌,杨晓蓉 .基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006,1(5): 10-12
3.刘洁清,吴京慧 .面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006,1(5): 40-43
4.伍宪.利用搜索引擎进行高质量情报检索[J]. 现代图书情报技术, 2000,16(6): 51-53
5.陈树年,李青华.近几年来我国对搜索引擎的研究[J]. 现代图书情报技术, 2000,16(6): 57-59
6.郑菲.Internet搜索引擎AltaVista的研究[J]. 现代图书情报技术, 1998,14(1): 17-19
7.陈朝晖.Internet中文信息搜索引擎GoYoYo的研究[J]. 现代图书情报技术, 1998,14(2): 28-31
8.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21
9.陈朝晖.网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998,14(6): 32-35
10.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42
11.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
12.汤天波,高峰.可视化技术在网络链接分析中的应用研究[J]. 现代图书情报技术, 2009,3(2): 78-82
13.Miao Chen,Xiaozhong Liu,Jian Qin .从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009,3(3): 38-45
14.李勇文.OAI元数据搜索引擎的设计与实现[J]. 现代图书情报技术, 2005,21(2): 37-39
15.张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J]. 现代图书情报技术, 2005,21(2): 40-43
16.毛军 .图书馆信息服务和搜索引擎的跨界合作[J]. 现代图书情报技术, 2006,1(9): 2-7
17.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
18.杨思洛.搜索引擎的排序技术研究[J]. 现代图书情报技术, 2005,21(1): 43-47
19.吴鹏飞,马凤娟,李文革,郭鹏.开源全文检索引擎Lucene本地化实践研究*[J]. 现代图书情报技术, 2009,25(4): 19-22
20.徐芳.基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术, 2009,25(5): 81-85
21.李春旺 .LOCKSS插件技术与中文期刊Plugin开发[J]. 现代图书情报技术, 2006,1(8): 60-64
22.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50
23.毛力 .学术数据库与普及型搜索引擎的合作研究[J]. 现代图书情报技术, 2006,1(9): 13-17
24.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68
25.徐娟,马自卫 .网络资源采集与学科导航系统的研究与实现[J]. 现代图书情报技术, 2006,1(6): 11-16
26.徐金雷,杨晓江 .专业搜索引擎的排序算法研究[J]. 现代图书情报技术, 2006,1(7): 20-24
27.于俊洋,沈夏炯 .用FCA对搜索结果进行分类*[J]. 现代图书情报技术, 2006,1(12): 44-48
28.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
29.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67
30.李春旺 .基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007,2(1): 49-52
31.陈权,曹卓文,杨晓江.一个基础教育网站搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(6): 70-73
32.陈丹,郑增威.增量式索引技术在信息搜索引擎中的应用[J]. 现代图书情报技术, 2007,2(6): 87-90
33.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52
34.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
35.夏立新,王忠义.基于XML的全文检索原型系统的设计与实现*[J]. 现代图书情报技术, 2007,2(8): 67-70
36.张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术, 2007,2(6): 52-55
37.宋振晖.竞争情报系统监控引擎的研究与设计[J]. 现代图书情报技术, 2007,2(6): 56-59
38.张俊丽,高劲松,张帆.基于网格的国外搜索引擎系统的比较研究*[J]. 现代图书情报技术, 2007,2(9): 28-33
39.白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007,2(11): 58-62
40.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
41.黄水清,朱书梅.开放获取资源统一访问平台全文检索工具的设计与实现[J]. 现代图书情报技术, 2008,24(7): 7-12
42.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37
43.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63
44.欧阳剑.基于OPAC的开放式中文图书资源库的设计与实现[J]. 现代图书情报技术, 2008,24(9): 92-97
45.付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析*[J]. 现代图书情报技术, 2009,25(6): 61-65
46.夏崇镨,康丽 .基于叙词表的主题爬虫技术研究*[J]. 现代图书情报技术, 2007,2(5): 41-44
47.刘峰,施水才,肖诗斌,王弘蔚 .基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007,2(1): 29-32
48.郭少友.基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010,26(2): 24-30
49.徐建华,伍宪,胡燕菘.国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术, 2001,17(1): 48-51
50.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50
51.姜恩波.搜索引擎的信息过滤技术[J]. 现代图书情报技术, 2001,17(3): 33-35
52.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54
53.许涛,吴淑燕.Google搜索引擎及其技术简介[J]. 现代图书情报技术, 2003,19(4): 58-61
54.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33
55.张燕,惠佳颖.网络搜索引擎评价[J]. 现代图书情报技术, 2001,17(4): 34-36
56.王启云.如何利用搜索引擎检索网络信息[J]. 现代图书情报技术, 2001,17(4): 40-43
57.白萍.搜索引擎在医学导航中的作用[J]. 现代图书情报技术, 2001,17(5): 83-84
58.王智宇.搜索引擎Excite检索功能详述及评析[J]. 现代图书情报技术, 2001,17(6): 30-32
59.佟贺丰.搜索引擎注册技巧与网站推销[J]. 现代图书情报技术, 2001,17(6): 33-34
60.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43
61.曹玉霞.搜索引擎新思维[J]. 现代图书情报技术, 2000,16(5): 33-34
62.常春.Google应用技巧[J]. 现代图书情报技术, 2004,20(6): 53-55
63.陈氢.集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004,20(4): 27-31
64.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38
65.陈定权.Web信息检索技术最新进展[J]. 现代图书情报技术, 2002,18(2): 39-41
66.詹仁锋.对互联网经济信息资源利用问题的思考[J]. 现代图书情报技术, 2002,18(1): 63-65
67.朱俊卿.搜索引擎Google研究[J]. 现代图书情报技术, 2002,18(1): 45-47
68.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30
69.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32
70.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65
71.孙静宇.TRS全文检索系统在吉林大学图书馆的应用[J]. 现代图书情报技术, 2002,18(3): 88-90
72.陈树年.网络信息分类法研究[J]. 现代图书情报技术, 2002,18(3): 54-57
73.徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究  [J]. 现代图书情报技术, 2004,20(11): 46-48
74.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26
75.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34
76.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38
77.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50
78.原福永,郭丽娜,毛伟伟.基于内部文档比较的重排序算法*[J]. 现代图书情报技术, 2009,25(11): 49-52
79.何琳,张振贵,黄水清.基于Lucene的OA资源全文检索系统的设计与实现*[J]. 现代图书情报技术, 2009,25(11): 44-48
80.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43
81.王香莲.Google和百度两种搜索引擎比较研究[J]. 现代图书情报技术, 2004,20(8): 52-55
82.王秀玲.搜索引擎Inktomi研究[J]. 现代图书情报技术, 2004,20(1): 46-49
83.包冬梅,周曰卿.著名中英文搜索引擎检索性能测评[J]. 现代图书情报技术, 2004,20(1): 36-40
84.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37
85.邱均平,余以胜 .基于知识库系统的智能搜索引擎研究[J]. 现代图书情报技术, 2005,21(7): 51-53
86.刘蓉,王国顺,文亮.一个基于ASP.NET与Yahoo Web APIs的搜索网站的实现[J]. 现代图书情报技术, 2005,21(8): 42-44
87.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47

Copyright 2008 by 现代图书情报技术