|
|
现代图书情报技术 2007, 2(8) 63-66 DOI:
ISSN: 1003-3513 CN: 11-2856/G2 |
|
|
|
|
本期目录 |
下期目录 |
过刊浏览 |
高级检索
[打印本页]
[关闭]
|
|
| 论文 |
|
|
基于Lucene的企业级搜索引擎的设计与实现 |
|
|
陈艳春1 李双平2 |
|
|
1(石家庄铁道学院经济管理学院 石家庄 050043)
2(北京易维博科科技有限公司 北京 100010) |
|
|
摘要:
针对企业文档信息资源丰富而又缺乏有效搜索工具的问题,提出构建企业级搜索引擎。首先分析企业级搜索引擎应具有的功能和总体架构,在实现中,对Lucene索引器进行深入研究;在抓取器的体系设计中,采用插件设计思想,来对不同的文档类型解析、抽取;在任务调度方面,实现一套多任务并行的调度机制;在用户接口设计上,采用Yui-ext组件和DWR远程对象调用框架,实现Web方式下的异步通信,提升用户体验。 |
|
|
关键词:
搜索引擎
Lucene
插件
抓取器
|
|
|
Design and Implementation of Enterprise Search Engine Based on Lucene |
|
|
Chen Yanchun1 Li Shuangping2
|
|
|
1(Economic & Management Institute,Shijiazhuang Railway Institute,Shijiazhuang 050043,China )
2(Ewayboke Corporation Limited,Beijing 100010,China)
|
|
|
Abstract:
The enterprise-level search engine is proposed to solve the problem that enterprise have abundant document information resources but lack of effective search tools.The function and the overall framework of the enterprise-level search engine are analyzed firstly.Lucene indexer is studied in depth during implementation secondly. Then the plug-in unit is used to carry out the analysis and extraction of different types of documentsi in design. A set of parallel multi-task scheduling mechanism is established in the task scheduling. When the user interface is designed,Yui-ext components and DWR remote object invocation framework is applied to implement asynchronous communication by the Web,which can promote the users’ experience. |
|
|
Keywords:
Search engine
Lucene
Plug-in
Crawler
|
|
|
收稿日期 2007-07-06 修回日期 2007-07-19 网络版发布日期 2007-08-25 |
|
|
分类号: TP393 |
|
|
基金项目:
|
|
|
通讯作者: 陈艳春 通讯作者E_mail: chenyanchunsjz@163.com |
|
|
|
|
|
| 参考文献: |
[1] 李刚,宋伟,邱哲.征服Ajax+Lucene-构建搜索引擎[M]. 北京:人民邮电出版社,2006.
[2] 邱哲,符滔滔.Lucene+Heritrix开发自己的搜索引擎[M]. 北京:人民邮电出版社,2007.
[3] 金恩年.智能商品查询服务系统的研究与设计[D].上海:华东师范大学,2006
[4] 丛磊.桌面搜索引擎的研究与实现[D].北京:北京化工大学,2006
[5] Gospodnetic O, Hatcher E.Lucene in Action[M].USA:Manning Publications Co.,2006.
[6] 孙卫琴.精通Hibernate Java对象持久化技术详解[M].北京:电子工业出版社,2005. |
| 本刊中的类似文章 |
| 1.孟晓明.对称搜索技术P2P在网格资源检索中的应用*[J]. 现代图书情报技术, 2006,1(2): 54-58 |
| 2.姜丽华,张宏斌,杨晓蓉 .基于Multi-Agent跨库检索系统的设计与实现[J]. 现代图书情报技术, 2006,1(5): 10-12 |
| 3.刘洁清,吴京慧 .面向主题的个人实时搜索引擎的设计与实现[J]. 现代图书情报技术, 2006,1(5): 40-43 |
| 4.伍宪.利用搜索引擎进行高质量情报检索[J]. 现代图书情报技术, 2000,16(6): 51-53 |
| 5.陈树年,李青华.近几年来我国对搜索引擎的研究[J]. 现代图书情报技术, 2000,16(6): 57-59 |
| 6.郑菲.Internet搜索引擎AltaVista的研究[J]. 现代图书情报技术, 1998,14(1): 17-19 |
| 7.陈朝晖.Internet中文信息搜索引擎GoYoYo的研究[J]. 现代图书情报技术, 1998,14(2): 28-31 |
| 8.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21 |
| 9.陈朝晖.网络新闻搜索引擎Deja News研究[J]. 现代图书情报技术, 1998,14(6): 32-35 |
| 10.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42 |
| 11.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70 |
| 12.汤天波,高峰.可视化技术在网络链接分析中的应用研究[J]. 现代图书情报技术, 2009,3(2): 78-82 |
| 13.Miao Chen,Xiaozhong Liu,Jian Qin .从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009,3(3): 38-45 |
| 14.李勇文.OAI元数据搜索引擎的设计与实现[J]. 现代图书情报技术, 2005,21(2): 37-39 |
| 15.张校乾,金玉玲,侯丽波.一种基于Lucene检索引擎的全文数据库的研究与实现[J]. 现代图书情报技术, 2005,21(2): 40-43 |
| 16.毛军 .图书馆信息服务和搜索引擎的跨界合作[J]. 现代图书情报技术, 2006,1(9): 2-7 |
| 17.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32 |
| 18.杨思洛.搜索引擎的排序技术研究[J]. 现代图书情报技术, 2005,21(1): 43-47 |
| 19.吴鹏飞,马凤娟,李文革,郭鹏.开源全文检索引擎Lucene本地化实践研究*[J]. 现代图书情报技术, 2009,25(4): 19-22 |
| 20.徐芳.基于通用搜索引擎实现站内搜索的二次开发[J]. 现代图书情报技术, 2009,25(5): 81-85 |
| 21.李春旺 .LOCKSS插件技术与中文期刊Plugin开发[J]. 现代图书情报技术, 2006,1(8): 60-64 |
| 22.向晖,郭一平,王亮 .基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006,1(8): 46-50 |
| 23.毛力 .学术数据库与普及型搜索引擎的合作研究[J]. 现代图书情报技术, 2006,1(9): 13-17 |
| 24.陈祖琴,郑宏 .基于元搜索引擎的中文数据库引文分析系统[J]. 现代图书情报技术, 2006,1(11): 65-68 |
| 25.徐娟,马自卫 .网络资源采集与学科导航系统的研究与实现[J]. 现代图书情报技术, 2006,1(6): 11-16 |
| 26.徐金雷,杨晓江 .专业搜索引擎的排序算法研究[J]. 现代图书情报技术, 2006,1(7): 20-24 |
| 27.于俊洋,沈夏炯 .用FCA对搜索结果进行分类*[J]. 现代图书情报技术, 2006,1(12): 44-48 |
| 28.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85 |
| 29.欧阳剑,李冠盛 .元搜索引擎原理在实现分布式虚拟联合目录中的应用研究[J]. 现代图书情报技术, 2006,1(9): 63-67 |
| 30.李春旺 .基于OSS的主题搜索引擎设计与实现[J]. 现代图书情报技术, 2007,2(1): 49-52 |
| 31.陈权,曹卓文,杨晓江.一个基础教育网站搜索引擎的设计与实现[J]. 现代图书情报技术, 2007,2(6): 70-73 |
| 32.陈丹,郑增威.增量式索引技术在信息搜索引擎中的应用[J]. 现代图书情报技术, 2007,2(6): 87-90 |
| 33.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52 |
| 34.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55 |
| 35.夏立新,王忠义.基于XML的全文检索原型系统的设计与实现*[J]. 现代图书情报技术, 2007,2(8): 67-70 |
| 36.张玉连,王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术, 2007,2(6): 52-55 |
| 37.宋振晖.竞争情报系统监控引擎的研究与设计[J]. 现代图书情报技术, 2007,2(6): 56-59 |
| 38.张俊丽,高劲松,张帆.基于网格的国外搜索引擎系统的比较研究*[J]. 现代图书情报技术, 2007,2(9): 28-33 |
| 39.白光祖,吕俊生.基于WebSPHINX的主题搜索引擎原理研究与结构设计[J]. 现代图书情报技术, 2007,2(11): 58-62 |
| 40.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50 |
| 41.黄水清,朱书梅.开放获取资源统一访问平台全文检索工具的设计与实现[J]. 现代图书情报技术, 2008,24(7): 7-12 |
| 42.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37 |
| 43.王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008,24(9): 58-63 |
| 44.欧阳剑.基于OPAC的开放式中文图书资源库的设计与实现[J]. 现代图书情报技术, 2008,24(9): 92-97 |
| 45.付真真,陆伟.基于关键词的搜索引擎优化策略及效果分析*[J]. 现代图书情报技术, 2009,25(6): 61-65 |
| 46.夏崇镨,康丽 .基于叙词表的主题爬虫技术研究*[J]. 现代图书情报技术, 2007,2(5): 41-44 |
| 47.刘峰,施水才,肖诗斌,王弘蔚 .基于RSS的分布式新闻博客搜索引擎设计*[J]. 现代图书情报技术, 2007,2(1): 29-32 |
| 48.郭少友.基于通用搜索引擎的深层网络表面化方法研究[J]. 现代图书情报技术, 2010,26(2): 24-30 |
| 49.徐建华,伍宪,胡燕菘.国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术, 2001,17(1): 48-51 |
| 50.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50 |
| 51.姜恩波.搜索引擎的信息过滤技术[J]. 现代图书情报技术, 2001,17(3): 33-35 |
| 52.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54 |
| 53.许涛,吴淑燕.Google搜索引擎及其技术简介[J]. 现代图书情报技术, 2003,19(4): 58-61 |
| 54.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33 |
| 55.张燕,惠佳颖.网络搜索引擎评价[J]. 现代图书情报技术, 2001,17(4): 34-36 |
| 56.王启云.如何利用搜索引擎检索网络信息[J]. 现代图书情报技术, 2001,17(4): 40-43 |
| 57.白萍.搜索引擎在医学导航中的作用[J]. 现代图书情报技术, 2001,17(5): 83-84 |
| 58.王智宇.搜索引擎Excite检索功能详述及评析[J]. 现代图书情报技术, 2001,17(6): 30-32 |
| 59.佟贺丰.搜索引擎注册技巧与网站推销[J]. 现代图书情报技术, 2001,17(6): 33-34 |
| 60.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43 |
| 61.曹玉霞.搜索引擎新思维[J]. 现代图书情报技术, 2000,16(5): 33-34 |
| 62.常春.Google应用技巧[J]. 现代图书情报技术, 2004,20(6): 53-55 |
| 63.陈氢.集成式图像搜索引擎体系结构分析[J]. 现代图书情报技术, 2004,20(4): 27-31 |
| 64.张俭恭,陈定权,吴振新.关于搜索引擎与元搜索引擎的讨论[J]. 现代图书情报技术, 2002,18(2): 36-38 |
| 65.陈定权.Web信息检索技术最新进展[J]. 现代图书情报技术, 2002,18(2): 39-41 |
| 66.詹仁锋.对互联网经济信息资源利用问题的思考[J]. 现代图书情报技术, 2002,18(1): 63-65 |
| 67.朱俊卿.搜索引擎Google研究[J]. 现代图书情报技术, 2002,18(1): 45-47 |
| 68.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30 |
| 69.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32 |
| 70.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65 |
| 71.孙静宇.TRS全文检索系统在吉林大学图书馆的应用[J]. 现代图书情报技术, 2002,18(3): 88-90 |
| 72.陈树年.网络信息分类法研究[J]. 现代图书情报技术, 2002,18(3): 54-57 |
| 73.徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究
[J]. 现代图书情报技术, 2004,20(11): 46-48 |
| 74.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26 |
| 75.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34 |
| 76.乐庆玲.大型元搜索引擎的自动化构建[J]. 现代图书情报技术, 2004,20(11): 35-38 |
| 77.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50 |
| 78.原福永,郭丽娜,毛伟伟.基于内部文档比较的重排序算法*[J]. 现代图书情报技术, 2009,25(11): 49-52 |
| 79.何琳,张振贵,黄水清.基于Lucene的OA资源全文检索系统的设计与实现*[J]. 现代图书情报技术, 2009,25(11): 44-48 |
| 80.刘畅,林剑锋,王雁杰.元搜索引擎的调查分析[J]. 现代图书情报技术, 2004,20(9): 40-43 |
| 81.王香莲.Google和百度两种搜索引擎比较研究[J]. 现代图书情报技术, 2004,20(8): 52-55 |
| 82.王秀玲.搜索引擎Inktomi研究[J]. 现代图书情报技术, 2004,20(1): 46-49 |
| 83.包冬梅,周曰卿.著名中英文搜索引擎检索性能测评[J]. 现代图书情报技术, 2004,20(1): 36-40 |
| 84.张学宏(编译).元搜索引擎Dogpile研究[J]. 现代图书情报技术, 2005,21(7): 34-37 |
| 85.邱均平,余以胜 .基于知识库系统的智能搜索引擎研究[J]. 现代图书情报技术, 2005,21(7): 51-53 |
| 86.刘蓉,王国顺,文亮.一个基于ASP.NET与Yahoo Web APIs的搜索网站的实现[J]. 现代图书情报技术, 2005,21(8): 42-44 |
| 87.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47 |
|
| Copyright 2008 by 现代图书情报技术 |