| 现代图书情报技术 2007, 2(1) 29-32 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
基于RSS的分布式新闻博客搜索引擎设计* | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
刘峰 施水才 肖诗斌 王弘蔚 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
(北京信息科技大学中文信息处理研究中心 北京 100101) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 摘要:
针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 关键词: RSS Pastry Bloom filter 分布式搜索引擎 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
A Design of Distributed News & Weblog Search Engine Based on RSS | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Liu Feng Shi Shuicai Xiao Shibin Wang Hongwei | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
(Chinese Information Processing Research Center, Beijing Information Science & Technology University, Beijing 100101,China) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Abstract:
For the problem of traditional search engine can’t get completed and updated copies of the whole Web in time, especially news and Weblog site with high update frequency, this paper designes a distributed news & Weblog search engine based on RSS syndicated data. Using the pastry protocol, distributed data could be stored and transferred smoothly. This paper also compresses index file with Bloom filter. So the news and Weblog site with high update frequency could be searched in time and the cost of storage could be reduced. The system has a bright future. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Keywords: RSS Pastry Bloom filter Distributed search engine | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2006-10-11 修回日期 2006-11-14 网络版发布日期 2007-01-25 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 分类号: TP391 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 基金项目:
*本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:60272084);北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013);北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号:KM200510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号:KM200610772008)的研究成果之一。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 刘峰 通讯作者E_mail: liu.feng@trs.com.cn | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
1Balakrishnan H, Kaashoek M, Karger D, Morris R, Stoica I. Looking Up Data in P2P Systems.Comm. of the ACM, February 2003 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1.田阳 .基于免费组件AltovaXML的XQuery处理器的实现及应用[J]. 现代图书情报技术, 2006,1(4): 70-73 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2.范 炜 陈树年 .基于RSS的图书信息服务理念与实现[J]. 现代图书情报技术, 0,(): 0- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3.周艳,马建国.基于播存网格的新闻广播系统设计*[J]. 现代图书情报技术, 2007,2(9): 76-79 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 4.张蓓,张成昱,姜爱蓉 .Ajax和RSS在图书馆个性化门户网站中的应用[J]. 现代图书情报技术, 2007,2(3): 65-68 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 5.姜恩波 .基于信息聚合的服务与技术[J]. 现代图书情报技术, 2007,2(4): 32-34 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 6.钱爱兵 .基于RSS的Web新闻主题聚合系统的设计与实现[J]. 现代图书情报技术, 2007,2(4): 56-61 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 7.陈凌晖 .基于RSS技术的信息门户个性化信息服务理念与实现[J]. 现代图书情报技术, 2007,2(1): 33-36 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 8.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 9.宫卫涛,马自卫.数字图书馆门户集成技术及其实现[J]. 现代图书情报技术, 2007,2(11): 23-27 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 10.刘莉,肖诗斌,王涛,施水才.基于RSS的博客采集系统的设计与实现*[J]. 现代图书情报技术, 2007,2(11): 45-48 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 11.李文江,陈诗琴.基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009,25(7-8): 131-135 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 12.吴振新.RSS元数据在门户网站建设中的应用*[J]. 现代图书情报技术, 2004,20(10): 60-64 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 13.范炜,陈树年.基于RSS的图书信息服务理念与实现[J]. 现代图书情报技术, 2005,21(12): 59-62 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 14.王建涛.RSS在图书馆信息服务中的应用研究[J]. 现代图书情报技术, 2005,21(7): 86-88 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 15.张会娥,张智雄,林颖,李飒.基于RSS的科技信息聚合系统的设计和实现[J]. 现代图书情报技术, 2005,21(7): 60-63 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 16.孙彩杰.RSS技术发展及其在图书馆中的应用[J]. 现代图书情报技术, 2005,21(6): 83-85 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 17.周强.在WebPAC中应用RSS[J]. 现代图书情报技术, 2005,21(6): 14-16 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||