现代图书情报技术 2007, 2(1) 29-32  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(469KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
RSS
Pastry
Bloom filter
分布式搜索引擎
本文作者相关文章
刘峰
施水才
肖诗斌
王弘蔚
PubMed
Article by
Article by
Article by
Article by

基于RSS的分布式新闻博客搜索引擎设计*

刘峰 施水才 肖诗斌 王弘蔚

(北京信息科技大学中文信息处理研究中心 北京 100101)

摘要

针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。

关键词 RSS   Pastry   Bloom filter   分布式搜索引擎  

A Design of Distributed News & Weblog Search Engine Based on RSS

Liu Feng   Shi Shuicai   Xiao Shibin   Wang Hongwei

(Chinese Information Processing Research Center, Beijing Information Science & Technology University, Beijing 100101,China)

Abstract:

For the problem of traditional search engine can’t get completed and updated copies of the whole Web in time, especially news and Weblog site with high update frequency, this paper designes a distributed news & Weblog search engine based on RSS syndicated data. Using the pastry protocol, distributed data could be stored and transferred smoothly. This paper also compresses index file with Bloom filter. So the news and Weblog site with high update frequency could be searched in time and the cost of storage could be reduced. The system has a bright future.

Keywords: RSS   Pastry   Bloom filter   Distributed search engine  
收稿日期 2006-10-11 修回日期 2006-11-14 网络版发布日期 2007-01-25 
分类号:

TP391

基金项目:

*本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:60272084);北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013);北京市教委项目“中文垃圾邮件过滤和追踪技术研究”(项目编号:KM200510772008)和“数字内容的安全身份认证与版权保护技术研究”(项目编号:KM200610772008)的研究成果之一。

通讯作者: 刘峰 通讯作者E_mail: liu.feng@trs.com.cn
 

参考文献:

1Balakrishnan H, Kaashoek M, Karger D, Morris R,  Stoica I. Looking Up Data in P2P Systems.Comm. of the ACM, February 2003
2伍玉伟. RSS:网络信息“聚合”利器.图书情报论坛,2006(1) :72-73
3于忠涛,刘兴伟.Pastry 网络模型的路由机制及改进.西华大学学报自然科学版,2006,25(1) :27-30
4Ripeanu M.Peer-to-peer Architecture Case Study:Gnutella.In Proceedings of International Conference on P2P Computing, 2001
5Bloom Filter.http://www.nist.gov/dads/HTML/bloomFilter.html(Accessed Aug.18,2006)
6池静,方启泉. Bloom filter 的研究和应用.河北建筑科技学院学报,2003,20(4) :59-61

本刊中的类似文章
1.田阳 .基于免费组件AltovaXML的XQuery处理器的实现及应用[J]. 现代图书情报技术, 2006,1(4): 70-73
2.范 炜 陈树年 .基于RSS的图书信息服务理念与实现[J]. 现代图书情报技术, 0,(): 0-
3.周艳,马建国.基于播存网格的新闻广播系统设计*[J]. 现代图书情报技术, 2007,2(9): 76-79
4.张蓓,张成昱,姜爱蓉 .Ajax和RSS在图书馆个性化门户网站中的应用[J]. 现代图书情报技术, 2007,2(3): 65-68
5.姜恩波 .基于信息聚合的服务与技术[J]. 现代图书情报技术, 2007,2(4): 32-34
6.钱爱兵 .基于RSS的Web新闻主题聚合系统的设计与实现[J]. 现代图书情报技术, 2007,2(4): 56-61
7.陈凌晖 .基于RSS技术的信息门户个性化信息服务理念与实现[J]. 现代图书情报技术, 2007,2(1): 33-36
8.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
9.宫卫涛,马自卫.数字图书馆门户集成技术及其实现[J]. 现代图书情报技术, 2007,2(11): 23-27
10.刘莉,肖诗斌,王涛,施水才.基于RSS的博客采集系统的设计与实现*[J]. 现代图书情报技术, 2007,2(11): 45-48
11.李文江,陈诗琴.基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009,25(7-8): 131-135
12.吴振新.RSS元数据在门户网站建设中的应用*[J]. 现代图书情报技术, 2004,20(10): 60-64
13.范炜,陈树年.基于RSS的图书信息服务理念与实现[J]. 现代图书情报技术, 2005,21(12): 59-62
14.王建涛.RSS在图书馆信息服务中的应用研究[J]. 现代图书情报技术, 2005,21(7): 86-88
15.张会娥,张智雄,林颖,李飒.基于RSS的科技信息聚合系统的设计和实现[J]. 现代图书情报技术, 2005,21(7): 60-63
16.孙彩杰.RSS技术发展及其在图书馆中的应用[J]. 现代图书情报技术, 2005,21(6): 83-85
17.周强.在WebPAC中应用RSS[J]. 现代图书情报技术, 2005,21(6): 14-16

Copyright 2008 by 现代图书情报技术