现代图书情报技术 2009, 25(4) 23-26 DOI:     ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(536KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
Hadoop
MapReduce
共现矩阵
开源软件
本文作者相关文章
杨代庆
张智雄
PubMed
Article by Yang,D.Q
Article by Zhang,Z.X

基于Hadoop的海量共现矩阵生成方法*

杨代庆1,2  张智雄1

1(中国科学院国家科学图书馆 北京 100190)
2(中国科学技术信息研究所 北京 100038)

摘要

海量数据的处理分析是当前信息处理技术的热点之一,介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。

关键词 Hadoop   MapReduce   共现矩阵   开源软件  

A Method for Generating Co-occurrence Matrix of Mass Data Based on Hadoop

Yang Daiqing1,2  Zhang Zhixiong1

1 (National Science Library, Chinese Academy of Sciences, Beijing 100190, China)
2(Institute of Scientific and Technical Information of China, Beijing 100038, China)

Abstract:

Mass data processing is a focal point of information techniques. This paper introduces architecture of open source parallel system-Hadoop, analyzes the MapReduce programming framework based on Hadoop, and proposes a method for generating co-occurrence matrix of mass data through multiple MapReduce operations.

Keywords: Hadoop   MapReduce   Co-Occurrence Matrix   open-source-software  
收稿日期 2009-03-28 修回日期 2009-04-02 网络版发布日期 2009-04-25 
分类号:

G350

基金项目:

*本文系国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。

通讯作者: 杨代庆 通讯作者E_mail: yangdq@mail.las.ac.cn
 

参考文献:

[1] HDFS Architecture[EB/OL].[2008-12-10].http://hadoop.apache.org/core/docs/current/hdfs_design.html.
[2] Hadoop Cluster Setup[EB/OL].[2008-12-15]. http://hadoop.apache.org/core/docs/current/cluster_setup.html.
[3] HadoopMapReduce[EB/OL].[2008-12-16].http://wiki.apache.org/hadoop/HadoopMapReduce.
[4] Distributed Computing with Linux and Hadoop.[EB/OL].[2009-01-10]. http://www.ibm.com/developerworks/linux/library/l-hadoop/index.html.
[5] Hbase[EB/OL].[2009-01-10].http://hadoop.apache.org/hbase/.
[6] Hive[EB/OL].[2009-01-15].http://hadoop.apache.org/hive/.
[7] Pig[EB/OL].[2009-01-15].http://hadoop.apache.org/pig/.
[8] CloudBase[EB/OL].[2009-01-16].http://sourceforge.net/projects/cloudbase/.

本刊中的类似文章
1.白海燕,姜波.基于开源软件构建数字图书馆的知识组织体系[J]. 现代图书情报技术, 2009,25(4): 7-13
2.刘兰,吴振新,向菁,孙志茹.网络信息资源保存开源软件综述[J]. 现代图书情报技术, 2009,25(5): 11-17
3.郭文丽,李书宁,张晓林 .国外数字图书馆系统开源软件研究趋势[J]. 现代图书情报技术, 2007,2(3): 1-6
4.毕强,刘冲娇.数字图书馆开源软件本地化研究[J]. 现代图书情报技术, 2007,2(7): 5-9
5.白海燕 .开源软件OpenResolver的功能与源码分析[J]. 现代图书情报技术, 2007,2(1): 58-61
6.王政军,金玉玲,任永功 .基于开源软件构建OPAC检索机的研究与实现[J]. 现代图书情报技术, 2007,2(3): 73-76
7.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55
8.缪元照.基于开源软件的高校数字化图书馆网络系统安全监控探讨[J]. 现代图书情报技术, 2007,2(6): 91-95
9.崔蕾,马自卫.基于OAI的收割和服务系统的研究与设计[J]. 现代图书情报技术, 2007,2(11): 13-18
10.李善杰.基于Windows平台构建OPAC检索机的研究与实现[J]. 现代图书情报技术, 2007,2(12): 74-77
11.刘毅,汤怡洁,杨锐,李春旺.基于Liferay Portal的所级图书馆集成信息服务平台设计与实现[J]. 现代图书情报技术, 2008,24(6): 72-77
12.张平杉.开源OPAC 2.0—VuFind应用研究[J]. 现代图书情报技术, 2008,24(10): 85-89
13.孟喆,马自卫.开源环境下的数字仓储和服务系统的集成应用[J]. 现代图书情报技术, 2008,24(12): 15-21
14.王泽贤.利用开源软件实现基于浏览器的幻灯片系统*[J]. 现代图书情报技术, 2009,25(6): 89-93
15.祝忠明,马建霞,卢利农,李富强,刘巍,吴登禄.机构知识库开源软件DSpace的扩展开发与应用[J]. 现代图书情报技术, 2009,25(7-8): 11-17
16.吴振新,曲云鹏,李成文,向菁.基于开源软件搭建网络信息资源采集与保存平台[J]. 现代图书情报技术, 2009,25(7-8): 6-10
17.史红娟,李伶,崔冶秋.读者借阅历史记录查询系统设计与实现[J]. 现代图书情报技术, 2009,25(7-8): 23-27
18.许雁冬,李宇.基于开源软件的网络监测系统研究与实现*[J]. 现代图书情报技术, 2009,25(12): 64-68
19.王欣,李玉兰,商允峥.基于Drupal构建图书馆2.0网站的研究和实践[J]. 现代图书情报技术, 2009,25(11): 82-87

Copyright 2008 by 现代图书情报技术