|
|
现代图书情报技术 2009, 25(4) 23-26 DOI:
ISSN: 1003-3513 CN: 11-2856/G2 |
|
|
|
|
本期目录 |
下期目录 |
过刊浏览 |
高级检索
[打印本页]
[关闭]
|
|
| 论文 |
|
|
基于Hadoop的海量共现矩阵生成方法* |
|
|
杨代庆1,2 张智雄1 |
|
|
1(中国科学院国家科学图书馆 北京 100190)
2(中国科学技术信息研究所 北京 100038) |
|
|
摘要:
海量数据的处理分析是当前信息处理技术的热点之一,介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。 |
|
|
关键词:
Hadoop
MapReduce
共现矩阵
开源软件
|
|
|
A Method for Generating Co-occurrence Matrix of Mass Data Based on Hadoop |
|
|
Yang Daiqing1,2 Zhang Zhixiong1
|
|
|
1 (National Science Library, Chinese Academy of Sciences, Beijing 100190, China)
2(Institute of Scientific and Technical Information of China, Beijing 100038, China)
|
|
|
Abstract:
Mass data processing is a focal point of information techniques. This paper introduces architecture of open source parallel system-Hadoop, analyzes the MapReduce programming framework based on Hadoop, and proposes a method for generating co-occurrence matrix of mass data through multiple MapReduce operations. |
|
|
Keywords:
Hadoop
MapReduce
Co-Occurrence Matrix
open-source-software
|
|
|
收稿日期 2009-03-28 修回日期 2009-04-02 网络版发布日期 2009-04-25 |
|
|
分类号: G350 |
|
|
基金项目:
*本文系国家“十一五”科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。 |
|
|
通讯作者: 杨代庆 通讯作者E_mail: yangdq@mail.las.ac.cn |
|
|
|
|
|
| 参考文献: |
[1] HDFS Architecture[EB/OL].[2008-12-10].http://hadoop.apache.org/core/docs/current/hdfs_design.html.
[2] Hadoop Cluster Setup[EB/OL].[2008-12-15]. http://hadoop.apache.org/core/docs/current/cluster_setup.html.
[3] HadoopMapReduce[EB/OL].[2008-12-16].http://wiki.apache.org/hadoop/HadoopMapReduce.
[4] Distributed Computing with Linux and Hadoop.[EB/OL].[2009-01-10]. http://www.ibm.com/developerworks/linux/library/l-hadoop/index.html.
[5] Hbase[EB/OL].[2009-01-10].http://hadoop.apache.org/hbase/.
[6] Hive[EB/OL].[2009-01-15].http://hadoop.apache.org/hive/.
[7] Pig[EB/OL].[2009-01-15].http://hadoop.apache.org/pig/.
[8] CloudBase[EB/OL].[2009-01-16].http://sourceforge.net/projects/cloudbase/. |
| 本刊中的类似文章 |
| 1.白海燕,姜波.基于开源软件构建数字图书馆的知识组织体系[J]. 现代图书情报技术, 2009,25(4): 7-13 |
| 2.刘兰,吴振新,向菁,孙志茹.网络信息资源保存开源软件综述[J]. 现代图书情报技术, 2009,25(5): 11-17 |
| 3.郭文丽,李书宁,张晓林 .国外数字图书馆系统开源软件研究趋势[J]. 现代图书情报技术, 2007,2(3): 1-6 |
| 4.毕强,刘冲娇.数字图书馆开源软件本地化研究[J]. 现代图书情报技术, 2007,2(7): 5-9 |
| 5.白海燕 .开源软件OpenResolver的功能与源码分析[J]. 现代图书情报技术, 2007,2(1): 58-61 |
| 6.王政军,金玉玲,任永功 .基于开源软件构建OPAC检索机的研究与实现[J]. 现代图书情报技术, 2007,2(3): 73-76 |
| 7.吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J]. 现代图书情报技术, 2007,2(8): 52-55 |
| 8.缪元照.基于开源软件的高校数字化图书馆网络系统安全监控探讨[J]. 现代图书情报技术, 2007,2(6): 91-95 |
| 9.崔蕾,马自卫.基于OAI的收割和服务系统的研究与设计[J]. 现代图书情报技术, 2007,2(11): 13-18 |
| 10.李善杰.基于Windows平台构建OPAC检索机的研究与实现[J]. 现代图书情报技术, 2007,2(12): 74-77 |
| 11.刘毅,汤怡洁,杨锐,李春旺.基于Liferay Portal的所级图书馆集成信息服务平台设计与实现[J]. 现代图书情报技术, 2008,24(6): 72-77 |
| 12.张平杉.开源OPAC 2.0—VuFind应用研究[J]. 现代图书情报技术, 2008,24(10): 85-89 |
| 13.孟喆,马自卫.开源环境下的数字仓储和服务系统的集成应用[J]. 现代图书情报技术, 2008,24(12): 15-21 |
| 14.王泽贤.利用开源软件实现基于浏览器的幻灯片系统*[J]. 现代图书情报技术, 2009,25(6): 89-93 |
| 15.祝忠明,马建霞,卢利农,李富强,刘巍,吴登禄.机构知识库开源软件DSpace的扩展开发与应用[J]. 现代图书情报技术, 2009,25(7-8): 11-17 |
| 16.吴振新,曲云鹏,李成文,向菁.基于开源软件搭建网络信息资源采集与保存平台[J]. 现代图书情报技术, 2009,25(7-8): 6-10 |
| 17.史红娟,李伶,崔冶秋.读者借阅历史记录查询系统设计与实现[J]. 现代图书情报技术, 2009,25(7-8): 23-27 |
| 18.许雁冬,李宇.基于开源软件的网络监测系统研究与实现*[J]. 现代图书情报技术, 2009,25(12): 64-68 |
| 19.王欣,李玉兰,商允峥.基于Drupal构建图书馆2.0网站的研究和实践[J]. 现代图书情报技术, 2009,25(11): 82-87 |
|
| Copyright 2008 by 现代图书情报技术 |