| 现代图书情报技术 2009, 3(2) 102-106 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||||||||
|
PDF科技论文语义元数据的自动抽取研究* | |||||||||||||||||||||||||||||||||||||||||||||||
|
张秀秀 马建霞 | |||||||||||||||||||||||||||||||||||||||||||||||
|
(中国科学院国家科学图书馆兰州分馆 兰州 730000) | |||||||||||||||||||||||||||||||||||||||||||||||
| 摘要:
在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。 | |||||||||||||||||||||||||||||||||||||||||||||||
| 关键词: PDF 科技论文 语义元数据 自动抽取 | |||||||||||||||||||||||||||||||||||||||||||||||
|
Automatic Extraction of Semantic Metadata from PDF Research Papers | |||||||||||||||||||||||||||||||||||||||||||||||
|
Zhang Xiuxiu Ma Jianxia | |||||||||||||||||||||||||||||||||||||||||||||||
|
(The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China) | |||||||||||||||||||||||||||||||||||||||||||||||
| Abstract:
This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule-based matching and format-based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively. | |||||||||||||||||||||||||||||||||||||||||||||||
| Keywords: PDF Research paper Semantic metadata Automatic extraction | |||||||||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2008-11-03 修回日期 2008-11-21 网络版发布日期 2009-02-25 | |||||||||||||||||||||||||||||||||||||||||||||||
| 分类号: TP391.43 |
|||||||||||||||||||||||||||||||||||||||||||||||
| 基金项目:
* 本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据自动抽取工具在数字知识库建设中的应用研究与开发”和国家社会科学基金项目“机构知识库建设与应用研究”(项目编号:07BTQ019)的研究成果之一。 | |||||||||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 张秀秀 通讯作者E_mail: zhangxx@llas.ac.cn | |||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||||||||
[1] 李朝光, 张铭, 邓志鸿, 等. 论文元数据信息的自动抽取[J].计算机工程与应用, 2002(21):189-191,235. |
|||||||||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||||||||
| 1.李明伍,方丽萍 .TIFF图像文件转换为PDF文件的实现*[J]. 现代图书情报技术, 2006,1(3): 89-91 | |||||||||||||||||||||||||||||||||||||||||||||||
| 2.王永成.自动编制文献摘要及知识的自动提取[J]. 现代图书情报技术, 1993,9(3): 13-13 | |||||||||||||||||||||||||||||||||||||||||||||||
| 3.赵阳,姜爱蓉,吴建新 .高校学位论文全文数据库建设实践-----以清华大学图书馆为例[J]. 现代图书情报技术, 2006,1(5): 6-9 | |||||||||||||||||||||||||||||||||||||||||||||||
| 4.刘凡馨 .基于PDF417条形码的读者证件系统的设计与实现[J]. 现代图书情报技术, 2007,2(6): 83-86 | |||||||||||||||||||||||||||||||||||||||||||||||
| 5.陈俊林,张文德 .基于XSLT的PDF论文元数据的优化抽取[J]. 现代图书情报技术, 2007,2(2): 18-23 | |||||||||||||||||||||||||||||||||||||||||||||||
| 6.曾苏,马建霞,张秀秀.元数据自动抽取研究新进展*[J]. 现代图书情报技术, 2008,24(4): 7-11 | |||||||||||||||||||||||||||||||||||||||||||||||
| 7.何琳.领域本体的关系抽取研究*[J]. 现代图书情报技术, 2008,24(4): 35-38 | |||||||||||||||||||||||||||||||||||||||||||||||
| 8.谈春梅,颜世伟,刘子牧.网络专题知识组织知识元自动抽取系统的设计与实现*[J]. 现代图书情报技术, 2008,24(3): 62-67 | |||||||||||||||||||||||||||||||||||||||||||||||
| 9.杜树军.用PDF制作可以用于光盘发布的电子出版物[J]. 现代图书情报技术, 2002,18(4): 89-90 | |||||||||||||||||||||||||||||||||||||||||||||||
| 10.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13 | |||||||||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||||||||