现代图书情报技术 2009, 3(2) 102-106 DOI:     ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(664KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
PDF
科技论文
语义元数据
自动抽取
本文作者相关文章
张秀秀
马建霞
PubMed
Article by Zhang,X.X
Article by Ma,J.X

PDF科技论文语义元数据的自动抽取研究*

张秀秀  马建霞

(中国科学院国家科学图书馆兰州分馆   兰州 730000)

摘要

在分析PDF文件结构的基础上,解析PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。

关键词 PDF   科技论文   语义元数据   自动抽取  

Automatic Extraction of Semantic Metadata from PDF Research Papers

Zhang Xiuxiu   Ma Jianxia

(The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China)

Abstract:

This paper analyzes content streams of PDF files based on its structure, and extracts semantic metadata automatically from research papers by way of rule-based matching and format-based locating. Experimental results show that this method can extract important semantic metadata such as title and author effectively.

Keywords: PDF   Research paper   Semantic metadata   Automatic extraction  
收稿日期 2008-11-03 修回日期 2008-11-21 网络版发布日期 2009-02-25 
分类号:

TP391.43

基金项目:

* 本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据自动抽取工具在数字知识库建设中的应用研究与开发”和国家社会科学基金项目“机构知识库建设与应用研究”(项目编号:07BTQ019)的研究成果之一。

通讯作者: 张秀秀 通讯作者E_mail: zhangxx@llas.ac.cn
 

参考文献:

[1] 李朝光, 张铭, 邓志鸿, 等. 论文元数据信息的自动抽取[J].计算机工程与应用, 2002(21):189-191,235.
[2] Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al. Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems, 2007(43):152–167.
[3] Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles from General Documents Using Machine Learning[J].Information Processing and Management, 2006,42(1):1276-1293.
[4] Yu J D, Fan X Z. Metadata Extraction from Chinese Research Papers Based on Conditional Random Fields[J/OL]. [2008-10-21]. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=4405975&isnumber=4405869.
[5] Giles C L, Bollacker K D, Lawrence S. CiteSeer: An Automatic Citation Indexing System[J/OL]. [2008-10-21].http://clgiles.ist.psu.edu/papers/DL-1998-citeseer.pdf.
[6] 陈俊林, 张文德. 基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术, 2007(2):18-23.
[7] PDF Reference[EB/OL].[2008-04-15]. http://www.adobe.com/devnet/pdf/pdfs/PDFReference13.pdf.

本刊中的类似文章
1.李明伍,方丽萍 .TIFF图像文件转换为PDF文件的实现*[J]. 现代图书情报技术, 2006,1(3): 89-91
2.王永成.自动编制文献摘要及知识的自动提取[J]. 现代图书情报技术, 1993,9(3): 13-13
3.赵阳,姜爱蓉,吴建新 .高校学位论文全文数据库建设实践-----以清华大学图书馆为例[J]. 现代图书情报技术, 2006,1(5): 6-9
4.刘凡馨 .基于PDF417条形码的读者证件系统的设计与实现[J]. 现代图书情报技术, 2007,2(6): 83-86
5.陈俊林,张文德 .基于XSLT的PDF论文元数据的优化抽取[J]. 现代图书情报技术, 2007,2(2): 18-23
6.曾苏,马建霞,张秀秀.元数据自动抽取研究新进展*[J]. 现代图书情报技术, 2008,24(4): 7-11
7.何琳.领域本体的关系抽取研究*[J]. 现代图书情报技术, 2008,24(4): 35-38
8.谈春梅,颜世伟,刘子牧.网络专题知识组织知识元自动抽取系统的设计与实现*[J]. 现代图书情报技术, 2008,24(3): 62-67
9.杜树军.用PDF制作可以用于光盘发布的电子出版物[J]. 现代图书情报技术, 2002,18(4): 89-90
10.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13

Copyright 2008 by 现代图书情报技术