|
|
现代图书情报技术 2007, 2(12) 57-63 DOI:
ISSN: 1003-3513 CN: 11-2856/G2 |
|
|
|
|
本期目录 |
下期目录 |
过刊浏览 |
高级检索
[打印本页]
[关闭]
|
|
| 论文 |
|
|
HMM和CRFs在信息抽取应用中的比较研究 |
|
|
王昊 邓三鸿 |
|
|
(南京大学信息管理系 南京 210093) |
|
|
摘要:
在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列标注或对象分类问题。 |
|
|
关键词:
HMM
CRFs
信息抽取
人名实体抽取
角色标注
特征
|
|
|
Comparative Study on HMM and CRFs Applying in Information Extraction |
|
|
Wang Hao Deng Sanhong
|
|
|
(Department of Information Management, Nanjing University,Nanjing 210093,China)
|
|
|
Abstract:
This paper brings forward two models for person-name entity extraction based on the comparison of math theory between HMM and CRFs, one using word role label based HMM and the other using character role label based CRFs, then validates and compares the effect of both by open-testing and applying in practice, and thereby proves in practice that CRFs is fitter for sequence labeling and object classifying than HMM. |
|
|
Keywords:
HMM
CRFs
Information extraction
Person-name entity extraction
Role label
Feature
|
|
|
收稿日期 2007-10-11 修回日期 2007-10-24 网络版发布日期 2007-12-25 |
|
|
分类号: TP311 |
|
|
基金项目:
|
|
|
通讯作者: 王昊 通讯作者E_mail: ywhaowang810710@sina.com |
|
|
|
|
|
| 参考文献: |
[1] 傅爱平. 计算语言学和自然语言信息处理研究和应用综述[EB/OL].[2007-10-01]. http://ling.cass.cn/yingyong/courses/nlpbase.htm
[2] 王昊. 基于层次模式匹配的命名实体识别模型[J]. 现代图书情报技术, 2007(5):62-68
[3] Zhou G D, Su J. Named Entity Recognition Using an HMM-based Chunk Tagger[C]. In:Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, PA., USA, 2002:473-480
[4] Settles B. Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[C]. In:Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and its Application(NLPBA). Geneva,Switzerland, 2004:103-107
[5] 詹卫东. 词汇分析(二)——从词串到词性标记串[EB/OL]. [2007-10-01]. http://ccl.pku.edu.cn/ doubtfire/course/computational linguistics/contents/Chapter_07_2_pdf_format.pdf.
[6] 钱晶, 张杰, 张涛. 基于最大熵的汉语人名地名识别方法研究[J]. 小型微型计算机系统, 2006, 27(9):1761-1765
[7] 向晓雯. 基于条件随机场的中文命名实体识别[D].厦门:厦门大学,2006.
[8] laputa. 最大熵模型与自然语言处理[EB/OL]. [2007-10-01]. http://www.cs.caltech.edu/~weixl/research/read/summary/MaxEnt2.ppt.
[9] 黄昌宁, 赵海. 由字构词——中文分词新方法[C]. 中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议,2006
[10] 郭家清, 蔡东风, 王智超,等.一种基于条件随机场的人名识别[J]. 通讯与计算机,2007,4(2):22-25
[11] CRF++-0.49[CP/OL].[2007-10-01]. http://sourceforge.net |
| 本刊中的类似文章 |
| 1.邓尚民,孙玉伟 .信息抽取系统的研究现状[J]. 现代图书情报技术, 2006,1(3): 55-58 |
| 2.丁晓峰,李周贤,刘炳华,顾巍,吴楠宁 .在SSH协议下的入侵检测[J]. 现代图书情报技术, 2006,1(4): 60-62 |
| 3.宗萍,施水才,王涛,吕学强.基于条件随机场的英文地理行政实体识别*[J]. 现代图书情报技术, 2009,3(2): 51-55 |
| 4.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70 |
| 5.谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J]. 现代图书情报技术, 2005,21(5): 46-49 |
| 6.翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用*[J]. 现代图书情报技术, 2005,21(9): 76-79 |
| 7.姚飞,姜爱蓉.欧盟长期保存项目Planets的体系与特点[J]. 现代图书情报技术, 2010,26(2): 12-16 |
| 8.杭月芹,姚滢,沈洁 .基于单文档的上下文查询信息抽取*[J]. 现代图书情报技术, 2006,1(10): 30-33 |
| 9.易明,饶洋辉 .基于点击流数据的用户近期兴趣视图生成方法[J]. 现代图书情报技术, 2006,1(6): 55-58 |
| 10.原福永,王海霞,杨治秋 .基于内容图像检索中纹理分析的研究[J]. 现代图书情报技术, 2006,22(1): 59-61 |
| 11.刘坤,吕学强,王涛,施水才.基于多尺度条件随机场的文本图像二值化*[J]. 现代图书情报技术, 2009,25(4): 79-81 |
| 12.吴诗贤,张必兰.体验评价文章抽取模型研究*[J]. 现代图书情报技术, 2009,25(4): 88-92 |
| 13.孙巍.一种基于复合文本描述的科学数据特征表示方法*[J]. 现代图书情报技术, 2009,25(5): 22-27 |
| 14.柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J]. 现代图书情报技术, 2009,25(5): 44-49 |
| 15.高霄云,杨建林 .基于规则的中文时间词和数词的自动识别算法[J]. 现代图书情报技术, 2007,2(3): 46-50 |
| 16.王非 .网络学术文献信息门户[J]. 现代图书情报技术, 2006,1(9): 53-57 |
| 17.朱红灿,龙朝阳 .基于熵的新闻网页抽取方法的研究[J]. 现代图书情报技术, 2007,2(4): 48-51 |
| 18.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52 |
| 19.廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007,2(6): 38-41 |
| 20.李媛媛,马永强.基于潜在语义索引的特征选择与权重改进若干关键问题的研究与实现[J]. 现代图书情报技术, 2007,2(10): 80-84 |
| 21.黄永文,李广建.数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007,2(12): 1-5 |
| 22.赵琦,刘建华,冯浩然.从ACE会议看信息抽取技术的发展趋势*[J]. 现代图书情报技术, 2008,24(3): 18-23 |
| 23.赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J]. 现代图书情报技术, 2008,24(3): 24-31 |
| 24.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50 |
| 25.余希田,万莉莉,胡铁军,李丹亚 .基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008,24(6): 61-66 |
| 26.谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J]. 现代图书情报技术, 2008,24(7): 43-46 |
| 27.杨陟卓,韩燮.一种基于特征抽取的文档信息过滤算法研究[J]. 现代图书情报技术, 2008,24(4): 29-34 |
| 28.沈静,周金治,马建国.基于UCL的网页信息自动标引技术研究*[J]. 现代图书情报技术, 2008,24(8): 58-62 |
| 29.徐健,张智雄,吴振新.实体关系抽取的技术方法综述*[J]. 现代图书情报技术, 2008,24(8): 18-23 |
| 30.李培.基于词序的多关键词加权检索融合研究*[J]. 现代图书情报技术, 2008,24(10): 32-37 |
| 31.张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J]. 现代图书情报技术, 2008,24(11): 44-48 |
| 32.陆国丽,王小华,王荣波.最大词重降维算法与模拟退火算法相结合的文本聚类方法研究[J]. 现代图书情报技术, 2008,24(12): 43-47 |
| 33.吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究*[J]. 现代图书情报技术, 2008,24(12): 48-53 |
| 34.陈敬文,彭哲.基于CPN网络的Web正文抽取技术研究[J]. 现代图书情报技术, 2008,24(11): 65-71 |
| 35.高文利,高元先.学位论文参考文献的自动抽取及标注[J]. 现代图书情报技术, 2008,24(11): 72-75 |
| 36.高文利.基于本体的军备情报抽取系统的设计与实现*[J]. 现代图书情报技术, 2010,26(1): 83-87 |
| 37.王满,徐朝军.网络课程资源自动量化评价研究*[J]. 现代图书情报技术, 2010,26(1): 88-93 |
| 38.李健,王亚民 .一种基于Web信息系统的性能测试模型[J]. 现代图书情报技术, 2009,(10): 45-49 |
| 39.化柏林, 郭江.基于规则的高校实验室Web信息抽取的系统设计与实现*[J]. 现代图书情报技术, 2009,(10): 62-66 |
| 40.岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J]. 现代图书情报技术, 2008,24(12): 54-58 |
| 41.沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集*[J]. 现代图书情报技术, 2009,25(12): 52-56 |
| 42.李纲,寇广增,夏晨曦,全吉,张东赫.中文词义消歧上下文最优边界问题研究*[J]. 现代图书情报技术, 2009,25(7-8): 49-53 |
| 43.贾美英,杨炳儒,郑德权,曹鸿强,杨靖,张练.基于模式匹配的军事演习情报信息抽取*[J]. 现代图书情报技术, 2009,(9): 70-75 |
| 44.陈艳梅,张斌.HTML到XML转换技术的研究与实现[J]. 现代图书情报技术, 2003,19(5): 66-67 |
| 45.张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J]. 现代图书情报技术, 2004,20(6): 1-5 |
| 46.陈涛,宋妍,谢阳群.改进的信息增益特征选择方法在文本聚类中的应用*[J]. 现代图书情报技术, 2004,20(12): 7-9 |
| 47.张巍,于洋,游宏梁.面向词汇知识库自动构建的概念术语关系识别[J]. 现代图书情报技术, 2009,25(11): 10-16 |
| 48.施洁斌.基于支持向量机的文本自动分类试验研究[J]. 现代图书情报技术, 2004,20(7): 27-29 |
| 49.吴伟,刘友华.基于DOM的Web信息自动抽取[J]. 现代图书情报技术, 2004,20(2): 68-71 |
| 50.金毅,黄敏.基于旋律的音乐检索研究——旋律特征的输入识别*[J]. 现代图书情报技术, 2004,20(1): 41-45 |
| 51.吴佳鑫,周宁,张少龙.图像索引与检索的数据库方法[J]. 现代图书情报技术, 2005,21(7): 11-14 |
| 52.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13 |
| 53.王蕙,沈玉利.图书馆图片检索系统的几点关键技术研究[J]. 现代图书情报技术, 2005,21(6): 39-44 |
|
| Copyright 2008 by 现代图书情报技术 |