现代图书情报技术 2007, 2(7) 50-53  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(406KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
知识抽取
最大向量法
词法分析
分词技术
嵌套向量分词
本文作者相关文章
化柏林
赵亮
PubMed
Article by
Article by

知识抽取中的嵌套向量分词技术

化柏林 赵亮

(中国科学技术信息研究所 北京 100038)

摘要

向量分词算法已经比较成熟,通过在知识抽取过程中实现向量分词算法,对向量切分中的关键技术进行归纳总结,同时发现一趟向量切分的不足,并针对这些不足,设计嵌套的向量分词技术。实验证明,在知识抽取过程中,采用嵌套的向量切分方法,不但切分准确率高、切分全面,而且能从根本上解决“词中有词”的问题,有利于后续的句法分析。

关键词 知识抽取   最大向量法   词法分析   分词技术   嵌套向量分词  

Nested Vector Segmentation Technique in Knowledge Extraction

Hua Bolin   Zhao Liang

(Institute of Scientific and Technical Information of China, Beijing 100038, China)

Abstract:

Well-known algorithm of maximum matching method is implemented in the process of knowledge extraction, and drawn a conclusion about critical techniques of vector segmentation. Nested vector segmentation is designed and implemented on account of disadvantage of once scanning. According to experiment, nested vector segmentation is used in knowledge extraction, it not only improves precision and recall, which resolves the problem of word in word radically, but also provides convenience to following syntactic analysis.

Keywords: Knowledge extraction   Maximum matching method   Lexical analysis   Segmenting technique   Nested vector segmentation  
收稿日期 2007-05-11 修回日期 2007-05-22 网络版发布日期 2007-07-25 
分类号:

TP391   G356

基金项目:

通讯作者: 化柏林 通讯作者E_mail: huabolin@istic.ac.cn
 

参考文献:

1] 梁南元.书面汉语的自动分词与一个自动分词系统—CDWS[J].北京航空学院学报,1984,(4):97-104.
[2] 揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9.
[3] 关英春,秦蓓.汉语文字自动统计系统[J].中文信息学报,1986,(1):26-32.
[4] 揭春雨,刘源,梁南元.汉语自动分词实用系统CASS的设计和实现[J].中文信息学报,1991,5(4):27-34.
[5] 骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-37.
[6] 王兰成.基于EMM中文抽词算法的XMARC主题信息挖掘[J].情报学报,2005,24(1):82-86.
[7] 赵元正,戴尔晗.基于递归式最大匹配法的数据库查询接口的实现[J].计算机时代,2006(12):38-40.
[8] 苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报(自然科学版),2004,32(增刊):67-71.
[9] 路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报(自然科学版),2006,27(4):320-323.
[10] 郑逢斌,付征叶,乔保军,等.HENU汉语自动分词系统中歧义字段消除算法[J].河南大学学报(自然科学版),2004,34(4):49-52.
[11] 马玉春,宋瀚涛.Web 中文文本分词技术研究[J].计算机应用,2004,24(4):134-136.

本刊中的类似文章
1.姜彩红,乔晓东,朱礼军.基于本体的专利摘要知识抽取*[J]. 现代图书情报技术, 2009,3(2): 23-28
2.汤艳莉,赖茂生.Ontology在自然语言检索中的应用研究[J]. 现代图书情报技术, 2005,21(2): 33-36
3.张晗,路振宇,崔雷 .利用关联规则对医学文本数据库进行知识抽取的尝试*——以四种抗肿瘤药为例[J]. 现代图书情报技术, 2006,1(9): 49-52
4.化柏林 .知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007,2(8): 48-51
5.化柏林 .基于NLP的知识抽取系统架构研究*[J]. 现代图书情报技术, 2007,2(10): 38-41
6.周宁,王淼.基于MUDs的面向特定领域的知识管理模型研究[J]. 现代图书情报技术, 2008,24(5): 33-38
7.张智雄,吴振新,刘建华,徐健,洪娜,赵琦.当前知识抽取的主要技术方法解析*[J]. 现代图书情报技术, 2008,24(8): 2-11

Copyright 2008 by 现代图书情报技术