| 现代图书情报技术 2007, 2(7) 50-53 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||||||||||
|
知识抽取中的嵌套向量分词技术 | |||||||||||||||||||||||||||||||||||||||||||||||||
|
化柏林 赵亮 | |||||||||||||||||||||||||||||||||||||||||||||||||
|
(中国科学技术信息研究所 北京 100038) | |||||||||||||||||||||||||||||||||||||||||||||||||
| 摘要:
向量分词算法已经比较成熟,通过在知识抽取过程中实现向量分词算法,对向量切分中的关键技术进行归纳总结,同时发现一趟向量切分的不足,并针对这些不足,设计嵌套的向量分词技术。实验证明,在知识抽取过程中,采用嵌套的向量切分方法,不但切分准确率高、切分全面,而且能从根本上解决“词中有词”的问题,有利于后续的句法分析。 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 关键词: 知识抽取 最大向量法 词法分析 分词技术 嵌套向量分词 | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Nested Vector Segmentation Technique in Knowledge Extraction | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Hua Bolin Zhao Liang | |||||||||||||||||||||||||||||||||||||||||||||||||
|
(Institute of Scientific and Technical Information of China, Beijing 100038, China) | |||||||||||||||||||||||||||||||||||||||||||||||||
| Abstract:
Well-known algorithm of maximum matching method is implemented in the process of knowledge extraction, and drawn a conclusion about critical techniques of vector segmentation. Nested vector segmentation is designed and implemented on account of disadvantage of once scanning. According to experiment, nested vector segmentation is used in knowledge extraction, it not only improves precision and recall, which resolves the problem of word in word radically, but also provides convenience to following syntactic analysis. | |||||||||||||||||||||||||||||||||||||||||||||||||
| Keywords: Knowledge extraction Maximum matching method Lexical analysis Segmenting technique Nested vector segmentation | |||||||||||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2007-05-11 修回日期 2007-05-22 网络版发布日期 2007-07-25 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 分类号: TP391 G356 |
|||||||||||||||||||||||||||||||||||||||||||||||||
| 基金项目: | |||||||||||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 化柏林 通讯作者E_mail: huabolin@istic.ac.cn | |||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||||||||||
1] 梁南元.书面汉语的自动分词与一个自动分词系统—CDWS[J].北京航空学院学报,1984,(4):97-104. |
|||||||||||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 1.姜彩红,乔晓东,朱礼军.基于本体的专利摘要知识抽取*[J]. 现代图书情报技术, 2009,3(2): 23-28 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 2.汤艳莉,赖茂生.Ontology在自然语言检索中的应用研究[J]. 现代图书情报技术, 2005,21(2): 33-36 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 3.张晗,路振宇,崔雷 .利用关联规则对医学文本数据库进行知识抽取的尝试*——以四种抗肿瘤药为例[J]. 现代图书情报技术, 2006,1(9): 49-52 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 4.化柏林 .知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007,2(8): 48-51 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 5.化柏林 .基于NLP的知识抽取系统架构研究*[J]. 现代图书情报技术, 2007,2(10): 38-41 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 6.周宁,王淼.基于MUDs的面向特定领域的知识管理模型研究[J]. 现代图书情报技术, 2008,24(5): 33-38 | |||||||||||||||||||||||||||||||||||||||||||||||||
| 7.张智雄,吴振新,刘建华,徐健,洪娜,赵琦.当前知识抽取的主要技术方法解析*[J]. 现代图书情报技术, 2008,24(8): 2-11 | |||||||||||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||||||||||