现代图书情报技术 2006, 1(4) 53-55  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(0KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
文本分类
向量空间模型
简单贝叶斯
本文作者相关文章
刘华
PubMed
Article by

文本分类相似度模型和概率模型的实现与比较*

刘华

(暨南大学华文学院 广州 510610)

摘要

设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。

关键词 文本分类   向量空间模型   简单贝叶斯  

Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization

Liu Hua

(College of Chinese Language and Culture of Jinan University, Guangzhou 510610, China)

Abstract:

This paper has implemented a text categorization system based on Vector Space Model(VSM) and Naive-Bayes(NB). When estimating the category, the authors enhance the veracity of parent-category by emendation of subcategory, and judge whether document has multi-classification and multi-label by estimating the similar difference of classifier’s final values. The experiment proves that VSM is better than NB in text representation: MicroF1 increases of 25.2 percent of parent-category, and MicroF1 increases of 26.3 percent of sub-category.

Keywords: Text categorization   Vector space model   Naive-Bayes  
收稿日期 2006-01-12 修回日期  网络版发布日期 2006-04-25 
分类号:

TP391

基金项目:

*本文系教育部“国家语言资源监测”项目(项目编号:L2004-01-01-04)的研究成果之一。

通讯作者: 刘华 通讯作者E_mail: liuhua0461@sina.com
 

参考文献:

1Fabrizio Sebastiani. Machine learning in automated text categorization.ACM Computing Surveys,2002,34(1):1-47
2Y. Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval,1999,1(1/2): 67-88
3庞剑锋等.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究, 2001,18(9):23-26
4陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003. 540-545
5施彤年,卢忠良.多类多标签汉语文本自动分类的研究.情报学报,2003,22(3):306-309
6张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类.中文信息学报,2005,19(2):100-105

本刊中的类似文章
1.冯项云.LSI潜在语义标引方法在情报检索中的应用[J]. 现代图书情报技术, 1998,14(4): 19-21
2.白如江 .基于粗糙集和RBF神经网络的文本自动分类方法[J]. 现代图书情报技术, 2006,1(6): 47-51
3.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
4.马海兵,刘永丹,王兰成,李荣陆 .三种文档语义倾向性识别方法的分析与比较*[J]. 现代图书情报技术, 2007,2(4): 43-47
5.张俊丽,张帆 .改进KNN算法在垃圾邮件过滤中的应用*[J]. 现代图书情报技术, 2007,2(4): 75-78
6.邱宇红,郭继军.向量空间模型在医学文献相关性研究中的应用[J]. 现代图书情报技术, 2007,2(7): 63-67
7.刘华 .文本分类C#实现*[J]. 现代图书情报技术, 2007,2(3): 43-45
8.余希田,万莉莉,胡铁军,李丹亚 .基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008,24(6): 61-66
9.张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J]. 现代图书情报技术, 2008,24(11): 44-48
10.赵红斌,陆伟.专家研究领域自动识别研究*[J]. 现代图书情报技术, 2010,26(2): 63-67
11.颜端武,罗胜阳,成晓 .协同推荐中基于用户-文档矩阵的用户聚类研究*[J]. 现代图书情报技术, 2007,2(3): 25-28
12.陈兵,邰晓英.基于本体和文档重构的语义检索方法*[J]. 现代图书情报技术, 2009,25(12): 42-46
13.孙素芬,罗长寿,魏清凤.Web农业实用技术自动问答系统设计实现*[J]. 现代图书情报技术, 2009,25(7-8): 70-74
14.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40
15.应伟,王正欧,安金龙.种基于改进的支持向量机的两类文本分类方法的研究*[J]. 现代图书情报技术, 2005,21(12): 44-47
16.陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005,21(10): 23-27
17.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33
18.邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J]. 现代图书情报技术, 2005,21(7): 42-45

Copyright 2008 by 现代图书情报技术