| 现代图书情报技术 2006, 1(4) 53-55 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||
|
文本分类相似度模型和概率模型的实现与比较* | |||||||||||||||||||||||||||||||||||||||||
|
刘华 | |||||||||||||||||||||||||||||||||||||||||
|
(暨南大学华文学院 广州 510610) | |||||||||||||||||||||||||||||||||||||||||
| 摘要:
设计并建立一个基于向量空间模型和简单贝叶斯的文本分类系统,系统引入小类校正和兼类判断的算法,完成层级多标签的分类。进行基于向量空间模型和简单贝叶斯分类效果的对比,实验证明,在约3万篇测试集上(共15个大类,244个小类),基于向量空间模型的大类分类高25.2个百分点,层级小类分类高26.3个百分点。 | |||||||||||||||||||||||||||||||||||||||||
| 关键词: 文本分类 向量空间模型 简单贝叶斯 | |||||||||||||||||||||||||||||||||||||||||
|
Implementation and Comparison of Similarity and Probabilistic Mode in Text Categorization | |||||||||||||||||||||||||||||||||||||||||
|
Liu Hua | |||||||||||||||||||||||||||||||||||||||||
|
(College of Chinese Language and Culture of Jinan University, Guangzhou 510610, China) | |||||||||||||||||||||||||||||||||||||||||
| Abstract:
This paper has implemented a text categorization system based on Vector Space Model(VSM) and Naive-Bayes(NB). When estimating the category, the authors enhance the veracity of parent-category by emendation of subcategory, and judge whether document has multi-classification and multi-label by estimating the similar difference of classifier’s final values. The experiment proves that VSM is better than NB in text representation: MicroF1 increases of 25.2 percent of parent-category, and MicroF1 increases of 26.3 percent of sub-category. | |||||||||||||||||||||||||||||||||||||||||
| Keywords: Text categorization Vector space model Naive-Bayes | |||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2006-01-12 修回日期 网络版发布日期 2006-04-25 | |||||||||||||||||||||||||||||||||||||||||
| 分类号: TP391 |
|||||||||||||||||||||||||||||||||||||||||
| 基金项目:
*本文系教育部“国家语言资源监测”项目(项目编号:L2004-01-01-04)的研究成果之一。 | |||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 刘华 通讯作者E_mail: liuhua0461@sina.com | |||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||
1Fabrizio Sebastiani. Machine learning in automated text categorization.ACM Computing Surveys,2002,34(1):1-47 |
|||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||
| 1.冯项云.LSI潜在语义标引方法在情报检索中的应用[J]. 现代图书情报技术, 1998,14(4): 19-21 | |||||||||||||||||||||||||||||||||||||||||
| 2.白如江 .基于粗糙集和RBF神经网络的文本自动分类方法[J]. 现代图书情报技术, 2006,1(6): 47-51 | |||||||||||||||||||||||||||||||||||||||||
| 3.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85 | |||||||||||||||||||||||||||||||||||||||||
| 4.马海兵,刘永丹,王兰成,李荣陆 .三种文档语义倾向性识别方法的分析与比较*[J]. 现代图书情报技术, 2007,2(4): 43-47 | |||||||||||||||||||||||||||||||||||||||||
| 5.张俊丽,张帆 .改进KNN算法在垃圾邮件过滤中的应用*[J]. 现代图书情报技术, 2007,2(4): 75-78 | |||||||||||||||||||||||||||||||||||||||||
| 6.邱宇红,郭继军.向量空间模型在医学文献相关性研究中的应用[J]. 现代图书情报技术, 2007,2(7): 63-67 | |||||||||||||||||||||||||||||||||||||||||
| 7.刘华 .文本分类C#实现*[J]. 现代图书情报技术, 2007,2(3): 43-45 | |||||||||||||||||||||||||||||||||||||||||
| 8.余希田,万莉莉,胡铁军,李丹亚 .基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008,24(6): 61-66 | |||||||||||||||||||||||||||||||||||||||||
| 9.张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J]. 现代图书情报技术, 2008,24(11): 44-48 | |||||||||||||||||||||||||||||||||||||||||
| 10.赵红斌,陆伟.专家研究领域自动识别研究*[J]. 现代图书情报技术, 2010,26(2): 63-67 | |||||||||||||||||||||||||||||||||||||||||
| 11.颜端武,罗胜阳,成晓 .协同推荐中基于用户-文档矩阵的用户聚类研究*[J]. 现代图书情报技术, 2007,2(3): 25-28 | |||||||||||||||||||||||||||||||||||||||||
| 12.陈兵,邰晓英.基于本体和文档重构的语义检索方法*[J]. 现代图书情报技术, 2009,25(12): 42-46 | |||||||||||||||||||||||||||||||||||||||||
| 13.孙素芬,罗长寿,魏清凤.Web农业实用技术自动问答系统设计实现*[J]. 现代图书情报技术, 2009,25(7-8): 70-74 | |||||||||||||||||||||||||||||||||||||||||
| 14.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40 | |||||||||||||||||||||||||||||||||||||||||
| 15.应伟,王正欧,安金龙.种基于改进的支持向量机的两类文本分类方法的研究*[J]. 现代图书情报技术, 2005,21(12): 44-47 | |||||||||||||||||||||||||||||||||||||||||
| 16.陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005,21(10): 23-27 | |||||||||||||||||||||||||||||||||||||||||
| 17.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33 | |||||||||||||||||||||||||||||||||||||||||
| 18.邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J]. 现代图书情报技术, 2005,21(7): 42-45 | |||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||