| 现代图书情报技术 2007, 2(3) 43-45 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||
|
文本分类C#实现* | |||||||||||||||||||||||||||||||||||||||||
|
刘华 | |||||||||||||||||||||||||||||||||||||||||
|
(暨南大学华文学院/海外华语研究中心 广州 510610) | |||||||||||||||||||||||||||||||||||||||||
| 摘要:
设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。 | |||||||||||||||||||||||||||||||||||||||||
| 关键词: 文本分类 向量空间模型 简单贝叶斯 | |||||||||||||||||||||||||||||||||||||||||
|
A Text Categorization System with C# | |||||||||||||||||||||||||||||||||||||||||
|
Liu Hua | |||||||||||||||||||||||||||||||||||||||||
|
(College of Chinese Language and Culture/ Center for Overseas Huayu Research,Jinan University, Guangzhou 510610, China) | |||||||||||||||||||||||||||||||||||||||||
| Abstract:
Based on Vector Space Model(VSM) and Nave-Bayes(NB), completed a multilayer and multi-classification text categorization system. Introduce detailedly four modules: words’ segmentation and frequency statistics, calculating between classifications’ and document, emendating the veracity of parent-class by emendation of subclass, judging whether document has multi-classification and multi-label. Text representation based on Vector Space Model has 89.7% MicroF1 of parent- category, 77.8% of sub- category; text representation based on Nave-Bayes has 67.6% MicroF1 of parent- category, 66.5% of sub- category. | |||||||||||||||||||||||||||||||||||||||||
| Keywords: Text categorization Vector space model Na&ive-Bayes | |||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2007-01-27 修回日期 2007-02-10 网络版发布日期 2007-03-25 | |||||||||||||||||||||||||||||||||||||||||
| 分类号: TP93 |
|||||||||||||||||||||||||||||||||||||||||
| 基金项目:
* 本文系教育部“国家语言资源监测”项目(项目编号:L2004-01-01-04)的研究成果之一。 | |||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 刘华 通讯作者E_mail: liuhua0461@sina.com | |||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||
1Fabrizio Sebastiani. Machine Learning in Automated Text Categorization.ACM Computing Surveys,2002,34(1):1-47 |
|||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||
| 1.刘华 .文本分类相似度模型和概率模型的实现与比较*[J]. 现代图书情报技术, 2006,1(4): 53-55 | |||||||||||||||||||||||||||||||||||||||||
| 2.冯项云.LSI潜在语义标引方法在情报检索中的应用[J]. 现代图书情报技术, 1998,14(4): 19-21 | |||||||||||||||||||||||||||||||||||||||||
| 3.白如江 .基于粗糙集和RBF神经网络的文本自动分类方法[J]. 现代图书情报技术, 2006,1(6): 47-51 | |||||||||||||||||||||||||||||||||||||||||
| 4.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85 | |||||||||||||||||||||||||||||||||||||||||
| 5.马海兵,刘永丹,王兰成,李荣陆 .三种文档语义倾向性识别方法的分析与比较*[J]. 现代图书情报技术, 2007,2(4): 43-47 | |||||||||||||||||||||||||||||||||||||||||
| 6.张俊丽,张帆 .改进KNN算法在垃圾邮件过滤中的应用*[J]. 现代图书情报技术, 2007,2(4): 75-78 | |||||||||||||||||||||||||||||||||||||||||
| 7.邱宇红,郭继军.向量空间模型在医学文献相关性研究中的应用[J]. 现代图书情报技术, 2007,2(7): 63-67 | |||||||||||||||||||||||||||||||||||||||||
| 8.余希田,万莉莉,胡铁军,李丹亚 .基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008,24(6): 61-66 | |||||||||||||||||||||||||||||||||||||||||
| 9.张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J]. 现代图书情报技术, 2008,24(11): 44-48 | |||||||||||||||||||||||||||||||||||||||||
| 10.赵红斌,陆伟.专家研究领域自动识别研究*[J]. 现代图书情报技术, 2010,26(2): 63-67 | |||||||||||||||||||||||||||||||||||||||||
| 11.颜端武,罗胜阳,成晓 .协同推荐中基于用户-文档矩阵的用户聚类研究*[J]. 现代图书情报技术, 2007,2(3): 25-28 | |||||||||||||||||||||||||||||||||||||||||
| 12.陈兵,邰晓英.基于本体和文档重构的语义检索方法*[J]. 现代图书情报技术, 2009,25(12): 42-46 | |||||||||||||||||||||||||||||||||||||||||
| 13.孙素芬,罗长寿,魏清凤.Web农业实用技术自动问答系统设计实现*[J]. 现代图书情报技术, 2009,25(7-8): 70-74 | |||||||||||||||||||||||||||||||||||||||||
| 14.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40 | |||||||||||||||||||||||||||||||||||||||||
| 15.应伟,王正欧,安金龙.种基于改进的支持向量机的两类文本分类方法的研究*[J]. 现代图书情报技术, 2005,21(12): 44-47 | |||||||||||||||||||||||||||||||||||||||||
| 16.陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005,21(10): 23-27 | |||||||||||||||||||||||||||||||||||||||||
| 17.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33 | |||||||||||||||||||||||||||||||||||||||||
| 18.邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J]. 现代图书情报技术, 2005,21(7): 42-45 | |||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||