现代图书情报技术 2007, 2(3) 43-45  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(419KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
文本分类
向量空间模型
简单贝叶斯
本文作者相关文章
刘华
PubMed
Article by

文本分类C#实现*

刘华

(暨南大学华文学院/海外华语研究中心 广州 510610)

摘要

设计并实现一个基于向量空间模型和简单贝叶斯的文本分类系统,系统采用层级多标签的分类策略。详细介绍词语切分统计、终分类器值计算、层级小类校正和兼类判断四个子系统模块。基于向量空间模型分类的第一级大类和层级小类的微平均分别为89.7%和77.8%,简单贝叶斯分别为67.6%和66.5%。

关键词 文本分类   向量空间模型   简单贝叶斯  

A Text Categorization System with C#

Liu Hua

(College of Chinese Language and Culture/ Center for Overseas Huayu Research,Jinan University, Guangzhou 510610, China)

Abstract:

Based on Vector Space Model(VSM) and Nave-Bayes(NB), completed a multilayer and multi-classification text categorization system. Introduce detailedly four modules: words’ segmentation and frequency statistics, calculating between classifications’ and document, emendating the veracity of parent-class by emendation of subclass, judging whether document has multi-classification and multi-label. Text representation based on Vector Space Model has 89.7% MicroF1 of parent- category, 77.8% of sub- category; text representation based on Nave-Bayes has 67.6% MicroF1 of parent- category, 66.5% of sub- category.

Keywords: Text categorization   Vector space model   Na&ive-Bayes  
收稿日期 2007-01-27 修回日期 2007-02-10 网络版发布日期 2007-03-25 
分类号:

TP93

基金项目:

* 本文系教育部“国家语言资源监测”项目(项目编号:L2004-01-01-04)的研究成果之一。

通讯作者: 刘华 通讯作者E_mail: liuhua0461@sina.com
 

参考文献:

1Fabrizio Sebastiani. Machine Learning in Automated Text Categorization.ACM Computing Surveys,2002,34(1):1-47
2骆昌日,张新华,何婷婷,骆世广.基于DCM的中文文本分类.计算机工程与应用, 2006,42(34):157-159
3陈克利.基于大规模真实文本的平衡语料分析与文本分类方法.Advances in Computation of Oriental Languages.北京:清华大学出版社,2003. 540-545
4施彤年,卢忠良.多类多标签汉语文本自动分类的研究.情报学报,2003,22(3):306-309
5罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型.清华大学学报(自然科学版),2005,45(9):1853-1856

本刊中的类似文章
1.刘华 .文本分类相似度模型和概率模型的实现与比较*[J]. 现代图书情报技术, 2006,1(4): 53-55
2.冯项云.LSI潜在语义标引方法在情报检索中的应用[J]. 现代图书情报技术, 1998,14(4): 19-21
3.白如江 .基于粗糙集和RBF神经网络的文本自动分类方法[J]. 现代图书情报技术, 2006,1(6): 47-51
4.李蕾,周国民 .一种个性化搜索引擎系统*[J]. 现代图书情报技术, 2007,2(1): 81-85
5.马海兵,刘永丹,王兰成,李荣陆 .三种文档语义倾向性识别方法的分析与比较*[J]. 现代图书情报技术, 2007,2(4): 43-47
6.张俊丽,张帆 .改进KNN算法在垃圾邮件过滤中的应用*[J]. 现代图书情报技术, 2007,2(4): 75-78
7.邱宇红,郭继军.向量空间模型在医学文献相关性研究中的应用[J]. 现代图书情报技术, 2007,2(7): 63-67
8.余希田,万莉莉,胡铁军,李丹亚 .基于向量空间模型的文献相关性数据库的研究与实现*[J]. 现代图书情报技术, 2008,24(6): 61-66
9.张俊丽,赵乃瑄,冯君.基于统计频率的文本分类特征选择算法研究*[J]. 现代图书情报技术, 2008,24(11): 44-48
10.赵红斌,陆伟.专家研究领域自动识别研究*[J]. 现代图书情报技术, 2010,26(2): 63-67
11.颜端武,罗胜阳,成晓 .协同推荐中基于用户-文档矩阵的用户聚类研究*[J]. 现代图书情报技术, 2007,2(3): 25-28
12.陈兵,邰晓英.基于本体和文档重构的语义检索方法*[J]. 现代图书情报技术, 2009,25(12): 42-46
13.孙素芬,罗长寿,魏清凤.Web农业实用技术自动问答系统设计实现*[J]. 现代图书情报技术, 2009,25(7-8): 70-74
14.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40
15.应伟,王正欧,安金龙.种基于改进的支持向量机的两类文本分类方法的研究*[J]. 现代图书情报技术, 2005,21(12): 44-47
16.陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J]. 现代图书情报技术, 2005,21(10): 23-27
17.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33
18.邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J]. 现代图书情报技术, 2005,21(7): 42-45

Copyright 2008 by 现代图书情报技术