现代图书情报技术
    
  
现代图书情报技术 2013, Vol. 29 Issue (7/8) :49-54    
知识组织与知识管理 最新目录 | 下期目录 | 过刊浏览 | 高级检索 << Previous Articles | Next Articles >>
基于社会标签的文本聚类研究
何文静, 何琳
南京农业大学信息科技学院 南京 210095
College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China

Download: PDF (577KB)   HTML (1KB)   Export: BibTeX or EndNote (RIS)      Supporting Info
摘要 以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。
Service
把本文推荐给朋友
加入我的书架
加入引用管理器
Email Alert
RSS
作者相关文章
何文静
何琳
关键词社会标签   特征选择   聚类方法   文本聚类     
Abstract: In this paper, the authors select social tags which are used to annotate resources as feature items. Text clustering is implemented by K-means, a kind of clustering algorithm, and successfully conducted on small data set. The implementation of primary technology, such as tag filtering, clustering algorithm, in text clustering based on social tagging is discussed in details. By the experiment, it is concluded that text clustering based on social tags performs better than keywords, which can improve the clustering results.
KeywordsSocial tag,   Feature selection,   Clustering algorithm,   Text clustering     
收稿日期: 2013-05-27;
基金资助:

本文系江苏省社会科学基金"社会化网络资源的组织模式和管理策略研究"(项目编号:12TQC014)和南京农业大学SRT计划"基于社会标签的Folksonomy的技术改造"(项目编号:1219A09)的研究成果之一。

通讯作者 何琳     Email: helin@njau.edu.cn
引用本文:   
何文静, 何琳 .基于社会标签的文本聚类研究[J]  现代图书情报技术, 2013,V29(7/8): 49-54
He Wenjing, He Lin .Research on Text Clustering Based on Social Tagging[J]  , 2013,V29(7/8): 49-54
链接本文:  
http://www.infotech.ac.cn/CN/     或     http://www.infotech.ac.cn/CN/Y2013/V29/I7/8/49
 
[1] Brooks C H, Montanez N.An Analysis of the Effectiveness of Tagging in Blogs[C]. In: Proceedings of 2005 AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs.California:AAAI, 2005:9-14.
[2] Al-Khalifa H S,Davis H C.Folksonomy Versus Automatic Keyword Extraction:An Empirical Study[EB/OL].[2012-08-15].http://eprints.ecs. soton.ac.uk/.
[3] Ramage D, Heymann P, Manning C D, et al. Clustering the Tagged Web[C]. In: Proceedings of the 2nd ACM International Conference on Web Search and Data Mining(WSDM'09). New York, NY, USA: ACM, 2009:54-63.
[4] 王波,唐常杰,段磊,等.RT-Rank:基于RSS标签排名相关性的文档聚类[J]. 计算机研究与发展,2007,44(S3):125-130.(Wang Bo,Tang Changjie,Duan Lei, et al. RT-Rank: Document Clustering Based on RSS Tag Rank Correlation[J].Journal of Computer Research and Development,2007,44(S3):125-130.)
[5] Kim H L, Yang S, Song S, et al. Tag Mediated Society with SCOT Ontology[C/OL]. In: Proceedings of Semantic Web Challenge. 2007.[2013-04-18].http://www.cs.vu.nl/~pmika/swc-2007/SCOT.pdf.
[6] 杨丹,曹俊.基于Web2.0的社会性标签推荐系统[J]. 重庆工学院学报:自然科学版,2008,22(7):51-55.(Yang Dan, Cao Jun. Web Page Recommender System Based on Social Tags in Web 2.0[J].Journal of Chongqing Institute of Technology:Natural Science,2008,22(7):51-55.)
[7] 张云,冯博琴.利用标签的层次化搜索结果聚类方法[J]. 西安交通大学学报,2009,43(4):18-21.(Zhang Yun, Feng Boqin. Clustering Method Based on Label Hierarchical Search Results[J].Journal of Xi'an Jiaotong University,2009,43(4):18-21.)
[8] Heymann P, Garcia-Molina H. Collaborative Creation of Communal Hierarchical Taxonomies in Social Tagging Systems[R]. California: Stanford University,2006.
[9] 窦永香,苏山佳,赵捧未.基于Porter算法的英文标签聚类方法研究[J]. 现代图书情报技术,2009(9):40-44.(Dou Yongxiang,Su Shanjia,Zhao Pengwei.An English Tag Clustering Method Based on the Porter Stemming Algorithm[J].New Technology of Library and Information Service,2009(9):40-44.) 浏览
[10] Zubiaga A, Krner C, Strohmaier M. Tags vs Shelves: From Social Tagging to Social Classification[C]. In: Proceedings of the 22nd ACM Conference on Hypertext and Hypermedia. New York, NY, USA: ACM,2011:93-102.
[11] 靳延安.一种基于动机倾向的标签推荐方法[J]. 计算机应用研究,2013,30(1):72-77.(Jin Yan'an. Approach for Tag Recommendation Based on Orientation of Motivation[J]. Application Research of Computers,2013,30(1):72-77.)
[12] Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[R]. Minnesota: University of Minnesota,2000.
[1] 胡昌平, 陈果.共词分析中的词语贡献度特征选择研究[J]. 现代图书情报技术, 2013,29(7/8): 89-93
[2] 路永和, 李焰锋.多因素影响的特征选择方法[J]. 现代图书情报技术, 2013,(5): 34-39
[3] 李霄, 丁晟春.垃圾商品评论信息的识别研究[J]. 现代图书情报技术, 2013,29(1): 63-68
[4] 赵辉, 刘怀亮, 范云杰.复杂网络理论在中文文本特征选择中的应用研究[J]. 现代图书情报技术, 2012,(9): 23-28
[5] 边鹏, 赵妍, 苏玉召.一种改进的K-means算法最佳聚类数确定方法[J]. 现代图书情报技术, 2011,27(9): 34-40
[6] 路永和, 曹利朝.基于粒子群优化的文本特征选择方法[J]. 现代图书情报技术, 2011,27(7/8): 76-81
[7] 逯万辉, 马建霞.基于条件随机场模型的复杂时间信息抽取研究[J]. 现代图书情报技术, 2011,27(10): 29-33
[8] 刘海峰 刘守生 张学仁 苏展.一种基于类别信息的文本自动分类模型[J]. 现代图书情报技术, 2010,26(4): 72-76
[9] 武帅.基于条件随机域模型的事实信息抽取方法应用[J]. 现代图书情报技术, 2010,26(10): 59-64
[10] 李纲,寇广增,夏晨曦,全吉,张东赫.中文词义消歧上下文最优边界问题研究*[J]. 现代图书情报技术, 2009,25(7-8): 49-53
[11] 章成志,王惠临.多语言文本聚类研究综述*[J]. 现代图书情报技术, 2009,25(6): 31-36
[12] 王伟,许鑫.基于聚类的网络舆情热点发现及分析*[J]. 现代图书情报技术, 2009,3(3): 74-79
[13] 宗萍,施水才,王涛,吕学强.基于条件随机场的英文地理行政实体识别*[J]. 现代图书情报技术, 2009,3(2): 51-55
[14] 章成志.文本聚类结果描述研究综述*[J]. 现代图书情报技术, 2009,3(2): 1-8
[15] 饶洋辉,叶良,程洁.WordNet在文本聚类中的应用研究*[J]. 现代图书情报技术, 2009,(10): 67-70
Copyright 2010 by 现代图书情报技术