现代图书情报技术 2006, 1(12) 81-84  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(0KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
文本自动聚类
信息检索
HAC
K-Means
本文作者相关文章
杨学明
PubMed
Article by

Web中文文本聚类研究及实现*

杨学明

(宁波大学网络中心 宁波 315211)

摘要

采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。

关键词 文本自动聚类   信息检索   HAC   K-Means  

Research and Inplementation of Chinese Web-text Clustering

Yang Xueming

(Network Center, Ningbo University, Ningbo 315211, China)

Abstract:

The text automatic clustering has been put forward and studied in application. This paper proposes a text clustering framework by coalescent the HAC and K-Means clustering algorithm, and evaluates this framework in an experiment.

Keywords: Text automatic cluster   Information retrieval   HAC   K-Means  
收稿日期 2006-09-14 修回日期  网络版发布日期 2006-12-25 
分类号:

TP18

基金项目:

* 本文系浙江省自然科学基金项目“基于本体的网络信息智能处理关键技术研究”(项目编号:Y105625)及宁波大学校科研基金项目“面向语义网的数字图书馆研究”(项目编号:XK0600083)的研究成果之一。

通讯作者: 杨学明 通讯作者E_mail: yangxueming@nbu.edu.cn
 

参考文献:

1吴斌等.一种基于群体智能的Web文当聚类算法.计算机研究与发展,2002,39(11):1429-1434
2Han J, Kamber M. Data Mining: Concepts and Techniques . Morgan Kaufmann Publishers,2001,14-22
3方开泰.实用多元统计分析.华东师范大学出版社,1986 ,43-55
4Yang Y, Pedersen J P. Feature selection in statistical learning of text categorization. In the 14th Int.Conf.on Machine Learning,1997.412-420
5代六玲 等.中文文本分类中特征抽取方法的比较研究.中文信息学报,2004,18(1):26-32
6陈宁等.基于模糊概念图的文档聚类及其在Web中的应用.软件学报,2002,13(8):1598-1605
7Schtze H, Silverstein C. Projections for Efficient Document Clustering, in ACM/SIGIR (1997), 74-81
8姜宁,史忠植.文档聚类中的贝叶斯后验模型选择方法.计算机研究与发展,2002,39(5):580-587
9Fazli C, Esen A. Ozkarahan. Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Database. ACM Transcations on Database Systems,1990,15(4):64-78
10Modha D, Spangler S. Feature weighting in kmeans clustering. Machine Learning, 2003,52(3):217-237

本刊中的类似文章
1.许春漫 .数字图书馆个性化信息检索模型研究*[J]. 现代图书情报技术, 2006,1(3): 15-19
2.张雪英.网络专业指引库的构建理论及实现技术探讨[J]. 现代图书情报技术, 2000,16(6): 65-66
3.赵丹群.因特网上的专利信息检索及相关问题分析[J]. 现代图书情报技术, 1999,15(2): 28-30
4.赵丹群.试论联机检索系统的用户接口技术[J]. 现代图书情报技术, 1999,15(4): 6-10
5.王菁,赵满华.加强机检教学力度 培养21世纪合格人才[J]. 现代图书情报技术, 1999,15(4): 64-66
6.王晓玲.Z39.50协议的发展与在中国应用的思考[J]. 现代图书情报技术, 1999,15(6): 10-12
7.韩丽风,郑晓惠.SCI网络版评介[J]. 现代图书情报技术, 1999,15(6): 47-48
8.陈豫,杨洪陶.网络化BDSIRS全文信息检索系统的开发研究[J]. 现代图书情报技术, 1998,14(1): 6-11
9.丁申桃.电子信息源及其检索[J]. 现代图书情报技术, 1998,14(2): 7-9
10.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21
11.张利平.基于Push技术的Internet网络信息检索系统[J]. 现代图书情报技术, 1998,14(6): 22-25
12.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42
13.吴丹.英汉交互式跨语言检索系统设计与实现*[J]. 现代图书情报技术, 2009,3(2): 89-95
14.孙国泉.网络机器人[J]. 现代图书情报技术, 1997,13(6): 35-38
15.任安良,潘一辅.基于XBASE语言的通用信息检索系统的实现[J]. 现代图书情报技术, 1996,12(2): 31-33
16.邓发云,唐莉苹.基于Web的校际共享教学与服务网站的设计*[J]. 现代图书情报技术, 2005,21(1): 79-81
17.花芳,林赛华,孙平.基于VFP的《文献信息检索与利用》题库管理系统与试题设计[J]. 现代图书情报技术, 2005,21(1): 64-66
18.李鹏,乔晓东,张用军,赵新力 .Ontology与CBR集成的Web智能信息检索研究*[J]. 现代图书情报技术, 2006,1(12): 34-36
19.施水才,孙丽华.基于数字纸张的信息检索和数据挖掘技术[J]. 现代图书情报技术, 2005,21(1): 9-11
20.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
21.张承庆.中国专利信息检索系统的实现[J]. 现代图书情报技术, 1995,11(5): 3-6
22.沈辅成.TOTALS系统的实现技术[J]. 现代图书情报技术, 1995,11(5): 38-41
23.谭晓冬.超文本检索技术的发展[J]. 现代图书情报技术, 1994,10(3): 29-35
24.马铭锦,杨伟兵 .基于JSP的信息检索课网上教学系统的设计与实现[J]. 现代图书情报技术, 2006,1(6): 77-79
25.陈振标,张文德,苏悦.基于CGSP的数字图书馆资源检索*[J]. 现代图书情报技术, 2007,2(10): 16-18
26.李湖生.基于Internet的Dialog系统检索平台[J]. 现代图书情报技术, 2001,17(1): 57-59
27.王蕙 .基于海洋生物认知的专项信息系统设计与实现*[J]. 现代图书情报技术, 2006,1(5): 86-88
28.吴丹 .本体驱动的跨语言信息检索研究[J]. 现代图书情报技术, 2006,1(5): 22-26
29.章成志,苏新宁 .面向信息检索的排除词识别研究[J]. 现代图书情报技术, 2007,2(2): 44-48
30.孙巍 .一种面向中文信息检索的汉语自动分词方法[J]. 现代图书情报技术, 2006,1(7): 33-36
31.武兴龙,刘新旺 .二元语义信息检索模型*[J]. 现代图书情报技术, 2006,1(6): 43-46
32.聂卉 .基于本体的查询扩展与规范[J]. 现代图书情报技术, 2007,2(3): 35-38
33.汪帆,黄春毅 .不同P2P网络拓扑结构下的检索机制研究[J]. 现代图书情报技术, 2007,2(2): 90-93
34.章成志,苏新宁 .面向信息检索的词汇知识发现[J]. 现代图书情报技术, 2007,2(1): 10-14
35.张志娟,刘新旺.基于多粒度二元语义的SGML文件信息检索模型*[J]. 现代图书情报技术, 2007,2(7): 27-31
36.章成志,苏新宁 .基于知识空间的智能信息检索模型研究[J]. 现代图书情报技术, 2006,1(12): 29-33
37.张伟,黄奇.基于本体的信息检索系统提高检索结果相关性的研究[J]. 现代图书情报技术, 2007,2(8): 22-25
38.田俊华,杨晓江.分布式并行信息检索系统的设计与实现-基础教育资源搜索引擎个案研究[J]. 现代图书情报技术, 2007,2(8): 76-79
39.郭文丽,张晓林.嵌入式数字图书馆工具条的设计与实现[J]. 现代图书情报技术, 2007,2(6): 1-4
40.孙海霞,成颖.潜在语义标引(LSI)研究综述*[J]. 现代图书情报技术, 2007,2(9): 49-53
41.陈燕红,黄名选.基于Apriori改进算法的局部反馈查询扩展[J]. 现代图书情报技术, 2007,2(9): 84-87
42.姜科,陆伟,姜捷璞,刘丹.XML检索系统及其比较研究*[J]. 现代图书情报技术, 2007,2(10): 66-70
43.黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展模型研究[J]. 现代图书情报技术, 2007,2(10): 47-51
44.窦永香,赵捧未,秦春秀.基于本体的对等网语义检索系统[J]. 现代图书情报技术, 2007,2(12): 25-29
45.陈红刚,庄超.基于多协同的即时信息检索框架[J]. 现代图书情报技术, 2008,24(2): 48-52
46.吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J]. 现代图书情报技术, 2008,24(2): 69-75
47.乐小虬,李宇,张晓林,张智雄,李春旺.嵌入式桌面信息服务及其系统实现[J]. 现代图书情报技术, 2008,24(3): 7-11
48.郝嘉树,王惠临.跨语言检索中统一提问式翻译与检索过程方法探讨*[J]. 现代图书情报技术, 2008,24(4): 18-22
49.杨陟卓,韩燮.一种基于特征抽取的文档信息过滤算法研究[J]. 现代图书情报技术, 2008,24(4): 29-34
50.樊红侠.基于粗糙―模糊集的Web信息检索改进模型[J]. 现代图书情报技术, 2008,24(8): 53-57
51.苏明明,宋文.基于本体的语义搜索引擎解决方案研究新进展[J]. 现代图书情报技术, 2008,24(11): 24-28
52.岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J]. 现代图书情报技术, 2008,24(12): 73-79
53.曾子明,张李义.一种基于语义相似度和多属性决策方法的商品信息智能检索模型*[J]. 现代图书情报技术, 2010,26(1): 22-27
54.张李义,张震云.一种新的跨语言商品信息检索方法在图书搜索中的应用*[J]. 现代图书情报技术, 2010,26(1): 9-14
55.付鸿鹄,张晓林 .段落检索及其相关算法研究[J]. 现代图书情报技术, 2007,2(2): 39-43
56.刘芳,杨海滨,华薇娜.数据格式转换软件的设计与实现[J]. 现代图书情报技术, 2008,24(4): 80-85
57.张晓林.面向网络的开放性图书情报自动化系统结构和运行机制[J]. 现代图书情报技术, 1995,11(3): 13-17
58.宋玲,马军.Internet信息检索分析与研究[J]. 现代图书情报技术, 2001,17(1): 37-40
59.韩毅.P2P网络信息检索的研究进展[J]. 现代图书情报技术, 2007,2(7): 36-40
60.王兰成,曾琼,陈雪强,王京 .本体论方法在文献型信息检索系统中的应用研究[J]. 现代图书情报技术, 2007,2(1): 15-19
61.李春旺.信息检索可视化技术[J]. 现代图书情报技术, 2003,19(6): 44-46
62.张长安.基于校园网的文献服务模式及信息网络建设技术探讨[J]. 现代图书情报技术, 2003,19(5): 93-94
63.常春.Ontology在信息管理领域的研究背景[J]. 现代图书情报技术, 2003,19(6): 4-7
64.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50
65.黄如花,季一欣.OCLC FirstSearch及其检索[J]. 现代图书情报技术, 2001,17(2): 35-39
66.黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究[J]. 现代图书情报技术, 2001,17(3): 26-29
67.祝忠明,沈英.Z39.50/Web网关系统的设计与实现原则[J]. 现代图书情报技术, 2001,17(4): 3-5
68.毛军.分类法在OPAC中的应用[J]. 现代图书情报技术, 2001,17(4): 14-16
69.饶洋辉,叶良,程洁.WordNet在文本聚类中的应用研究*[J]. 现代图书情报技术, 2009,(10): 67-70
70.张玉连,刘娟,齐峰,周兴林.基于摘要和日志中相关词共现策略的移动查询扩展*[J]. 现代图书情报技术, 2009,(10): 40-44
71.张露,成颖.信息检索中的语境研究综述*[J]. 现代图书情报技术, 2009,(10): 14-21
72.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54
73.袁媛,杜小勇,马文峰.数字图书馆信息服务平台的建设*[J]. 现代图书情报技术, 2003,19(5): 8-10
74.丛红日.网上信息专题数据库建设[J]. 现代图书情报技术, 2003,19(4): 76-77
75.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33
76.刘蜀仁,钱俊雯,谷雪蔷.多类型电子资源在查新检索中的综合使用[J]. 现代图书情报技术, 2001,17(4): 37-39
77.陶跃华,孙茂松.基于潜语义标引的自然语言检索[J]. 现代图书情报技术, 2001,17(5): 40-41
78.王昌权,李隆基,宋礼秀.用ASP实现Milins系统的信息检索[J]. 现代图书情报技术, 2001,17(5): 48-51
79.胡杰,陈志刚,孙辨华.WWW-Z39.50网关的设计与实现*[J]. 现代图书情报技术, 2000,16(1): 20-22
80.莫梅琦,马虹,杨力.Internet上的Free Medline[J]. 现代图书情报技术, 2000,16(1): 42-44
81.张教业.光盘网络信息检索系统开发与应用[J]. 现代图书情报技术, 2000,16(4): 61-63
82.谢志耘.光盘网络信息检索系统的发展趋势[J]. 现代图书情报技术, 2000,16(3): 31-33
83.傅守灿,刘燕飞.基于WWW的期刊信息检索系统设计与实现[J]. 现代图书情报技术, 2000,16(3): 37-39
84.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43
85.黄如花.SSCI网络版的检索[J]. 现代图书情报技术, 2000,16(5): 37-39
86.黄丽娟.基于内容的多媒体信息检索[J]. 现代图书情报技术, 2000,16(5): 40-43
87.贾西兰,丁申桃,曾姗.浅论影响CD—ROM数据光盘检索效果的技术因素[J]. 现代图书情报技术, 1997,13(2): 54-56
88.曾民族.文本信息检索技术进展和性能评价框架[J]. 现代图书情报技术, 1997,13(3): 14-18
89.严春兰,方红,刘启茂,汪德喜.基于SYBASE的图书馆网络资源服务及应用系统[J]. 现代图书情报技术, 1997,13(3): 36-40
90.沈红军,徐进鸿.声音与图象信息的存贮和检索研究[J]. 现代图书情报技术, 1997,13(4): 46-51
91.夏立新.网络信息检索的失误分析及扩检与缩检措施的选择[J]. 现代图书情报技术, 2003,19(3): 55-57
92.黄崑,赖茂生.Web 信息检索技术及研究进展[J]. 现代图书情报技术, 2004,20(5): 44-48
93.张延国,叶峰.词典类软件全文检索技术研究及实现[J]. 现代图书情报技术, 2004,20(4): 37-39
94.祝忠明,沈英.HTTP/Z39.50网关系统的实现[J]. 现代图书情报技术, 2002,18(2): 19-21
95.李广建,黄崑.用户模型及其学习方法[J]. 现代图书情报技术, 2002,18(6): 24-27
96.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30
97.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32
98.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40
99.张云秋,于双成.多媒体信息检索:技术与实例分析[J]. 现代图书情报技术, 2002,18(4): 61-63
100.宋云龙,王振云.网络环境下高校用户的信息检索教育[J]. 现代图书情报技术, 2002,18(4): 76-77
101.罗龙艳.基于可视化技术的信息检索初探[J]. 现代图书情报技术, 2002,18(4): 36-38
102.陈定权.信息检索系统中的用户相关反馈机制[J]. 现代图书情报技术, 2002,18(4): 33-35
103.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65
104.向桂林,张俭恭,陈定权.Metasearcher 检索异质数据源的原理及应用[J]. 现代图书情报技术, 2002,18(3): 40-42
105.郭少友.基于XML的分布式信息检索[J]. 现代图书情报技术, 2003,19(2): 51-53
106.侯震宇.信息检索系统中的相关性评价问题[J]. 现代图书情报技术, 2003,19(2): 45-47
107.王知津,周海英.语义学理论与信息检索[J]. 现代图书情报技术, 2003,19(2): 1-5
108.黄晴珊.基于Authorware网络信息检索多媒体CAI课件的开发*[J]. 现代图书情报技术, 2003,19(1): 79-81
109.邹小筑,缪红梅,陈万寅.FTP信息资源获取方法与技巧*[J]. 现代图书情报技术, 2003,19(1): 87-88
110.王知津,李明珍.十年来我国信息检索研究述评[J]. 现代图书情报技术, 2004,20(12): 25-31
111.吴瑛.信息检索网络教学系统的设计与开发[J]. 现代图书情报技术, 2004,20(11): 61-64
112.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26
113.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34
114.李培,武丽辉.基于移动代理的分布式信息检索[J]. 现代图书情报技术, 2004,20(10): 55-59
115.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50
116.王兰成,李超 .结合两种相似度计算的主题信息检索方法研究[J]. 现代图书情报技术, 2009,25(11): 53-58
117.宋玲丽,成颖.相关反馈技术中的检索词排序算法[J]. 现代图书情报技术, 2004,20(8): 44-47
118.冯凯,王筱明,龙金花.信息检索课程在校园网VOD教学中流媒体技术的实现[J]. 现代图书情报技术, 2004,20(8): 48-51
119.李爱国,汪社教.信息检索可视化[J]. 现代图书情报技术, 2004,20(2): 50-52
120.沈艺.OAI协议及其应用[J]. 现代图书情报技术, 2004,20(2): 1-3
121.沈正华(编译),李武,段明莲(编译).数字视频图书馆的交互式地图*[J]. 现代图书情报技术, 2004,20(2): 4-9
122.沈艺.OpenURL及其应用[J]. 现代图书情报技术, 2004,20(1): 30-32
123.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33
124.赵林静,庄夏.基于语义的馆藏信息检索模型研究[J]. 现代图书情报技术, 2005,21(7): 15-17
125.苏新宁,章成志,卫平.论信息资源整合[J]. 现代图书情报技术, 2005,21(9): 54-61
126.付鸿鹄.基于Web的开放领域问答系统研究[J]. 现代图书情报技术, 2005,21(9): 36-40
127.江淇.基于P2P的适应性信息检索系统的设计[J]. 现代图书情报技术, 2005,21(9): 41-44
128.王妙娅,赖茂生.跨语言信息检索中的询问翻译方法及其研究进展[J]. 现代图书情报技术, 2005,21(4): 37-41
129.马翠嫦,王东.近五年信息检索论文分析研究[J]. 现代图书情报技术, 2005,21(4): 42-44
130.文燕平.WWW信息检索可视化实现原理研究[J]. 现代图书情报技术, 2005,21(4): 10-13
131.侯玉芳,耿骞.一个基于本体的信息检索平台[J]. 现代图书情报技术, 2005,21(8): 27-31
132.江华,赵建新,王海岚.PAT数组全文检索技术的研究与改进[J]. 现代图书情报技术, 2005,21(8): 37-41
133.丁一.Web上基于特定主题的RG-HITS算法研究[J]. 现代图书情报技术, 2005,21(6): 26-29
134.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47
135.李明伍.基于DLL的Z39.50客户端的实现*[J]. 现代图书情报技术, 2005,21(5): 30-32

Copyright 2008 by 现代图书情报技术