|
|
现代图书情报技术 2006, 1(12) 81-84 DOI:
ISSN: 1003-3513 CN: 11-2856/G2 |
|
|
|
|
本期目录 |
下期目录 |
过刊浏览 |
高级检索
[打印本页]
[关闭]
|
|
| 论文 |
|
|
Web中文文本聚类研究及实现* |
|
|
杨学明 |
|
|
(宁波大学网络中心 宁波 315211) |
|
|
摘要:
采用Web文本自动聚类技术,提出一种将HAC(Hierarchical Agglomerative Clustering)聚类算法与K-Means聚类算法相结合的两阶段文本聚类框架,并通过实验对该框架进行评估。 |
|
|
关键词:
文本自动聚类
信息检索
HAC
K-Means
|
|
|
Research and Inplementation of Chinese Web-text Clustering |
|
|
Yang Xueming
|
|
|
(Network Center, Ningbo University, Ningbo 315211, China)
|
|
|
Abstract:
The text automatic clustering has been put forward and studied in application. This paper proposes a text clustering framework by coalescent the HAC and K-Means clustering algorithm, and evaluates this framework in an experiment. |
|
|
Keywords:
Text automatic cluster
Information retrieval
HAC
K-Means
|
|
|
收稿日期 2006-09-14 修回日期 网络版发布日期 2006-12-25 |
|
|
分类号: TP18 |
|
|
基金项目:
* 本文系浙江省自然科学基金项目“基于本体的网络信息智能处理关键技术研究”(项目编号:Y105625)及宁波大学校科研基金项目“面向语义网的数字图书馆研究”(项目编号:XK0600083)的研究成果之一。 |
|
|
通讯作者: 杨学明 通讯作者E_mail: yangxueming@nbu.edu.cn |
|
|
|
|
|
| 参考文献: |
1吴斌等.一种基于群体智能的Web文当聚类算法.计算机研究与发展,2002,39(11):1429-1434
2Han J, Kamber M. Data Mining: Concepts and Techniques . Morgan Kaufmann Publishers,2001,14-22
3方开泰.实用多元统计分析.华东师范大学出版社,1986 ,43-55
4Yang Y, Pedersen J P. Feature selection in statistical learning of text categorization. In the 14th Int.Conf.on Machine Learning,1997.412-420
5代六玲 等.中文文本分类中特征抽取方法的比较研究.中文信息学报,2004,18(1):26-32
6陈宁等.基于模糊概念图的文档聚类及其在Web中的应用.软件学报,2002,13(8):1598-1605
7Schtze H, Silverstein C. Projections for Efficient Document Clustering, in ACM/SIGIR (1997), 74-81
8姜宁,史忠植.文档聚类中的贝叶斯后验模型选择方法.计算机研究与发展,2002,39(5):580-587
9Fazli C, Esen A. Ozkarahan. Concepts and Effectiveness of the Cover-Coefficient-Based Clustering Methodology for Text Database. ACM Transcations on Database Systems,1990,15(4):64-78
10Modha D, Spangler S. Feature weighting in kmeans clustering. Machine Learning, 2003,52(3):217-237 |
| 本刊中的类似文章 |
| 1.许春漫 .数字图书馆个性化信息检索模型研究*[J]. 现代图书情报技术, 2006,1(3): 15-19 |
| 2.张雪英.网络专业指引库的构建理论及实现技术探讨[J]. 现代图书情报技术, 2000,16(6): 65-66 |
| 3.赵丹群.因特网上的专利信息检索及相关问题分析[J]. 现代图书情报技术, 1999,15(2): 28-30 |
| 4.赵丹群.试论联机检索系统的用户接口技术[J]. 现代图书情报技术, 1999,15(4): 6-10 |
| 5.王菁,赵满华.加强机检教学力度 培养21世纪合格人才[J]. 现代图书情报技术, 1999,15(4): 64-66 |
| 6.王晓玲.Z39.50协议的发展与在中国应用的思考[J]. 现代图书情报技术, 1999,15(6): 10-12 |
| 7.韩丽风,郑晓惠.SCI网络版评介[J]. 现代图书情报技术, 1999,15(6): 47-48 |
| 8.陈豫,杨洪陶.网络化BDSIRS全文信息检索系统的开发研究[J]. 现代图书情报技术, 1998,14(1): 6-11 |
| 9.丁申桃.电子信息源及其检索[J]. 现代图书情报技术, 1998,14(2): 7-9 |
| 10.王芳,张晓林.元搜索引擎:原理与利用[J]. 现代图书情报技术, 1998,14(6): 18-21 |
| 11.张利平.基于Push技术的Internet网络信息检索系统[J]. 现代图书情报技术, 1998,14(6): 22-25 |
| 12.雷燕.WWW信息检索技巧[J]. 现代图书情报技术, 1998,14(6): 39-42 |
| 13.吴丹.英汉交互式跨语言检索系统设计与实现*[J]. 现代图书情报技术, 2009,3(2): 89-95 |
| 14.孙国泉.网络机器人[J]. 现代图书情报技术, 1997,13(6): 35-38 |
| 15.任安良,潘一辅.基于XBASE语言的通用信息检索系统的实现[J]. 现代图书情报技术, 1996,12(2): 31-33 |
| 16.邓发云,唐莉苹.基于Web的校际共享教学与服务网站的设计*[J]. 现代图书情报技术, 2005,21(1): 79-81 |
| 17.花芳,林赛华,孙平.基于VFP的《文献信息检索与利用》题库管理系统与试题设计[J]. 现代图书情报技术, 2005,21(1): 64-66 |
| 18.李鹏,乔晓东,张用军,赵新力 .Ontology与CBR集成的Web智能信息检索研究*[J]. 现代图书情报技术, 2006,1(12): 34-36 |
| 19.施水才,孙丽华.基于数字纸张的信息检索和数据挖掘技术[J]. 现代图书情报技术, 2005,21(1): 9-11 |
| 20.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32 |
| 21.张承庆.中国专利信息检索系统的实现[J]. 现代图书情报技术, 1995,11(5): 3-6 |
| 22.沈辅成.TOTALS系统的实现技术[J]. 现代图书情报技术, 1995,11(5): 38-41 |
| 23.谭晓冬.超文本检索技术的发展[J]. 现代图书情报技术, 1994,10(3): 29-35 |
| 24.马铭锦,杨伟兵 .基于JSP的信息检索课网上教学系统的设计与实现[J]. 现代图书情报技术, 2006,1(6): 77-79 |
| 25.陈振标,张文德,苏悦.基于CGSP的数字图书馆资源检索*[J]. 现代图书情报技术, 2007,2(10): 16-18 |
| 26.李湖生.基于Internet的Dialog系统检索平台[J]. 现代图书情报技术, 2001,17(1): 57-59 |
| 27.王蕙 .基于海洋生物认知的专项信息系统设计与实现*[J]. 现代图书情报技术, 2006,1(5): 86-88 |
| 28.吴丹 .本体驱动的跨语言信息检索研究[J]. 现代图书情报技术, 2006,1(5): 22-26 |
| 29.章成志,苏新宁 .面向信息检索的排除词识别研究[J]. 现代图书情报技术, 2007,2(2): 44-48 |
| 30.孙巍 .一种面向中文信息检索的汉语自动分词方法[J]. 现代图书情报技术, 2006,1(7): 33-36 |
| 31.武兴龙,刘新旺 .二元语义信息检索模型*[J]. 现代图书情报技术, 2006,1(6): 43-46 |
| 32.聂卉 .基于本体的查询扩展与规范[J]. 现代图书情报技术, 2007,2(3): 35-38 |
| 33.汪帆,黄春毅 .不同P2P网络拓扑结构下的检索机制研究[J]. 现代图书情报技术, 2007,2(2): 90-93 |
| 34.章成志,苏新宁 .面向信息检索的词汇知识发现[J]. 现代图书情报技术, 2007,2(1): 10-14 |
| 35.张志娟,刘新旺.基于多粒度二元语义的SGML文件信息检索模型*[J]. 现代图书情报技术, 2007,2(7): 27-31 |
| 36.章成志,苏新宁 .基于知识空间的智能信息检索模型研究[J]. 现代图书情报技术, 2006,1(12): 29-33 |
| 37.张伟,黄奇.基于本体的信息检索系统提高检索结果相关性的研究[J]. 现代图书情报技术, 2007,2(8): 22-25 |
| 38.田俊华,杨晓江.分布式并行信息检索系统的设计与实现-基础教育资源搜索引擎个案研究[J]. 现代图书情报技术, 2007,2(8): 76-79 |
| 39.郭文丽,张晓林.嵌入式数字图书馆工具条的设计与实现[J]. 现代图书情报技术, 2007,2(6): 1-4 |
| 40.孙海霞,成颖.潜在语义标引(LSI)研究综述*[J]. 现代图书情报技术, 2007,2(9): 49-53 |
| 41.陈燕红,黄名选.基于Apriori改进算法的局部反馈查询扩展[J]. 现代图书情报技术, 2007,2(9): 84-87 |
| 42.姜科,陆伟,姜捷璞,刘丹.XML检索系统及其比较研究*[J]. 现代图书情报技术, 2007,2(10): 66-70 |
| 43.黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展模型研究[J]. 现代图书情报技术, 2007,2(10): 47-51 |
| 44.窦永香,赵捧未,秦春秀.基于本体的对等网语义检索系统[J]. 现代图书情报技术, 2007,2(12): 25-29 |
| 45.陈红刚,庄超.基于多协同的即时信息检索框架[J]. 现代图书情报技术, 2008,24(2): 48-52 |
| 46.吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J]. 现代图书情报技术, 2008,24(2): 69-75 |
| 47.乐小虬,李宇,张晓林,张智雄,李春旺.嵌入式桌面信息服务及其系统实现[J]. 现代图书情报技术, 2008,24(3): 7-11 |
| 48.郝嘉树,王惠临.跨语言检索中统一提问式翻译与检索过程方法探讨*[J]. 现代图书情报技术, 2008,24(4): 18-22 |
| 49.杨陟卓,韩燮.一种基于特征抽取的文档信息过滤算法研究[J]. 现代图书情报技术, 2008,24(4): 29-34 |
| 50.樊红侠.基于粗糙―模糊集的Web信息检索改进模型[J]. 现代图书情报技术, 2008,24(8): 53-57 |
| 51.苏明明,宋文.基于本体的语义搜索引擎解决方案研究新进展[J]. 现代图书情报技术, 2008,24(11): 24-28 |
| 52.岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J]. 现代图书情报技术, 2008,24(12): 73-79 |
| 53.曾子明,张李义.一种基于语义相似度和多属性决策方法的商品信息智能检索模型*[J]. 现代图书情报技术, 2010,26(1): 22-27 |
| 54.张李义,张震云.一种新的跨语言商品信息检索方法在图书搜索中的应用*[J]. 现代图书情报技术, 2010,26(1): 9-14 |
| 55.付鸿鹄,张晓林 .段落检索及其相关算法研究[J]. 现代图书情报技术, 2007,2(2): 39-43 |
| 56.刘芳,杨海滨,华薇娜.数据格式转换软件的设计与实现[J]. 现代图书情报技术, 2008,24(4): 80-85 |
| 57.张晓林.面向网络的开放性图书情报自动化系统结构和运行机制[J]. 现代图书情报技术, 1995,11(3): 13-17 |
| 58.宋玲,马军.Internet信息检索分析与研究[J]. 现代图书情报技术, 2001,17(1): 37-40 |
| 59.韩毅.P2P网络信息检索的研究进展[J]. 现代图书情报技术, 2007,2(7): 36-40 |
| 60.王兰成,曾琼,陈雪强,王京 .本体论方法在文献型信息检索系统中的应用研究[J]. 现代图书情报技术, 2007,2(1): 15-19 |
| 61.李春旺.信息检索可视化技术[J]. 现代图书情报技术, 2003,19(6): 44-46 |
| 62.张长安.基于校园网的文献服务模式及信息网络建设技术探讨[J]. 现代图书情报技术, 2003,19(5): 93-94 |
| 63.常春.Ontology在信息管理领域的研究背景[J]. 现代图书情报技术, 2003,19(6): 4-7 |
| 64.李明.中文元搜索引擎万纬搜索研究[J]. 现代图书情报技术, 2003,19(5): 48-50 |
| 65.黄如花,季一欣.OCLC FirstSearch及其检索[J]. 现代图书情报技术, 2001,17(2): 35-39 |
| 66.黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究[J]. 现代图书情报技术, 2001,17(3): 26-29 |
| 67.祝忠明,沈英.Z39.50/Web网关系统的设计与实现原则[J]. 现代图书情报技术, 2001,17(4): 3-5 |
| 68.毛军.分类法在OPAC中的应用[J]. 现代图书情报技术, 2001,17(4): 14-16 |
| 69.饶洋辉,叶良,程洁.WordNet在文本聚类中的应用研究*[J]. 现代图书情报技术, 2009,(10): 67-70 |
| 70.张玉连,刘娟,齐峰,周兴林.基于摘要和日志中相关词共现策略的移动查询扩展*[J]. 现代图书情报技术, 2009,(10): 40-44 |
| 71.张露,成颖.信息检索中的语境研究综述*[J]. 现代图书情报技术, 2009,(10): 14-21 |
| 72.赵红.搜索引擎的智能化与网络信息资源的检索研究[J]. 现代图书情报技术, 2003,19(5): 51-54 |
| 73.袁媛,杜小勇,马文峰.数字图书馆信息服务平台的建设*[J]. 现代图书情报技术, 2003,19(5): 8-10 |
| 74.丛红日.网上信息专题数据库建设[J]. 现代图书情报技术, 2003,19(4): 76-77 |
| 75.黄国才.跨语言综合搜索引擎设计[J]. 现代图书情报技术, 2001,17(4): 31-33 |
| 76.刘蜀仁,钱俊雯,谷雪蔷.多类型电子资源在查新检索中的综合使用[J]. 现代图书情报技术, 2001,17(4): 37-39 |
| 77.陶跃华,孙茂松.基于潜语义标引的自然语言检索[J]. 现代图书情报技术, 2001,17(5): 40-41 |
| 78.王昌权,李隆基,宋礼秀.用ASP实现Milins系统的信息检索[J]. 现代图书情报技术, 2001,17(5): 48-51 |
| 79.胡杰,陈志刚,孙辨华.WWW-Z39.50网关的设计与实现*[J]. 现代图书情报技术, 2000,16(1): 20-22 |
| 80.莫梅琦,马虹,杨力.Internet上的Free Medline[J]. 现代图书情报技术, 2000,16(1): 42-44 |
| 81.张教业.光盘网络信息检索系统开发与应用[J]. 现代图书情报技术, 2000,16(4): 61-63 |
| 82.谢志耘.光盘网络信息检索系统的发展趋势[J]. 现代图书情报技术, 2000,16(3): 31-33 |
| 83.傅守灿,刘燕飞.基于WWW的期刊信息检索系统设计与实现[J]. 现代图书情报技术, 2000,16(3): 37-39 |
| 84.张颖,贺亚锋.网络信息检索展望[J]. 现代图书情报技术, 2000,16(3): 40-43 |
| 85.黄如花.SSCI网络版的检索[J]. 现代图书情报技术, 2000,16(5): 37-39 |
| 86.黄丽娟.基于内容的多媒体信息检索[J]. 现代图书情报技术, 2000,16(5): 40-43 |
| 87.贾西兰,丁申桃,曾姗.浅论影响CD—ROM数据光盘检索效果的技术因素[J]. 现代图书情报技术, 1997,13(2): 54-56 |
| 88.曾民族.文本信息检索技术进展和性能评价框架[J]. 现代图书情报技术, 1997,13(3): 14-18 |
| 89.严春兰,方红,刘启茂,汪德喜.基于SYBASE的图书馆网络资源服务及应用系统[J]. 现代图书情报技术, 1997,13(3): 36-40 |
| 90.沈红军,徐进鸿.声音与图象信息的存贮和检索研究[J]. 现代图书情报技术, 1997,13(4): 46-51 |
| 91.夏立新.网络信息检索的失误分析及扩检与缩检措施的选择[J]. 现代图书情报技术, 2003,19(3): 55-57 |
| 92.黄崑,赖茂生.Web 信息检索技术及研究进展[J]. 现代图书情报技术, 2004,20(5): 44-48 |
| 93.张延国,叶峰.词典类软件全文检索技术研究及实现[J]. 现代图书情报技术, 2004,20(4): 37-39 |
| 94.祝忠明,沈英.HTTP/Z39.50网关系统的实现[J]. 现代图书情报技术, 2002,18(2): 19-21 |
| 95.李广建,黄崑.用户模型及其学习方法[J]. 现代图书情报技术, 2002,18(6): 24-27 |
| 96.傅欣.第三代搜索引擎的智能化趋势研究[J]. 现代图书情报技术, 2002,18(6): 28-30 |
| 97.霍艳蓉.Web信息检索的关键技术[J]. 现代图书情报技术, 2002,18(6): 31-32 |
| 98.王连军 .Web文本挖掘浅析[J]. 现代图书情报技术, 2002,18(6): 38-40 |
| 99.张云秋,于双成.多媒体信息检索:技术与实例分析[J]. 现代图书情报技术, 2002,18(4): 61-63 |
| 100.宋云龙,王振云.网络环境下高校用户的信息检索教育[J]. 现代图书情报技术, 2002,18(4): 76-77 |
| 101.罗龙艳.基于可视化技术的信息检索初探[J]. 现代图书情报技术, 2002,18(4): 36-38 |
| 102.陈定权.信息检索系统中的用户相关反馈机制[J]. 现代图书情报技术, 2002,18(4): 33-35 |
| 103.孔桃,赖茂生.基于语义联想的中文图像搜索引擎——构想与实验*[J]. 现代图书情报技术, 2002,18(3): 63-65 |
| 104.向桂林,张俭恭,陈定权.Metasearcher 检索异质数据源的原理及应用[J]. 现代图书情报技术, 2002,18(3): 40-42 |
| 105.郭少友.基于XML的分布式信息检索[J]. 现代图书情报技术, 2003,19(2): 51-53 |
| 106.侯震宇.信息检索系统中的相关性评价问题[J]. 现代图书情报技术, 2003,19(2): 45-47 |
| 107.王知津,周海英.语义学理论与信息检索[J]. 现代图书情报技术, 2003,19(2): 1-5 |
| 108.黄晴珊.基于Authorware网络信息检索多媒体CAI课件的开发*[J]. 现代图书情报技术, 2003,19(1): 79-81 |
| 109.邹小筑,缪红梅,陈万寅.FTP信息资源获取方法与技巧*[J]. 现代图书情报技术, 2003,19(1): 87-88 |
| 110.王知津,李明珍.十年来我国信息检索研究述评[J]. 现代图书情报技术, 2004,20(12): 25-31 |
| 111.吴瑛.信息检索网络教学系统的设计与开发[J]. 现代图书情报技术, 2004,20(11): 61-64 |
| 112.乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J]. 现代图书情报技术, 2004,20(11): 24-26 |
| 113.邓辉,刘畅.基于P2P技术的高效检索模型构建研究[J]. 现代图书情报技术, 2004,20(11): 32-34 |
| 114.李培,武丽辉.基于移动代理的分布式信息检索[J]. 现代图书情报技术, 2004,20(10): 55-59 |
| 115.于淑惠.一个基于移动Agent的信息检索系统[J]. 现代图书情报技术, 2004,20(10): 46-50 |
| 116.王兰成,李超 .结合两种相似度计算的主题信息检索方法研究[J]. 现代图书情报技术, 2009,25(11): 53-58 |
| 117.宋玲丽,成颖.相关反馈技术中的检索词排序算法[J]. 现代图书情报技术, 2004,20(8): 44-47 |
| 118.冯凯,王筱明,龙金花.信息检索课程在校园网VOD教学中流媒体技术的实现[J]. 现代图书情报技术, 2004,20(8): 48-51 |
| 119.李爱国,汪社教.信息检索可视化[J]. 现代图书情报技术, 2004,20(2): 50-52 |
| 120.沈艺.OAI协议及其应用[J]. 现代图书情报技术, 2004,20(2): 1-3 |
| 121.沈正华(编译),李武,段明莲(编译).数字视频图书馆的交互式地图*[J]. 现代图书情报技术, 2004,20(2): 4-9 |
| 122.沈艺.OpenURL及其应用[J]. 现代图书情报技术, 2004,20(1): 30-32 |
| 123.王知津,郑红军.基于代数理论的信息检索模型及其推广[J]. 现代图书情报技术, 2005,21(7): 30-33 |
| 124.赵林静,庄夏.基于语义的馆藏信息检索模型研究[J]. 现代图书情报技术, 2005,21(7): 15-17 |
| 125.苏新宁,章成志,卫平.论信息资源整合[J]. 现代图书情报技术, 2005,21(9): 54-61 |
| 126.付鸿鹄.基于Web的开放领域问答系统研究[J]. 现代图书情报技术, 2005,21(9): 36-40 |
| 127.江淇.基于P2P的适应性信息检索系统的设计[J]. 现代图书情报技术, 2005,21(9): 41-44 |
| 128.王妙娅,赖茂生.跨语言信息检索中的询问翻译方法及其研究进展[J]. 现代图书情报技术, 2005,21(4): 37-41 |
| 129.马翠嫦,王东.近五年信息检索论文分析研究[J]. 现代图书情报技术, 2005,21(4): 42-44 |
| 130.文燕平.WWW信息检索可视化实现原理研究[J]. 现代图书情报技术, 2005,21(4): 10-13 |
| 131.侯玉芳,耿骞.一个基于本体的信息检索平台[J]. 现代图书情报技术, 2005,21(8): 27-31 |
| 132.江华,赵建新,王海岚.PAT数组全文检索技术的研究与改进[J]. 现代图书情报技术, 2005,21(8): 37-41 |
| 133.丁一.Web上基于特定主题的RG-HITS算法研究[J]. 现代图书情报技术, 2005,21(6): 26-29 |
| 134.张秋霞,刘壮生.试论网络检索工具检索性能的置信区间[J]. 现代图书情报技术, 2005,21(6): 45-47 |
| 135.李明伍.基于DLL的Z39.50客户端的实现*[J]. 现代图书情报技术, 2005,21(5): 30-32 |
|
| Copyright 2008 by 现代图书情报技术 |