现代图书情报技术 2006, 1(5) 62-64  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(0KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
数据挖掘
Web日志
XML
本文作者相关文章
潘有能
PubMed
Article by

基于XML的Web日志挖掘研究*

潘有能

(浙江大学信息资源管理系 杭州 310028)

摘要

设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。

关键词 数据挖掘   Web日志   XML  

Web Usage Mining Research Based on XML

Pan Youneng

(Department of Information Resources Management, Zhejiang University, Hangzhou 310028,China)

Abstract:

This paper builds a framework of Web usage mining based on XML technology, introduces XGMML and LOGML briefly. Then, the author discusses the method to generate LOGML documents. At last, the Apriori algorithm was used to mine frequent sets, frequent sequences and frequent sub-graphic in Web usage documents.

Keywords: Data mining   Web usage data   XML  
收稿日期 2006-02-16 修回日期  网络版发布日期 2006-05-25 
分类号:

TP311

基金项目:

*本文系浙江大学“曙光”青年项目“基于XML的Web日志挖掘研究”(项目编号:205000-362221)的研究成果之一。

通讯作者: 潘有能 通讯作者E_mail: ynpan@zju.edu.cn
 

参考文献:

1Facca, Federico Michele, Lanzi, Pier Luca. Mining interesting knowledge from weblogs: a survey. Data & Knowledge Engineering, 2005, 53(3): 225-241
2John R. Punin, Mukkai S. Krishnamoorthy, Mohammed J. Zaki. LOGML: Log Markup Language for Web Usage Mining. WWW10 Conference, 2001
3John Punin, Mukkai Krishnamoorthy. WWWPal System——A System for Analysis and Synthesis of Web Pages. WebNet 98 Conference, 1998
4赵红玲, 宋瀚涛, 牛振东, 刘桂山. Web日志挖掘中数据预处理的研究. 计算机应用研究, 2005, 22(6): 67-69
5潘有能, 邓三鸿. 基于XML和关联规则的Web挖掘研究. 现代图书情报技术, 2004(7): 30-34
6史忠植著. 知识发现. 北京: 清华大学出版社, 2002

本刊中的类似文章
1.田阳 .基于免费组件AltovaXML的XQuery处理器的实现及应用[J]. 现代图书情报技术, 2006,1(4): 70-73
2.赵丹群.数据挖掘:原理、方法及其应用[J]. 现代图书情报技术, 2000,16(6): 41-44
3.刘丹,陆伟,张宓.XML结构化检索研究及实现*[J]. 现代图书情报技术, 2009,3(3): 52-56
4.史艳梅.个性化服务中挖掘用户兴趣的CMPS[J]. 现代图书情报技术, 2005,21(3): 85-87
5.李广磊,沙瀛,牛振东.XrML验证器的设计与实现[J]. 现代图书情报技术, 2005,21(3): 7-10
6.王昊.基于关联规则挖掘研究学科间相关性[J]. 现代图书情报技术, 2005,21(3): 23-28
7.姜宏.利用XML和ADO .NET技术实现异构数据库查询[J]. 现代图书情报技术, 2005,21(2): 79-80
8.岳修志.图书馆Apache服务器日志文件数据的分析[J]. 现代图书情报技术, 2005,21(2): 81-83
9.高峰.MARC数据转换为XML文档的设计与实现[J]. 现代图书情报技术, 2005,21(1): 22-25
10.施水才,孙丽华.基于数字纸张的信息检索和数据挖掘技术[J]. 现代图书情报技术, 2005,21(1): 9-11
11.张少龙,吴佳鑫 .基于NXD数据库的DC元数据存储和使用[J]. 现代图书情报技术, 2006,1(12): 9-11
12.原福永,陈金森,林海霞 .基于XML的智能元搜索引擎研究[J]. 现代图书情报技术, 2006,1(7): 29-32
13.张健.XML文档的约束及其应用探讨[J]. 现代图书情报技术, 2005,21(5): 23-26
14.杨威,王云,苑戎 .基于服务网格的教学资源系统集成的研究*[J]. 现代图书情报技术, 2006,1(5): 50-53
15.秦健,Javier Calzada Prado.在GEM检索记录中挖掘学习课件词汇的使用状况[J]. 现代图书情报技术, 2006,22(1): 44-46
16.李 康 .数据仓库在证券行业中的应用研究[J]. 现代图书情报技术, 0,(): 0-
17.刘华 .超大规模分类语料库的构建[J]. 现代图书情报技术, 2006,22(1): 71-73
18.陈祖琴,张惠玲,葛继科,郑宏.基于加权关联规则挖掘的相关文献推荐*[J]. 现代图书情报技术, 2007,2(10): 57-61
19.李树青.基于加权XML模型的个性化产品推荐方法*[J]. 现代图书情报技术, 2009,25(4): 64-69
20.贾君枝,卫荣娟,罗林强.《汉语主题词表》XML文档的自动生成研究[J]. 现代图书情报技术, 2009,25(5): 50-54
21.翟东升,刘晨,欧阳轶慧.专利信息获取分析系统设计与实现*[J]. 现代图书情报技术, 2009,25(5): 55-60
22.沈剑沧,鲍培明 .XML在图书查询系统中的实现技术*[J]. 现代图书情报技术, 2006,1(10): 38-42
23.王伟,张征芳,王海明 .基于数据挖掘的图书馆读者行为分析[J]. 现代图书情报技术, 2006,1(11): 51-54
24.司徒俊峰 .一种基于本体的XML文档语义提取方法[J]. 现代图书情报技术, 2006,1(11): 55-60
25.董超雄,肖晓旦,陈先来,甘勇升 .判别分析与决策树在医院信息系统中的应用比较研究[J]. 现代图书情报技术, 2006,1(12): 72-77
26.延卫平 .MARC的XML交换格式研究[J]. 现代图书情报技术, 2006,1(8): 31-36
27.喻钧,Matthias Ihle .基于XQuery的Web信息检索技术的研究与实践[J]. 现代图书情报技术, 2007,2(1): 69-71
28.陈俊林,张文德 .XML文档的数据库转换技术研究*[J]. 现代图书情报技术, 2006,1(9): 38-42
29.李春旺.SOA标准规范体系研究*[J]. 现代图书情报技术, 2007,2(5): 2-6
30.殷蜀梅 .基于Medline的医学数据挖掘系统研究*[J]. 现代图书情报技术, 2007,2(4): 12-16
31.羊牧,周激流,胡艳梅.网格环境下多媒体关联规则数据挖掘方法研究[J]. 现代图书情报技术, 2007,2(7): 59-62
32.夏立新,王忠义.基于XML的全文检索原型系统的设计与实现*[J]. 现代图书情报技术, 2007,2(8): 67-70
33.王莉.基于XML的学位论文元数据交换标准研究*[J]. 现代图书情报技术, 2007,2(6): 66-69
34.沈奎林,杜瑾.Ajax技术及其在数字图书馆中的应用[J]. 现代图书情报技术, 2007,2(9): 88-91
35.姜科,陆伟,姜捷璞,刘丹.XML检索系统及其比较研究*[J]. 现代图书情报技术, 2007,2(10): 66-70
36.邓尚民,韩靖(编译).Clementine在电子商务环境中的数据挖掘应用[J]. 现代图书情报技术, 2007,2(10): 62-65
37.陈旭毅 (编译).商务数据挖掘与可视化实现方法[J]. 现代图书情报技术, 2007,2(11): 91-94
38.王奕,范通让.多级元数据查询系统体系架构的设计与优化[J]. 现代图书情报技术, 2007,2(12): 16-19
39.杨志芹.基于MathML的非平直文本信息处理研究*[J]. 现代图书情报技术, 2008,24(3): 68-72
40.王敏,张志强.图书情报领域知识发现研究文献内容分析[J]. 现代图书情报技术, 2008,24(2): 64-68
41.余立中,黄奇.构造适合UDDI注册的ebXML规范分类——基于对OASIS提供体系的修改[J]. 现代图书情报技术, 2008,24(7): 13-17
42.王强.基于事务标识列表的关联规则挖掘算法[J]. 现代图书情报技术, 2008,24(8): 63-69
43.苏东出.基于Ajax的Web MARC编辑器的构思与实现[J]. 现代图书情报技术, 2008,24(3): 82-85
44.殷蜀梅,张智雄,吴振新.一种从医学文本中实现自动关键词抽取和筛选的技术方法*[J]. 现代图书情报技术, 2008,24(8): 31-36
45.苏菊,王栋,徐建良.一种基于读者借阅信息的图书检索结果客观排序算法研究*[J]. 现代图书情报技术, 2008,24(7): 86-90
46.张金镯.基于数据挖掘的图书馆活跃读者研究[J]. 现代图书情报技术, 2008,24(7): 96-99
47.刘晓利,丁振国.基于XML Schema完整性约束转换的索引机制研究[J]. 现代图书情报技术, 2008,24(10): 43-47
48.王京雷,刘文云.基于VoiceXML的图书馆语音服务研究*[J]. 现代图书情报技术, 2008,24(9): 87-91
49.郭振英,赵文兵,魏育辉.电子资源日志统计系统分析与设计*[J]. 现代图书情报技术, 2008,24(9): 102-106
50.吴振新,张智雄,孙志茹.基于数据挖掘的Web Archive资源应用分析*[J]. 现代图书情报技术, 2009,3(1): 28-33
51.李树青,程国达,王维民.基于加权XML模型的XML数据与DTD模式匹配*[J]. 现代图书情报技术, 2010,26(1): 57-65
52.王满,徐朝军.网络课程资源自动量化评价研究*[J]. 现代图书情报技术, 2010,26(1): 88-93
53.金燕,张玉峰.网络数据挖掘及其在面向Web的知识检索中的应用*[J]. 现代图书情报技术, 2003,19(6): 55-57
54.苏晓路 钱平 颜蕴 崔运鹏 胡海燕 李景 .农业科技信息智能检索系统中的知识组织* [J]. 现代图书情报技术, 0,(): 0-
55.张咏.XML及其在图书馆和情报检索中的应用[J]. 现代图书情报技术, 2001,17(2): 30-34
56.李慧,何绍华.XML在图书馆系统中的实现技术[J]. 现代图书情报技术, 2001,17(4): 9-11
57.葛登科,王亚民.基于GIS的空间关联规则挖掘方法研究[J]. 现代图书情报技术, 2009,25(7-8): 97-101
58.李文江,陈诗琴.基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009,25(7-8): 131-135
59.张小飞,蔡亚萍,刘威.络关系数据智能采集系统的设计与实现——基于Web数据挖掘原理[J]. 现代图书情报技术, 2009,(9): 64-69
60.陈艳梅,张斌.HTML到XML转换技术的研究与实现[J]. 现代图书情报技术, 2003,19(5): 66-67
61.胡一俊,焦玉英.Z39.50和XML在信息获取中的应用[J]. 现代图书情报技术, 2003,19(5): 45-47
62.孙辨华,郝永胜,陈虎.网络教育资源系统的设计技术研究[J]. 现代图书情报技术, 2003,19(5): 1-5
63.曾婷,张成昱,姜爱蓉.电子图书内容格式OEBPS的研究*[J]. 现代图书情报技术, 2003,19(4): 24-26
64.徐枫,张正和.基于XML的通用元数据管理系统的研究与设计[J]. 现代图书情报技术, 2003,19(4): 33-35
65.任瑞娟,吴军霞.DC与图书馆Web信息发布[J]. 现代图书情报技术, 2001,17(5): 25-26
66.谈春梅,段卫华,田质斌.标准文献数据库系统的设计与实现[J]. 现代图书情报技术, 2001,17(6): 21-23
67.孙晓菲.XML与数字图书馆[J]. 现代图书情报技术, 2000,16(4): 14-15
68.王伟.标记语言及HTML和XML的比较分析[J]. 现代图书情报技术, 2000,16(5): 22-24
69.黄晓斌,邓爱贞.现代信息管理的深化——数据挖掘和知识发现的发展趋势[J]. 现代图书情报技术, 2003,19(4): 1-3
70.张薇薇,单启成.基于Z39.50和XML技术的数字图书馆分布系统构建[J]. 现代图书情报技术, 2003,19(3): 27-29
71.刘友华,闵建宏.基于数据挖掘技术的Web 智能服务算法[J]. 现代图书情报技术, 2003,19(3): 58-59
72.曾新红.XML在数字图书馆相关技术中的研究动态*[J]. 现代图书情报技术, 2004,20(5): 1-7
73.谈春梅,段卫华.特种文献数据库系统关键技术的研究与实现[J]. 现代图书情报技术, 2002,18(6): 52-54
74.张菽.XML 语言在数字化图书馆系统中的应用[J]. 现代图书情报技术, 2002,18(6): 7-9
75.孙昊.XML—信息资源网络建设的新希望[J]. 现代图书情报技术, 2002,18(5): 25-27
76.王艳.数据挖掘在数字图书馆中的应用[J]. 现代图书情报技术, 2002,18(5): 8-10
77.董慧,刘志军.JSP+XML在图书馆系统中的实现技术[J]. 现代图书情报技术, 2002,18(5): 11-13
78.万里云.数据仓库技术以及在证券业应用展望[J]. 现代图书情报技术, 2002,18(4): 64-68
79.高岩,胡静涛.Web数据挖掘的原理、方法及用途[J]. 现代图书情报技术, 2002,18(3): 51-53
80.郭少友.基于XML的分布式信息检索[J]. 现代图书情报技术, 2003,19(2): 51-53
81.张成昱,王平,赵仪,来强,孔黎.基于数据挖掘的网络信息资源管理系统分析、设计和实现*[J]. 现代图书情报技术, 2003,19(2): 57-60
82.马仁配,朱学芳.基于XML技术的数字博物馆系统*[J]. 现代图书情报技术, 2003,19(2): 21-24
83.曾新红.基于XML/SOAP实现数字图书馆系统互操作的研究[J]. 现代图书情报技术, 2003,19(2): 37-41
84.徐健.利用XML实现图书馆Web数据库的动态发布[J]. 现代图书情报技术, 2003,19(1): 54-56
85.黄晓斌.HTML向XML转换的研究*[J]. 现代图书情报技术, 2003,19(1): 18-21
86.柳胜国.Web日志挖掘数据预处理方法研究  [J]. 现代图书情报技术, 2004,20(12): 55-57
87.周宁,杨春雨,王洪艳,焦洁.教学资源可视化方法[J]. 现代图书情报技术, 2004,20(11): 58-60
88.王亮,郭一平.异构电子资源统一检索协议*[J]. 现代图书情报技术, 2004,20(9): 47-49
89.孙辉.基于RDBMS的XML数据存储研究[J]. 现代图书情报技术, 2004,20(9): 58-60
90.郭瑞华.XML 数据库技术[J]. 现代图书情报技术, 2004,20(9): 61-65
91.张蓓,董丽,姜爱蓉.数学古籍数字化资源著录保存工具的研究和实现[J]. 现代图书情报技术, 2004,20(8): 56-60
92.潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究*[J]. 现代图书情报技术, 2004,20(7): 30-34
93.雷震,张惠君.多媒体演播创作系统的开发与实现[J]. 现代图书情报技术, 2004,20(3): 76-80
94.段荣婷,徐维.基于XML技术的中国电子公文结构设计研究[J]. 现代图书情报技术, 2004,20(1): 67-71
95.李康.数据仓库在证券行业中的应用研究[J]. 现代图书情报技术, 2005,21(12): 71-73
96.刘宣春.学位论文库元数据标准的研究[J]. 现代图书情报技术, 2005,21(12): 63-66
97.苏晓路,钱平,颜蕴,崔运鹏,胡海燕,李景.农业科技信息智能检索系统中的知识组织*[J]. 现代图书情报技术, 2005,21(12): 34-38
98.张华,董慧.利用JDOM解析XML文档及其在数据转换上的应用*[J]. 现代图书情报技术, 2005,21(11): 86-90
99.吴旭,许运红,马自卫.数字资源管理系统的研究、设计与实现[J]. 现代图书情报技术, 2005,21(11): 19-23
100.许鑫,苏新宁,邓三鸿,周玉军.数字化校园中Web服务安全框架研究[J]. 现代图书情报技术, 2005,21(10): 43-50
101.司徒浩臻.数据挖掘技术在图书馆信息服务中的应用[J]. 现代图书情报技术, 2005,21(10): 15-18
102.张莹.描述CAD图的元数据方案研究[J]. 现代图书情报技术, 2005,21(7): 38-41
103.欧红.基于.NET的XQuery处理器网站的实现与应用[J]. 现代图书情报技术, 2005,21(9): 89-91
104.周宁,杨传志,吴佳鑫.图像索引与检索的XML方法[J]. 现代图书情报技术, 2005,21(9): 32-35
105.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13
106.张健.基于XML与ASP.NET的图片管理技术[J]. 现代图书情报技术, 2005,21(4): 83-85
107.许鑫,苏新宁,陆炯.数字化校园身份认证系统的设计[J]. 现代图书情报技术, 2005,21(4): 51-57
108.蒲筱哥.基于Web的个性化信息智能挖掘系统的构建[J]. 现代图书情报技术, 2005,21(4): 27-30
109.陈兵强,王益兵.VRA Core的XML格式在照片类数据库建档中的应用[J]. 现代图书情报技术, 2005,21(4): 31-33
110.王韦,黄春毅.基于C/S与B/S混合模式的税务征收系统的设计与开发[J]. 现代图书情报技术, 2005,21(8): 87-89
111.洪重阳,李晨英,王雁,许岩青,塔娜.一种用于不同系统平台间XML格式元数据交换的实用方法[J]. 现代图书情报技术, 2005,21(8): 16-19
112.郭瑞华.XML数据的存储策略研究[J]. 现代图书情报技术, 2005,21(6): 65-69
113.李德成,谭淑琴.用XER实现Z39.50协议中的APDU编码[J]. 现代图书情报技术, 2005,21(6): 17-19
114.戚爱华,刘友华,刘宇松.XML加密的特点及应用模式[J]. 现代图书情报技术, 2005,21(5): 73-75

Copyright 2008 by 现代图书情报技术