现代图书情报技术 2007, 2(4) 48-51  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(573KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
信息抽取
信息块
DOM
本文作者相关文章
朱红灿
龙朝阳
PubMed
Article by
Article by

基于熵的新闻网页抽取方法的研究

朱红灿 龙朝阳

(湘潭大学管理学院 湘潭 411105)

摘要

为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。

关键词   信息抽取   信息块   DOM  

An Entropy-Based Approach for News Article Extraction from Web Page

Zhu Hongcan   Long Zhaoyang

(Management School of Xiangtan University, Xiangtan 411105, China)

Abstract:

In this paper,an approach for news article extraction from Web page is proposed and this approach applies information theory to DOM tree. Experiment on several news Web sites shows that it is practical.

Keywords: Entropy   Information extraction   Informative block   DOM  
收稿日期 2007-02-05 修回日期 2007-02-28 网络版发布日期 2007-04-25 
分类号:

TP181

基金项目:

通讯作者: 朱红灿 通讯作者E_mail: zhuhongcan@xtu.edu.cn
 

参考文献:

1Kao H Y,Ho J M,Chen M SWISDOM:Web Intrap age Informative Structure Mining Based on Document Object Model.IEEE Tansactions on Knowledge and Data Engineering:2005,17(5):614-630
2瞿有利,于浩,徐国伟等.Web页面信息块的自动分割. 中文信息学报,2004,18(1):6-13
3孙承杰,关毅. 基于统计的网页正文信息抽取方法的研究.中文信息学报,2004,18(5):17-22
4张敏,高剑峰,马少平. 基于链接描述文本及其上下文的Web信息检索.计算机研究与发展,2004,41(1):221-226

本刊中的类似文章
1.邓尚民,孙玉伟 .信息抽取系统的研究现状[J]. 现代图书情报技术, 2006,1(3): 55-58
2.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
3.翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用*[J]. 现代图书情报技术, 2005,21(9): 76-79
4.杭月芹,姚滢,沈洁 .基于单文档的上下文查询信息抽取*[J]. 现代图书情报技术, 2006,1(10): 30-33
5.柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J]. 现代图书情报技术, 2009,25(5): 44-49
6.高霄云,杨建林 .基于规则的中文时间词和数词的自动识别算法[J]. 现代图书情报技术, 2007,2(3): 46-50
7.王非 .网络学术文献信息门户[J]. 现代图书情报技术, 2006,1(9): 53-57
8.朱晓燕,黄勇凯 .基于Lotus Domino/Notes的图书馆设备管理系统的设计与实现[J]. 现代图书情报技术, 2007,2(4): 83-86
9.许文,都云程,李渝勤,施水才 .一种通用HTML网页主题信息提取方法*[J]. 现代图书情报技术, 2007,2(1): 40-43
10.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52
11.廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007,2(6): 38-41
12.黄永文,李广建.数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007,2(12): 1-5
13.王昊,邓三鸿.HMM和CRFs在信息抽取应用中的比较研究[J]. 现代图书情报技术, 2007,2(12): 57-63
14.赵琦,刘建华,冯浩然.从ACE会议看信息抽取技术的发展趋势*[J]. 现代图书情报技术, 2008,24(3): 18-23
15.赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J]. 现代图书情报技术, 2008,24(3): 24-31
16.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
17.马晓英,韩淑芬,孙多青.图书馆读者满意度的拟熵权模糊综合评判*[J]. 现代图书情报技术, 2008,24(6): 95-99
18.张金柱,张东,王惠临.基于字位信息的中文分词方法研究*[J]. 现代图书情报技术, 2008,24(5): 39-43
19.徐健,张智雄,吴振新.实体关系抽取的技术方法综述*[J]. 现代图书情报技术, 2008,24(8): 18-23
20.吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究*[J]. 现代图书情报技术, 2008,24(12): 48-53
21.陈敬文,彭哲.基于CPN网络的Web正文抽取技术研究[J]. 现代图书情报技术, 2008,24(11): 65-71
22.高文利,高元先.学位论文参考文献的自动抽取及标注[J]. 现代图书情报技术, 2008,24(11): 72-75
23.高文利.基于本体的军备情报抽取系统的设计与实现*[J]. 现代图书情报技术, 2010,26(1): 83-87
24.王满,徐朝军.网络课程资源自动量化评价研究*[J]. 现代图书情报技术, 2010,26(1): 88-93
25.化柏林, 郭江.基于规则的高校实验室Web信息抽取的系统设计与实现*[J]. 现代图书情报技术, 2009,(10): 62-66
26.沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集*[J]. 现代图书情报技术, 2009,25(12): 52-56
27.贾美英,杨炳儒,郑德权,曹鸿强,杨靖,张练.基于模式匹配的军事演习情报信息抽取*[J]. 现代图书情报技术, 2009,(9): 70-75
28.李亚子,方安,陈薇,朱峰.Web页面最大有意义节点发现算法研究[J]. 现代图书情报技术, 2009,(10): 22-27
29.陈艳梅,张斌.HTML到XML转换技术的研究与实现[J]. 现代图书情报技术, 2003,19(5): 66-67
30.张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J]. 现代图书情报技术, 2004,20(6): 1-5
31.李娟,杨峰.基于Lotus Domino/Notes的图书馆业务流程管理的设计与实现[J]. 现代图书情报技术, 2004,20(8): 18-21
32.吴伟,刘友华.基于DOM的Web信息自动抽取[J]. 现代图书情报技术, 2004,20(2): 68-71
33.张华,董慧.利用JDOM解析XML文档及其在数据转换上的应用*[J]. 现代图书情报技术, 2005,21(11): 86-90
34.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13

Copyright 2008 by 现代图书情报技术