现代图书情报技术 2006, 1(10) 30-33  DOI:      ISSN: 1003-3513 CN: 11-2856/G2

本期目录 | 下期目录 | 过刊浏览 | 高级检索                                                            [打印本页]   [关闭]
论文
扩展功能
本文信息
Supporting info
PDF(0KB)
[HTML全文](KB)
参考文献[PDF]
参考文献
服务与反馈
把本文推荐给朋友
加入我的书架
加入引用管理器
引用本文
Email Alert
本文关键词相关文章
检索偏爱度
信息抽取
上下文信息
查询扩展
本文作者相关文章
杭月芹
姚滢
沈洁
PubMed
Article by
Article by
Article by

基于单文档的上下文查询信息抽取*

杭月芹1   姚滢1   沈洁2

1(南通大学计算机科学与技术学院 南通 226006)
2(扬州大学信息工程学院计算机科学与工程系 扬州  225009)

摘要

提出一种结合全局分析和局部分析从单篇文档中抽取查询信息的算法。利用全局分析提取用户的查询兴趣,通过局部分析消除查询词的歧义性。实验结果表明,该方法能较全面反映用户查询的上下文信息,提高查询的相关度。

关键词 检索偏爱度   信息抽取   上下文信息   查询扩展  

Towards Context Query Information Extraction Based on Single Document

Hang Yueqin1    Yao Ying1    Shen Jie2 

1(Institute of Computer Science and Technology, Nantong University, Nantong 226006, China)
2(Department of Computer Science and Engineering, College of Information Engineering, Yangzhou University, Yangzhou 225009, China)

Abstract:

Based on single document, this paper puts foward an approach in which global analysis is combined with local analysis is proposed to extract the information of the query. By global analysis, keywords are extracted from the whole document to reflect the user’s research preference. While in local analysis step, query is disambiguated by extracting keywords from the text that is around the marked query. The results of the experiment show that the method above can reflect the query information more comprehensive and improve the relevance of the information retrieval.

Keywords: Search preference   Information extraction   Context information   Query expansion  
收稿日期 2006-05-24 修回日期  网络版发布日期 2006-10-25 
分类号:

TP301.6

基金项目:

*本文系江苏省高校自然科学基金资助项目“智能分布Web信息处理研究”(项目编号:02KJB520013)的研究成果之一。

通讯作者: 杭月芹 通讯作者E_mail: yueqinhang@163.com
 

参考文献:

1Steve Lawrence, Context in Web Search, Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2000: 25-32
2Xuehua Shen,Chengxiang Zhai Exploiting Query History for Document Ranking in Interactive Information Retrieval,In : Proceedings of SIGIR'03 (Poster), 2003: 377-378
3Finkelstein L, Gabrilovich E, Matias Y, Rivlin E, Solan A, Wolfman G, Ruppin E.  Placing search in context: the concept revisited. ACM Transactions on Information Systems, 2002, 20(1): 116-131
4Mohammed A Razek, Claude Frasson, Marc Kaltenbach A Context-Based Information Agent for Supporting Intelligent Distance Learning Environments, Twelfth International World Wide Web Conference, Budapest, 2003
5Fürnkranz J. A study using n-grams features for text categorization Technical Report OEFAI-TR-98-30, 1998: 1-10
6Matsuo Y, Ishizuka M. Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information, International Journal on Artificial Intelligence Tools, 2004, 13 (1): 157-169
7Kenneth Ward Church, Patrick Hanks Word association norms, mutual information and lexicography, In Proceeding of ACL 27, 1989: 76-83
8Porter M. An algorithm for suffix stripping Program, 1980, 14(3):130-137
9Alan Turing Computing machinery and intelligence, Mind 59, 1950: 433-460
10常学将,胡文明等译数理统计初级教程太原:山西人民出版社,1986

本刊中的类似文章
1.邓尚民,孙玉伟 .信息抽取系统的研究现状[J]. 现代图书情报技术, 2006,1(3): 55-58
2.许鑫,黄仲清.垂直搜索引擎应用中的若干策略探讨*——以12580餐饮垂直搜索为例[J]. 现代图书情报技术, 2009,3(2): 62-70
3.翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用*[J]. 现代图书情报技术, 2005,21(9): 76-79
4.柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J]. 现代图书情报技术, 2009,25(5): 44-49
5.聂卉 .基于本体的查询扩展与规范[J]. 现代图书情报技术, 2007,2(3): 35-38
6.高霄云,杨建林 .基于规则的中文时间词和数词的自动识别算法[J]. 现代图书情报技术, 2007,2(3): 46-50
7.王非 .网络学术文献信息门户[J]. 现代图书情报技术, 2006,1(9): 53-57
8.朱红灿,龙朝阳 .基于熵的新闻网页抽取方法的研究[J]. 现代图书情报技术, 2007,2(4): 48-51
9.藕军,任明仑 .搜索引擎返回结果自动抽取[J]. 现代图书情报技术, 2007,2(2): 49-52
10.廉站俊,吕学强,张玉杰,施水才.基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007,2(6): 38-41
11.陈燕红,黄名选.基于Apriori改进算法的局部反馈查询扩展[J]. 现代图书情报技术, 2007,2(9): 84-87
12.黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展模型研究[J]. 现代图书情报技术, 2007,2(10): 47-51
13.黄永文,李广建.数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007,2(12): 1-5
14.王昊,邓三鸿.HMM和CRFs在信息抽取应用中的比较研究[J]. 现代图书情报技术, 2007,2(12): 57-63
15.赵琦,刘建华,冯浩然.从ACE会议看信息抽取技术的发展趋势*[J]. 现代图书情报技术, 2008,24(3): 18-23
16.赵洪,肖洪,薛德军,师庆辉.Web表格信息抽取研究综述[J]. 现代图书情报技术, 2008,24(3): 24-31
17.曾新红,林伟明,明仲.中文叙词表本体的检索实现及其术语学服务研究*[J]. 现代图书情报技术, 2008,24(2): 8-13
18.张辉,徐朝军,王蔚.教育游戏资源智能搜索系统的设计与实现*[J]. 现代图书情报技术, 2008,24(6): 46-50
19.张克状,刘友华,黄芳,李寅.一种面向用户兴趣的个性化语义查询扩展方法[J]. 现代图书情报技术, 2008,24(8): 48-52
20.徐健,张智雄,吴振新.实体关系抽取的技术方法综述*[J]. 现代图书情报技术, 2008,24(8): 18-23
21.吕聚旺,都云程,王弘蔚,施水才.基于新型主题信息量化方法的Web主题信息提取研究*[J]. 现代图书情报技术, 2008,24(12): 48-53
22.陈敬文,彭哲.基于CPN网络的Web正文抽取技术研究[J]. 现代图书情报技术, 2008,24(11): 65-71
23.高文利,高元先.学位论文参考文献的自动抽取及标注[J]. 现代图书情报技术, 2008,24(11): 72-75
24.高文利.基于本体的军备情报抽取系统的设计与实现*[J]. 现代图书情报技术, 2010,26(1): 83-87
25.王满,徐朝军.网络课程资源自动量化评价研究*[J]. 现代图书情报技术, 2010,26(1): 88-93
26.化柏林, 郭江.基于规则的高校实验室Web信息抽取的系统设计与实现*[J]. 现代图书情报技术, 2009,(10): 62-66
27.沈劲枝,寇文波,田晨耕.基于特征定位边界预测的Web档案正文采集*[J]. 现代图书情报技术, 2009,25(12): 52-56
28.贾美英,杨炳儒,郑德权,曹鸿强,杨靖,张练.基于模式匹配的军事演习情报信息抽取*[J]. 现代图书情报技术, 2009,(9): 70-75
29.杨静,王亚民.基于查询扩展和节点聚合的P2P搜索方法[J]. 现代图书情报技术, 2009,(9): 51-56
30.张玉连,刘娟,齐峰,周兴林.基于摘要和日志中相关词共现策略的移动查询扩展*[J]. 现代图书情报技术, 2009,(10): 40-44
31.陈艳梅,张斌.HTML到XML转换技术的研究与实现[J]. 现代图书情报技术, 2003,19(5): 66-67
32.张智雄.信息抽取技术及其在数字图书馆中的应用前景分析[J]. 现代图书情报技术, 2004,20(6): 1-5
33.陈定权.信息检索系统中的用户相关反馈机制[J]. 现代图书情报技术, 2002,18(4): 33-35
34.吴伟,刘友华.基于DOM的Web信息自动抽取[J]. 现代图书情报技术, 2004,20(2): 68-71
35.宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究*[J]. 现代图书情报技术, 2005,21(9): 10-13

Copyright 2008 by 现代图书情报技术