| 现代图书情报技术 2007, 2(12) 50-56 DOI: ISSN: 1003-3513 CN: 11-2856/G2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 本期目录 | 下期目录 | 过刊浏览 | 高级检索 [打印本页] [关闭] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 论文 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
数据清洗研究综述 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
王曰芬1,2 章成志1,2,3 张蓓蓓1,2 吴婷婷1,2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
1(南京理工大学经济管理学院 南京 210094) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 摘要:
对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模型,分析相关算法与工具,给出数据清洗评估方法;并对今后数据清洗的研究和应用进行展望。 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 关键词: 数据清洗 数据质量 重复记录检测 异常数据检测 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
A Survey of Data Cleaning | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Wang Yuefen1,2 Zhang Chengzhi1,2,3 Zhang Beibei1,2 Wu Tingting1,2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
1(Department of Information Management, Nanjing University of Science & Technology, Nanjing 210094,China) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Abstract:
Data cleaning problem is surveyed in this paper. Firstly, the background of data cleaning problem and research status is explained. Then, the definition and objects of data cleaning are given. The basic principle and some models of data cleaning are presented. Related algorithms and tools are analyzed and evaluation methods of data cleaning are proposed. Finally, the future research topics and application related to data cleaning problems are discussed. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Keywords: Data cleaning Data quality Duplicate record detect Outlier data detect | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 收稿日期 2007-09-17 修回日期 2007-10-17 网络版发布日期 2007-12-25 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 分类号: G350 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 基金项目: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 通讯作者: 王曰芬 通讯作者E_mail: yuefen163@vip.163.com | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 参考文献: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
[1] Rahm E, Do H.H. Data Cleaning: Problems and Current Approaches[J]. IEEE Data Engineering Bulletin, 2000, 23(4): 3-13. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 本刊中的类似文章 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1.程小澜,泮杏梅.光盘数据库的情报价值与评价选择[J]. 现代图书情报技术, 1998,14(4): 34-37 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2.邵增荣,李英,范体军.正则表达式在油价事件网页提取中的应用*[J]. 现代图书情报技术, 2009,3(2): 83-88 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3.黄永文,李广建.数字图书馆中的ETL应用研究综述[J]. 现代图书情报技术, 2007,2(12): 1-5 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 4.秦峰,唐详,段永威.引文索引中标引词规范的研究与实践[J]. 现代图书情报技术, 2004,20(4): 87-89 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 5.史晓刚,黄铁军.电子图书内容与结构的自动检查*[J]. 现代图书情报技术, 2005,21(8): 23-26 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Copyright 2008 by 现代图书情报技术 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||