什么是数据清理?(data scrubbing?)

数据清理,有时称为数据清理,是检测、删除或更正数据库中存在某种错误的任何信息的过程。此错误可能是因为数据错误、不完整、格式不正确或是另一条目的重复副本。银行、保险、零售、运输和电信等许多数据密集型业务领域可能会使用这些复杂的软件应用程序来清理数据库信息。...

数据清理,有时称为数据清理,是检测、删除或更正数据库中存在某种错误的任何信息的过程。此错误可能是因为数据错误、不完整、格式不正确或是另一条目的重复副本。银行、保险、零售、运输和电信等许多数据密集型业务领域可能会使用这些复杂的软件应用程序来清理数据库信息。

Data scrubbing is the process of detecting and removing or correcting any information in a database that has some sort of error.

数据库中的错误可能是由于输入数据时的人为错误、两个数据库的合并、缺乏公司范围或行业范围的数据编码标准,或由于包含不准确或过时数据的旧系统造成的。在计算机具备整理和清理数据的能力之前,大多数清理都是手工完成的。这不仅耗时且昂贵,而且常常导致更多的人为错误。

Data scrubbing is the process of detecting and removing or correcting any information in a database that has some sort of error.

当考虑到出错的容易程度时,数据清理的必要性是明确的。例如,在姓名和地址数据库中,一个名字可能是马萨诸塞州李约瑟市的鲍比·约翰逊,而另一个名字可能是马萨诸塞州李约瑟市的鲍勃·约翰逊。名字的这种变化很可能是一个错误,指的是一个人。然而,计算机通常会像处理两个不同的人一样处理这些信息。专门的数据清理软件能够区分差异并修复。

regular data scrubbing improves the chances of finding valuable insights later.

虽然这些小错误似乎是一个微不足道的问题,但当将损坏或错误的数据合并到多个数据库中时,问题可能会成倍增加。自从有了计算机,这种所谓的“脏数据”就一直是一个问题,但随着业务变得越来越复杂,数据仓库正在合并来自多个来源的数据,这种问题变得越来越重要。如果数据库中充满了错误和有争议的信息,那么拥有一个全面的数据库是没有意义的。

使用专门软件的公司可以在内部开发,也可以从各种供应商处购买。该软件并不便宜,价格从20000美元到300000美元不等。它通常还需要一些定制,以便软件能够满足业务的特定需求。它经历了一个使用算法来标准化、更正、匹配和整合数据的过程,并且能够处理单个或多个数据集。

数据清理有时作为数据仓库实现的一部分被跳过,但它是拥有一个好的、准确的最终产品的最关键步骤之一。因为数据输入总是会出错,所以总是需要这个过程。

Errors found in databases may be the result of human error in entering the data.

  • 发表于 2021-12-13 13:06
  • 阅读 ( 147 )
  • 分类:互联网

你可能感兴趣的文章

您只需擦除一次磁盘即可安全地擦除它

...供了错误的安全感。 图片来源:Norlando Pobre on Flickr 擦什么 当您使用Windows、Linux或其他操作系统删除文件时,操作系统实际上不会从硬盘中删除文件的所有痕迹。操作系统将包含数据的扇区标记为“未使用”。操作系统将在将...

  • 发布于 2021-04-09 02:11
  • 阅读 ( 185 )

如何在chrome for ios中清除浏览历史记录

...分中的“隐私”。 在“隐私”屏幕上,轻触“清除浏览数据” 在“清除浏览数据”屏幕上,可以指定要清除的数据类型。默认情况下,保存的密码和自动填充数据不会被清除,但您可以根据需要选择这些部分或删除其他部分...

  • 发布于 2021-04-09 12:27
  • 阅读 ( 121 )

大数据(big data)和数据分析(data analytics)的区别

...简而言之,数据分析应用于大数据。 覆盖的关键领域 1.什么是大数据-定义,用法2.什么是数据分析-定义,用法3.大数据和数据分析的区别-关键区别比较 关键术语 大数据、数据分析 什么是大数据(big data)? 数据对每个组织都很...

  • 发布于 2021-07-01 00:22
  • 阅读 ( 1007 )

etl公司(etl)和数据仓库(data warehouse)的区别

...据仓库的区别就源于这个基本概念。 覆盖的关键领域 1.什么是ETL–定义,功能2.什么是数据仓库–定义,功能3.ETL和数据仓库的区别是什么–关键区别的比较 关键术语 数据仓库 什么是etl公司(etl)? ETL代表提取、转换和加载。在...

  • 发布于 2021-07-01 03:18
  • 阅读 ( 463 )

依赖的(dependent)和独立数据集市(independent data marts)的区别

...据集市作为依赖和独立的数据集市。 覆盖的关键领域 1.什么是从属数据集市-定义,功能2.什么是独立数据集市-定义,功能3.从属数据集市和独立数据集市之间的区别是什么-关键区别的比较 关键术语 数据集市、数据仓库、相关...

  • 发布于 2021-07-01 03:47
  • 阅读 ( 514 )

数据集成(data integration)和etl公司(etl)的区别

...程。它涉及提取、转换和加载数据。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是ETL-定义,功能3.数据集成和ETL之间的区别是什么-关键区别的比较 关键术语 大数据、数据集成、数据仓库、ETL 什么是数据集成(data integr...

  • 发布于 2021-07-01 03:55
  • 阅读 ( 608 )

数据集成(data integration)和数据迁移(data migration)的区别

...和数据迁移是两个涉及数据的过程。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是数据迁移-定义,功能3.数据集成和数据迁移的区别-主要区别比较 关键术语 大数据、数据库、数据集成、数据迁移 什么是数据集成(data ...

  • 发布于 2021-07-01 22:11
  • 阅读 ( 450 )

数据争用(data wrangling)和数据清理(data cleaning)的区别

...据清理是生成有用数据的两种方法。 覆盖的关键领域 1.什么是数据争用-定义,功能2.什么是数据清理-定义,功能3.数据争用和数据清理的区别-主要区别比较 关键术语 数据清理、数据挖掘、数据争用、数据争用器 什么是数据争...

  • 发布于 2021-07-02 00:30
  • 阅读 ( 2102 )

构建自己的剪贴板清理器应用程序

...代码如下:IDataObject data=Clipboard.GetDataObject();如果(数据!=空&空&data.GetDataPresent(DataFormats.Text)){String clipboardText=data.GetData(DataFormats.Text).ToString();剪贴板.SetText(剪贴板文本);}点击链接查看更大分辨率...

  • 发布于 2021-07-31 22:56
  • 阅读 ( 105 )

如何我选择最好的开源数据恢复工具?(i choose the best open source data recovery tools?)

...具。这样,如果将存储介质用作存档源,则无论介质发生什么情况,都可以恢复数据。 ...

  • 发布于 2021-12-06 17:39
  • 阅读 ( 149 )
qga9h2bg0py
qga9h2bg0py

0 篇文章