什么是脏数据?(dirty data?)

脏数据是一个术语,用于描述过时、不完整或不准确的任何类型的电子数据。这种类型的数据可能是由于数据输入错误、未能定期更新数据,甚至同一数据的输入不止一次而创建的。有时,不正确的数据只不过是电子文档文本中标点符号的错误。在其他情况下,脏数据可能是故意误导的信息,例如试图修改会计记录以向投资者和其他人展示特定形象。...

脏数据是一个术语,用于描述过时、不完整或不准确的任何类型的电子数据。这种类型的数据可能是由于数据输入错误、未能定期更新数据,甚至同一数据的输入不止一次而创建的。有时,不正确的数据只不过是电子文档文本中标点符号的错误。在其他情况下,脏数据可能是故意误导的信息,例如试图修改会计记录以向投资者和其他人展示特定形象。

Businesses sometimes manage the correction of inaccurate data by proofreading the data after it is entered and making necessary updates.

在大多数情况下,在任何类型的数据库中积累脏数据都是无意的。在数据库中输入新信息的个人可能拼错单词,遗漏对理解文本意图很重要的标点符号,或者没有遵循特定的格式策略。在这种情况下,纠正不正确的信息是一个相对简单的过程,只需要修改不正确的文本并保存更改。企业有时通过在数据输入后校对数据并进行必要的更新来管理这一过程。

Errors found in databases may be the result of human error in entering the data.

当信息更改时,由于未能更新现有记录,也可能会出现脏数据。例如,如果销售人员在给定客户发生人事变动时未能更新客户文件,则这些文件将不再准确,并被视为脏文件。与纠正拼写和标点错误一样,花时间删除过时的信息并用当前数据替换有助于提高数据库的总体可用性。

在某些情况下,创建脏数据是故意的。公司可以选择省略数据库中的特定信息,以创建关于财务的特定感知,例如突出显示给定期间产生的收入金额,但选择不输入与同一期间收集的收入金额相关的数据。在这种类型的脏数据中,提供的信息尽可能准确,但被认为是不完整的。

对于某些类型的脏数据,决策可能是不花费时间和精力进行更正。当不正确的数据对业务正常运行的能力没有任何影响,或者没有造成任何重大损失的可能性时,这种情况很常见。这意味着,几乎任何维护某种类型数据库的实体都可能至少有一点脏数据散布在其他最新和准确的信息中。

  • 发表于 2021-12-13 14:00
  • 阅读 ( 123 )
  • 分类:互联网

你可能感兴趣的文章

肮脏的奶牛脆弱性:你需要知道的一切,以保持安全

... 今天,我们来看看这个漏洞到底是什么,它影响的系统,以及如何保护自己。 ...

  • 发布于 2021-03-11 18:42
  • 阅读 ( 416 )

数据仓库(data warehousing)和数据集市(data marts)的区别

...。对于这种误解,需要有一个彻底的定义和区别引用。但什么是数据集市和数据仓库? 首先必须知道数据集市代表一个特定的公司。它代表了它的程序、数据、软件和硬件。这意味着每个部门都有单独的数据集市。例如,有一...

  • 发布于 2021-06-23 12:41
  • 阅读 ( 170 )

数据挖掘(data mining)和数据仓库(data warehousing)的区别

...用于数据仓库,以发现有用的模式。 覆盖的关键领域 1.什么是数据挖掘–定义,功能2.什么是数据仓库–定义,功能3.数据挖掘和数据仓库的区别–关键区别的比较 关键术语 数据挖掘,数据仓库,数据仓库 什么是数据挖掘(data ...

  • 发布于 2021-06-30 17:39
  • 阅读 ( 509 )

大数据(big data)和数据分析(data analytics)的区别

...简而言之,数据分析应用于大数据。 覆盖的关键领域 1.什么是大数据-定义,用法2.什么是数据分析-定义,用法3.大数据和数据分析的区别-关键区别比较 关键术语 大数据、数据分析 什么是大数据(big data)? 数据对每个组织都很...

  • 发布于 2021-07-01 00:22
  • 阅读 ( 1006 )

主数据(master data)和交易数据(transaction data)的区别

...数据对于现代复杂的组织非常重要。 覆盖的关键领域 1.什么是主数据-定义,功能2.什么是交易数据-定义,功能3.主数据和交易数据之间的区别是什么-关键区别的比较 关键术语 数据、主数据、事务数据 什么是主数据(master data)...

  • 发布于 2021-07-01 02:51
  • 阅读 ( 799 )

数据集成(data integration)和etl公司(etl)的区别

...程。它涉及提取、转换和加载数据。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是ETL-定义,功能3.数据集成和ETL之间的区别是什么-关键区别的比较 关键术语 大数据、数据集成、数据仓库、ETL 什么是数据集成(data integr...

  • 发布于 2021-07-01 03:55
  • 阅读 ( 604 )

数据冗余(data redundancy)和数据不一致(data inconsistency)的区别

...与数据库管理系统相关的两个术语。 覆盖的关键领域 1.什么是数据冗余-定义,功能2.什么是数据不一致-定义,功能3.数据冗余和数据不一致的区别是什么-关键区别的比较 关键术语 数据不一致,数据冗余 什么是数据冗余(data red...

  • 发布于 2021-07-01 05:22
  • 阅读 ( 1022 )

数据湖(data lake)和数据仓库(data warehouse)的区别

...可视化数据以做出更好决策的系统。 覆盖的关键领域 1.什么是数据湖-定义,功能2.什么是数据仓库-定义,功能3.数据湖和数据仓库的区别是什么-关键区别比较 关键术语 大数据、数据湖、数据集市、数据仓库、ETL 什么是数据湖...

  • 发布于 2021-07-01 08:18
  • 阅读 ( 495 )

数据仓库(data warehouse)和数据集市(data mart)的区别

...完整性和安全性的数据仓库的子集。 覆盖的关键领域 1.什么是数据仓库–定义,功能2.什么是数据集市–定义,功能3.数据仓库和数据集市之间的区别是什么–关键区别的比较 关键术语 数据仓库、数据集市 什么是数据仓库(data ...

  • 发布于 2021-07-01 08:24
  • 阅读 ( 529 )

属性数据(attribute data)和空间数据(spatial data)的区别

...据和空间数据两种类型。 覆盖的关键领域 1.属性数据是什么?定义、功能2.什么是空间数据—定义、功能3.属性数据与空间数据的差异–关键差异比较 关键术语 属性数据、GIS、空间数据 什么是属性数据(attribute data)? 属性数据...

  • 发布于 2021-07-01 14:02
  • 阅读 ( 645 )
钟林高冷
钟林高冷

0 篇文章

相关推荐