什么是数据集成?(data integration?)

数据集成是将多个数据源合并为单个数据源。由于不同的数据源可能彼此不兼容,因此这种做法通常非常耗时和复杂。像电子表格上不同列名这样简单的事情就足以要求重新格式化日期。这一过程最常见于两个小组开始时没有联系,但在独立工作后被放在一起的情况。由于免费数据源和在线数据库的普及,数据集成已成为一个更重要的话题。...

数据集成是将多个数据源合并为单个数据源。由于不同的数据源可能彼此不兼容,因此这种做法通常非常耗时和复杂。像电子表格上不同列名这样简单的事情就足以要求重新格式化日期。这一过程最常见于两个小组开始时没有联系,但在独立工作后被放在一起的情况。由于免费数据源和在线数据库的普及,数据集成已成为一个更重要的话题。

Data integration is the merging of multiple data sources into a single data source.

数据集成的数据部分几乎可以是任何东西,只要它存储在计算机系统中。数据的实际内容很少像存储数据的方式那样重要。大多数情况下,数据保存在数据库中,即有组织的信息系统中。这些系统包含独特的条目和字段,允许用户快速查找信息。

任何数据集成过程的最大障碍是数据本身。在许多情况下,当数据首次设置时,并不打算将数据集与另一个数据集合并。这意味着,即使两个数据集可能引用同一事物,它们也是完全不兼容的。

几乎任何东西都会使数据库不兼容。一些简单的东西,比如字段顺序或列宽等表示方式的差异,就足以防止简单的合并。当数据显著不同时,例如一个数据库包含更多或更少的信息,则合并会困难得多。

最需要数据集成的两种情况是在业务和研究领域。在商业世界中,合并部门或公司需要将以前分离的信息合并到单个结构中。这种形式的集成通常非常困难,除非原始组使用类似的软件并具有类似的信息目标。

当为研究目的进行数据集成时,通常会更加顺利。当一名研究人员向另一名研究人员提供其信息时,双方通常都在研究同一过程。这意味着他们将使用类似的方法对数据进行编目和存储。

在过去,数据集成是数据研究中一个相对次要的领域,但自21世纪初以来,情况发生了变化。随着免费在线数据库变得越来越流行和准确,公司正争先恐后地以可共享的格式获取信息。这使他们能够以公共形式发布信息,并将知名公共接口的私有版本集成到系统中。

  • 发表于 2021-12-13 12:52
  • 阅读 ( 124 )
  • 分类:互联网

你可能感兴趣的文章

应用程序编程接口(api)和集成(integration)的区别

...人可能意味着不同的东西,但它们的意义是相同的。   什么是应用程序编程接口(api)(application programming interface (api))? API是应用程序编程接口(applicationprogramminginterface)的缩写,顾名思义,它是一种软件对软件的接口,定...

  • 发布于 2021-06-26 08:07
  • 阅读 ( 663 )

etl公司(etl)和数据仓库(data warehouse)的区别

...据仓库的区别就源于这个基本概念。 覆盖的关键领域 1.什么是ETL–定义,功能2.什么是数据仓库–定义,功能3.ETL和数据仓库的区别是什么–关键区别的比较 关键术语 数据仓库 什么是etl公司(etl)? ETL代表提取、转换和加载。在...

  • 发布于 2021-07-01 03:18
  • 阅读 ( 463 )

单元测试(unit testing)和集成测试(integration testing)的区别

...。其中两个是单元测试和集成测试。 覆盖的关键领域 1.什么是单元测试-定义,功能2.什么是集成测试-定义,功能3.单元测试和集成测试之间的区别是什么-关键区别的比较 关键术语 集成测试,单元测试 什么是单元测试(unit testin...

  • 发布于 2021-07-01 07:41
  • 阅读 ( 1071 )

系统测试(system testing)和系统集成测试(system integration testing)的区别

...测试涉及到系统中一组模块的测试。 覆盖的关键领域 1.什么是系统测试-定义,功能2.什么是系统集成测试-定义,功能3.系统测试和系统集成测试之间的区别是什么-关键区别的比较 关键术语 软测试、系统测试、系统集成测试 什...

  • 发布于 2021-07-01 07:45
  • 阅读 ( 864 )

数据湖(data lake)和数据仓库(data warehouse)的区别

...可视化数据以做出更好决策的系统。 覆盖的关键领域 1.什么是数据湖-定义,功能2.什么是数据仓库-定义,功能3.数据湖和数据仓库的区别是什么-关键区别比较 关键术语 大数据、数据湖、数据集市、数据仓库、ETL 什么是数据湖...

  • 发布于 2021-07-01 08:18
  • 阅读 ( 499 )

数据集成(data integration)和数据迁移(data migration)的区别

...和数据迁移是两个涉及数据的过程。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是数据迁移-定义,功能3.数据集成和数据迁移的区别-主要区别比较 关键术语 大数据、数据库、数据集成、数据迁移 什么是数据集成(data ...

  • 发布于 2021-07-01 22:11
  • 阅读 ( 450 )

综合服务(integrated services)和差异化服务(differentiated services)的区别

...了两种服务:集成服务和区分服务。 覆盖的关键领域 1.什么是集成服务-定义,功能2.什么是差异化服务-定义,功能3.集成服务和差异化服务的区别-主要区别比较 关键术语 差异化服务、综合服务 什么是综合服务(integrated services)...

  • 发布于 2021-07-02 01:42
  • 阅读 ( 367 )

数据完整性(data integrity)和数据冗余(data redundancy)的区别

...数据冗余是与数据相关的两个术语。 覆盖的关键领域 1.什么是数据完整性-定义,功能2.什么是数据冗余-定义,功能3.数据完整性和数据冗余之间的差异-关键差异比较 关键术语 Data Accuracy, Data Integrity, Data Redundancy 什么是数据完整...

  • 发布于 2021-07-02 02:20
  • 阅读 ( 658 )

系统测试(system testing)和系统集成测试(system integration testing)的区别

什么是集成测试(integration testing)? 集成测试有时被称为集成与测试(I&T),是软件测试的一个级别,其中单个软件模块以逻辑方式组合并作为一个组进行测试。此类测试的基本目的是检测集成单元之间交...

  • 发布于 2021-11-29 17:27
  • 阅读 ( 209 )

什么是集成芯片组?(an integrated chipset?)

集成芯片组通常是在讨论计算机时使用的一个术语,指的是一种内置在主板上并随主板一起标配的芯片。虽然它可能有许多不同的含义,但最常见的用法是指计算机上的图...

  • 发布于 2021-12-11 14:24
  • 阅读 ( 101 )