数据挖掘(data mining)和数据仓库(data warehousing)的区别

数据挖掘与数据仓库

数据挖掘和数据仓库都是非常强大和流行的数据分析技术。倾向于统计的用户使用数据挖掘。他们利用统计模型来寻找数据中隐藏的模式。数据挖掘者感兴趣的是在不同的数据元素之间寻找有用的关系，这对企业最终是有利可图的。但另一方面，能够直接分析业务维度的数据专家倾向于使用数据仓库。

数据挖掘也称为数据中的知识发现（KDD）。如前所述，它是计算机科学的一个领域，研究从原始数据中提取先前未知和有趣的信息。由于数据的指数级增长，特别是在商业等领域，数据挖掘已经成为将大量数据转化为商业智能的非常重要的工具，因为在过去几十年中，人工提取模式似乎变得不可能。例如，它目前被用于各种应用，如社交网络分析、欺诈检测和营销。数据挖掘通常处理以下四个任务：聚类、分类、回归和关联。从非结构化组中识别相似的数据。分类是可以应用于新数据的学习规则，通常包括以下步骤：数据预处理、建模设计、学习/特征选择和评估/验证。回归是寻找对数据建模误差最小的函数。关联是寻找变量之间的关系。数据挖掘通常用来回答这样的问题：哪些主要产品可能有助于沃尔玛明年获得高利润？

如前所述，数据仓库也用于分析数据，但由不同的用户集和头脑中的目标稍有不同。例如，在零售领域，数据仓库用户更关心的是什么样的购买方式在客户中比较受欢迎，因此分析结果可以通过改善客户体验来帮助客户。但数据挖掘者首先会推测出一个假设，比如顾客购买某种类型的产品，然后对数据进行分析，以验证这一假设。数据仓库可以由一家大型零售商执行，该零售商最初在其门店中储存相同尺寸的产品，后来发现纽约门店销售的库存规模较小，远远快于芝加哥门店。因此，通过观察这个结果，零售商可以在纽约的商店里储存比芝加哥商店更小的尺寸。