数据挖掘与数据仓库
数据挖掘和数据仓库都是非常强大和流行的数据分析技术。倾向于统计的用户使用数据挖掘。他们利用统计模型来寻找数据中隐藏的模式。数据挖掘者感兴趣的是在不同的数据元素之间寻找有用的关系,这对企业最终是有利可图的。但另一方面,能够直接分析业务维度的数据专家倾向于使用数据仓库。
数据挖掘也称为数据中的知识发现(KDD)。如前所述,它是计算机科学的一个领域,研究从原始数据中提取先前未知和有趣的信息。由于数据的指数级增长,特别是在商业等领域,数据挖掘已经成为将大量数据转化为商业智能的非常重要的工具,因为在过去几十年中,人工提取模式似乎变得不可能。例如,它目前被用于各种应用,如社交网络分析、欺诈检测和营销。数据挖掘通常处理以下四个任务:聚类、分类、回归和关联。从非结构化组中识别相似的数据。分类是可以应用于新数据的学习规则,通常包括以下步骤:数据预处理、建模设计、学习/特征选择和评估/验证。回归是寻找对数据建模误差最小的函数。关联是寻找变量之间的关系。数据挖掘通常用来回答这样的问题:哪些主要产品可能有助于沃尔玛明年获得高利润?
如前所述,数据仓库也用于分析数据,但由不同的用户集和头脑中的目标稍有不同。例如,在零售领域,数据仓库用户更关心的是什么样的购买方式在客户中比较受欢迎,因此分析结果可以通过改善客户体验来帮助客户。但数据挖掘者首先会推测出一个假设,比如顾客购买某种类型的产品,然后对数据进行分析,以验证这一假设。数据仓库可以由一家大型零售商执行,该零售商最初在其门店中储存相同尺寸的产品,后来发现纽约门店销售的库存规模较小,远远快于芝加哥门店。因此,通过观察这个结果,零售商可以在纽约的商店里储存比芝加哥商店更小的尺寸。