數據挖掘與數據倉庫
數據挖掘和數據倉庫都是非常強大和流行的數據分析技術。傾向於統計的用戶使用數據挖掘。他們利用統計模型來尋找數據中隱藏的模式。數據挖掘者感興趣的是在不同的數據元素之間尋找有用的關係,這對企業最終是有利可圖的。但另一方面,能夠直接分析業務維度的數據專家傾向於使用數據倉庫。
數據挖掘也稱為數據中的知識發現(KDD)。如前所述,它是計算機科學的一個領域,研究從原始數據中提取先前未知和有趣的信息。由於數據的指數級增長,特別是在商業等領域,數據挖掘已經成為將大量數據轉化為商業智能的非常重要的工具,因為在過去幾十年中,人工提取模式似乎變得不可能。例如,它目前被用於各種應用,如社交網絡分析、欺詐檢測和營銷。數據挖掘通常處理以下四個任務:聚類、分類、迴歸和關聯。從非結構化組中識別相似的數據。分類是可以應用於新數據的學習規則,通常包括以下步驟:數據預處理、建模設計、學習/特徵選擇和評估/驗證。迴歸是尋找對數據建模誤差最小的函數。關聯是尋找變量之間的關係。數據挖掘通常用來回答這樣的問題:哪些主要產品可能有助於沃爾瑪明年獲得高利潤?
如前所述,數據倉庫也用於分析數據,但由不同的用戶集和頭腦中的目標稍有不同。例如,在零售領域,數據倉庫用戶更關心的是什麼樣的購買方式在客戶中比較受歡迎,因此分析結果可以通過改善客戶體驗來幫助客戶。但數據挖掘者首先會推測出一個假設,比如顧客購買某種類型的產品,然後對數據進行分析,以驗證這一假設。數據倉庫可以由一家大型零售商執行,該零售商最初在其門店中儲存相同尺寸的產品,後來發現紐約門店銷售的庫存規模較小,遠遠快於芝加哥門店。因此,通過觀察這個結果,零售商可以在紐約的商店裡儲存比芝加哥商店更小的尺寸。