資料探勘(data mining)和資料倉庫(data warehousing)的區別

數據挖掘與數據倉庫

數據挖掘和數據倉庫都是非常強大和流行的數據分析技術。傾向於統計的用戶使用數據挖掘。他們利用統計模型來尋找數據中隱藏的模式。數據挖掘者感興趣的是在不同的數據元素之間尋找有用的關係，這對企業最終是有利可圖的。但另一方面，能夠直接分析業務維度的數據專家傾向於使用數據倉庫。

數據挖掘也稱為數據中的知識發現（KDD）。如前所述，它是計算機科學的一個領域，研究從原始數據中提取先前未知和有趣的信息。由於數據的指數級增長，特別是在商業等領域，數據挖掘已經成為將大量數據轉化為商業智能的非常重要的工具，因為在過去幾十年中，人工提取模式似乎變得不可能。例如，它目前被用於各種應用，如社交網絡分析、欺詐檢測和營銷。數據挖掘通常處理以下四個任務：聚類、分類、迴歸和關聯。從非結構化組中識別相似的數據。分類是可以應用於新數據的學習規則，通常包括以下步驟：數據預處理、建模設計、學習/特徵選擇和評估/驗證。迴歸是尋找對數據建模誤差最小的函數。關聯是尋找變量之間的關係。數據挖掘通常用來回答這樣的問題：哪些主要產品可能有助於沃爾瑪明年獲得高利潤？

如前所述，數據倉庫也用於分析數據，但由不同的用戶集和頭腦中的目標稍有不同。例如，在零售領域，數據倉庫用戶更關心的是什麼樣的購買方式在客戶中比較受歡迎，因此分析結果可以通過改善客戶體驗來幫助客戶。但數據挖掘者首先會推測出一個假設，比如顧客購買某種類型的產品，然後對數據進行分析，以驗證這一假設。數據倉庫可以由一家大型零售商執行，該零售商最初在其門店中儲存相同尺寸的產品，後來發現紐約門店銷售的庫存規模較小，遠遠快於芝加哥門店。因此，通過觀察這個結果，零售商可以在紐約的商店裡儲存比芝加哥商店更小的尺寸。

資料探勘(data mining)和資料倉庫(data warehousing)的區別

你可能感興趣的文章

資料庫(database)和資料倉庫(data warehouse)的區別

資料探勘(data mining)和機器學習(machine learning)的區別

檔案系統(filesystem)和資料庫(database)的區別

資料(data)和資訊(information)的區別

資料倉儲(data warehousing)和資料集市(data marts)的區別

emc公司(emc)和網路儲存(netapp)的區別

移動資料(mobile data)和資料漫遊(data roaming)的區別

作家榜

相關推薦