KDD與數據挖掘
KDD(knowledgediscoveryingindatabases)是計算機科學的一個領域,它包括幫助人類從大量的數字化數據中提取有用的和以前未知的信息(即知識)的工具和理論。KDD包括幾個步驟,數據挖掘就是其中之一。數據挖掘是應用特定的算法從數據中提取模式。儘管如此,KDD和數據挖掘是可以互換使用的。
什麼是KDD?
如上所述,KDD是計算機科學的一個領域,它處理從原始數據中提取先前未知和有趣的信息。KDD是通過開發適當的方法或技術來嘗試理解數據的整個過程。這個過程處理的是將低級數據映射到其他更緊湊、抽象和有用的形式。這是通過創建短報告、對生成數據的過程進行建模以及開發可以預測未來病例的預測模型來實現的。由於數據的指數級增長,特別是在商業等領域,KDD已經成為將大量數據轉化為商業智能的一個非常重要的過程,因為在過去幾十年中,人工提取模式似乎變得不可能。例如,它目前被用於各種應用,如社會網絡分析、欺詐檢測、科學、投資、**、電信、數據清理、體育、信息檢索等,而且主要用於市場營銷。KDD通常用來回答這樣的問題:哪些主要產品可能有助於明年在沃爾瑪獲得高利潤?。這個過程有幾個步驟。它從瞭解應用程序域和目標開始,然後創建目標數據集。接下來是數據的清理、預處理、縮減和投影。下一步是使用數據挖掘(下面解釋)來識別模式。最後,發現的知識通過可視化和/或解釋來鞏固。
什麼是數據挖掘?
如上所述,數據挖掘只是整個KDD過程中的一個步驟。應用程序的目標定義了兩個主要的數據挖掘目標,即驗證或發現。驗證是驗證用戶對數據的假設,而發現是自動發現有趣的模式。有四個主要的數據挖掘任務:聚類、分類、迴歸和關聯(摘要)。聚類是從非結構化數據中識別相似的組。分類是學習可以應用於新數據的規則。迴歸是尋找對數據建模誤差最小的函數。關聯是尋找變量之間的關係。然後,需要選擇具體的數據挖掘算法。根據目標,可以選擇線性迴歸、logistic迴歸、決策樹和樸素貝葉斯等不同的算法。然後在一個或多個表示形式中搜索感興趣的模式。最後,使用預測精度或可理解性對模型進行評估。
KDD和數據挖掘有什麼區別?