聚類(clustering)和分類(classification)的區別

聚類與分類的關鍵區別在於，聚類是一種基於特徵對相似實例進行分組的無監督學習技術，而分類是一種基於特徵為實例分配預定義標籤的監督學習技術。

儘管聚類和分類看起來是相似的過程，但基於它們的含義，它們之間還是有區別的。在數據挖掘領域，聚類和分類是兩種類型的學習方法。這兩種方法都通過一個或多個特徵將對象特徵化為組。

什麼是聚類(clustering)？

聚類是一種對對象進行分組的方法，使具有相似特徵的對象**在一起，而具有不同特徵的對象分開。它是機器學習和數據挖掘中常用的統計數據分析技術。探索性數據分析和泛化也是使用聚類的一個領域。

圖01：聚類

聚類屬於無監督數據挖掘。它不是一個單一的特定算法，但它是解決一個任務的通用方法。因此，可以使用各種算法來實現聚類。適當的聚類算法和參數設置取決於各個數據集。這不是一個自動的任務，但它是一個迭代的發現過程。因此，有必要對數據處理和參數建模進行修改，直到結果達到預期的性能。K均值聚類和層次聚類是數據挖掘中常用的兩種聚類算法。

什麼是分類(classification)？

分類是使用一組訓練數據來識別、區分和理解對象的分類過程。分類是一種有監督的學習技術，其中訓練集和正確定義的觀測值是可用的。

圖02：分類

實現分類的算法是分類器，而觀察是實例。K-最近鄰算法和決策樹算法是數據挖掘中最著名的分類算法。

聚類(clustering)和分類(classification)的區別

聚類是一種無監督學習，而分類是一種有監督的學習技術。它根據特徵對相似的實例進行分組，而分類則根據特徵為實例分配預定義的標記。聚類將數據集拆分為子集，以將具有相似特徵的實例分組。它不使用帶標籤的數據或訓練集。另一方面，根據訓練集的觀察結果對新數據進行分類。訓練集已標記。

聚類的目標是對一組對象進行分組，以確定它們之間是否存在任何關係，而分類的目標是從預定義的類集合中找出新對象屬於哪個類。

聚類(clustering)和分類(classification)的區別

總結 - 聚類(clustering) vs. 分類(classification)

Image Courtesy:

1.”Cluster-2″ by Cluster-2.gif: hellisp derivative work: (Public Domain) via Wikimedia Comm*** 2.”Magneti**” by John Aplessed – Own work. (Public Domain) via Wikimedia Comm***