聚類(clustering)和分類(classification)的區別

聚類和分類技術被用於機器學習、資訊檢索、影象調查和相關任務中。...

聚類和分類技術被用於機器學習、資訊檢索、影象調查和相關任務中。

這兩種策略是資料探勘過程的兩個主要部分。在資料分析領域,這些是管理演算法所必需的。具體來說,這兩個過程都將資料劃分為多個集合。這項任務在當今的資訊時代非常重要,因為資料的大量增加加上開發需要適當地加以促進。

值得註意的是,聚類和分類有助於透過資料科學解決犯罪、貧困和疾病等全球性問題。

聚類(clustering)和分類(classification)的區別

什麼是聚類(clustering)?

基本上,聚類涉及到根據相似性對資料進行分組。它主要涉及距離度量和聚類演算法,這些演算法計算資料之間的差異並對它們進行系統劃分。

例如,學習風格相似的學生被分組在一起,與學習方法不同的學生分開授課。在資料探勘中,聚類最常被稱為“無監督學習技術”,因為聚類是基於一個自然的或固有的特徵。

它應用於資訊科技、生物學、犯罪學和醫學等多個科學領域。

聚類特徵:

  • 沒有確切的定義

聚類沒有精確的定義,這就是為什麼有各種聚類演算法或聚類模型。粗略地說,這兩種聚類是硬聚類和軟聚類。硬聚類涉及到將一個物件標記為是否僅僅屬於一個聚類。相比之下,軟聚類或模糊聚類指定了某個事物如何屬於某個組的程度。

  • 難以評估

由於聚類分析固有的不精確性,其結果的驗證或評價往往難以確定。

  • 無監督的

由於它是一種無監督的學習策略,因此本文的分析僅基於當前的特點;因此,不需要嚴格的監管。

聚類(clustering)和分類(classification)的區別

什麼是分類(classification)?

分類需要為現有的情況或類別分配標簽;因此,術語“分類”。例如,表現出某些學習特徵的學生被歸類為視覺學習者。

分類也被稱為“監督學習技術”,機器從已經標記或分類的資料中學習。它非常適用於模式識別、統計和生物特徵識別。

分類特點

  • 使用“分類器”

為了分析資料,分類器是一種定義的演算法,它具體地將資訊對映到特定的類。例如,分類演算法將訓練一個模型來識別某個細胞是惡性的還是良性的。

  • 透過通用指標進行評估

分類分析的質量通常是透過精度和召回來評估的,這是一種流行的度量方法。對分類器在識別輸出時的精度和靈敏度進行了評估。

  • 被監督的

分類是一種有監督的學習技術,因為它根據可比較的特徵分配先前確定的身份。它從一個帶標簽的訓練集匯出一個函式。

聚類與分類的區別

  1. 監督

主要區別在於聚類是無監督的,被認為是“自學習”,而分類是有監督的,因為它依賴於預定義的標簽。

  1. 訓練集的使用

聚類並不尖銳地使用訓練集,訓練集是用來生成分組的例項組,而分類迫切需要訓練集來識別相似的特徵。

  1. 標記

聚類處理未標記的資料,因為它不需要訓練。另一方面,分類處理過程中的未標記和標記資料。

  1. 目標

聚類的目的是縮小物件之間的關係,從隱藏的模式中學習新的資訊,而分類的目的是確定某個物件屬於哪個顯式組。

  1. 細節

雖然分類並沒有指定需要學習什麼,但是聚類指定了所需的改進,因為它透過考慮資料之間的相似性來指出差異。

  1. 階段

一般來說,聚類只包括一個階段(分組),而分類分為兩個階段:訓練階段(模型從訓練資料集中學習)和測試階段(目標類被預測)。

  1. 邊界條件

與聚類相比,邊界條件的確定在分類過程中非常重要。例如,在建立分類時,需要知道“低”與“中等”和“高”的百分比範圍。

  1. 預測

與聚類相比,分類更多地涉及到預測,因為它特別旨在識別目標類。例如,這可以應用於“面部關鍵點檢測”,因為它可以用於預測某個證人是否撒謊。

  1. 複雜性

由於分類包含更多的階段,涉及預測,涉及程度或層次,因此與聚類相比,分類的性質更為複雜,聚類主要涉及相似屬性的分組。

  1. 或然演算法數

聚類演算法主要是線性和非線性的,而分類則由線性分類器、神經網路、核估計、決策樹和支援向量機等演算法工具組成。

聚類(clustering) vs. 分類:比較聚類和分類差異的表格(classification: table comparing the difference between clustering and classification)

聚類 分類
無監督資料 監督資料
不高度重視訓練集 是否高度重視訓練集
僅適用於未標記的資料 涉及未標記和標記的資料
旨在識別資料之間的相似性 旨在驗證資料所屬的位置
指定所需的更改 未指定所需的改進
有單相 有兩個階段
確定邊界條件並不重要 確定邊界條件是執行階段的關鍵
一般不涉及預測 處理預測
主要採用兩種演算法 有許多可能的演算法可供使用
過程不那麼複雜 過程更複雜

總結 - 論聚類(on clustering) vs. 分類(classification)

  • 聚類分析和分類分析在資料探勘過程中得到了廣泛的應用。
  • 這些技術應用於解決全球問題所必需的各種科學領域。
  • 聚類主要處理無監督資料;因此,未標記分類與監督資料一起工作;因此,標記。這是聚類不需要訓練集而分類需要訓練集的主要原因之一。
  • 與聚類相比,與分類相關的演算法更多。
  • 聚類旨在驗證資料之間的相似性或不相似性,而分類則側重於確定資料的“類”或組。這使得聚類過程更側重於邊界條件,分類分析更複雜,因為它涉及更多的階段。
  • 發表於 2021-06-25 04:13
  • 閱讀 ( 52 )
  • 分類:網際網路

你可能感興趣的文章

分類(classification)和二項式命名法(binomial nomenclature)的區別

...較——表格形式的分類與二項命名法 6. 摘要 什麼是分類(classification)? 分類是根據相似性和不同性對生物體進行分組。它把生物組織成群,因此很容易對它們進行研究。分類是分類學中最重要的組成部分之一。有不同級別的分...

  • 發佈於 2020-09-22 04:52
  • 閲讀 ( 44 )

銀行程式碼(swift code)和分類程式碼(sort code)的區別

...,瞭解SWIFT碼與分類碼的區別是非常有益的。SWIFT程式碼和分類程式碼是與銀行業務相關的兩個術語,尤其是在轉賬時。SWIFT程式碼和分類程式碼是兩種用於轉賬的方式。此外,這兩種密碼是方便和安全地轉賬的有用方法。如果兩...

  • 發佈於 2020-10-07 08:57
  • 閲讀 ( 106 )

upgma公司(upgma)和鄰接連線樹(neighbor joining tree)的區別

... 摘要 什麼是upgma公司(upgma)? 在生物資訊學中,有不同的聚類技術。UPGMA代表未加權對組方法和算術平均數。它是一種分層分組方法。這種方法是由索卡爾和米切納介紹的。這是發展系統進化樹的最快技術。由此產生的系統發生...

  • 發佈於 2020-10-15 16:37
  • 閲讀 ( 78 )

酚類(phenetics)和分支學(cladistics)的區別

...學有助於對各種系統進行分類,同時有助於對生物體進行聚類和分組。在這一點上,酚類和支系學在建立生物體之間的關係方面起著重要作用。 目錄 1. 概述和主要區別 2. 什麼是酚類 3. 什麼是分支學 4. 酚類與分支學的相似性 5. ...

  • 發佈於 2020-10-16 02:54
  • 閲讀 ( 60 )

被監督的(supervised)和無監督機器學習(unsupervised machine learning)的區別

...器學習相關的演算法有很多種。其中一些是迴歸、分類和聚類。開發基於機器學習的應用程式最常用的程式語言是R和Python。也可以使用其他語言,如java、C++和MATLAB。 目錄 1. 概述和主要區別 2. 什麼是監督學習 3. 什麼是無監督學...

  • 發佈於 2020-10-19 03:49
  • 閲讀 ( 51 )

叢生的(clustered)和非聚集索引(nonclustered index)的區別

...–以表格形式顯示**索引與非**索引 6. 摘要 什麼是**索引(clustered index)? 在**索引中,索引組織實際資料。它類似於電話簿。電話號碼是按字母順序排列的。在搜尋特定姓名時,可以找到相應的電話號碼。因此,聚類索引以有組...

  • 發佈於 2020-10-19 06:34
  • 閲讀 ( 48 )

分類(classification)和迴歸(regression)的區別

... 4. 並列比較-分類與表格形式的迴歸 5. 摘要 什麼是分類(classification)? 分類是一種用於獲得示意圖的技術,該示意圖顯示以前體變數開始的資料組織。因變數是對資料進行分類的變數。 圖01:資料探勘 分類樹從自變數開始,根...

  • 發佈於 2020-10-23 10:08
  • 閲讀 ( 53 )

分類學(taxonomy)和分類學(systematics)的區別

...科,而分類學是研究物種多樣性的生物學領域。 分類學和分類學是生物學中密切相關的學科。然而,分類學和分類學之間有著有趣的區別。因為這兩者非常相似,我們中的許多人都希望它們具有相似的含義。因此,有必要對這...

  • 發佈於 2020-10-23 22:53
  • 閲讀 ( 47 )

分類(classification)和預測(prediction)的區別

分類(classification)和預測(prediction)的區別 分類和預測是與資料探勘相關的兩個術語。資料對於幾乎所有的組織來說都是重要的,以增加利潤和了解市場。純資料沒有多大價值。因此,為了得到有用的資訊,應該對資料進行處理...

  • 發佈於 2020-10-24 01:57
  • 閲讀 ( 103 )

二分鍵(dichotomous key)和分類關鍵字(taxonomic key)的區別

二分鍵和分類鍵的關鍵區別在於,二分鍵是最常用的識別鍵,它有助於識別未知個體,而分類鍵是用來識別特定物件的簡單工具。 金鑰是一種可以用來識別生物體的工具。它包含有關物種的資訊。因此,鑰匙的主要目的是便...

  • 發佈於 2020-11-02 16:06
  • 閲讀 ( 60 )
alkzwc481
alkzwc481

0 篇文章

作家榜

  1. admin 0 文章
  2. 孫小欽 0 文章
  3. JVhby0 0 文章
  4. fvpvzrr 0 文章
  5. 0sus8kksc 0 文章
  6. zsfn1903 0 文章
  7. w91395898 0 文章
  8. SuperQueen123 0 文章

相關推薦