聚类(clustering)和分类(classification)的区别

聚类与分类的关键区别在于，聚类是一种基于特征对相似实例进行分组的无监督学习技术，而分类是一种基于特征为实例分配预定义标签的监督学习技术。

尽管聚类和分类看起来是相似的过程，但基于它们的含义，它们之间还是有区别的。在数据挖掘领域，聚类和分类是两种类型的学习方法。这两种方法都通过一个或多个特征将对象特征化为组。

什么是聚类(clustering)？

聚类是一种对对象进行分组的方法，使具有相似特征的对象**在一起，而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。探索性数据分析和泛化也是使用聚类的一个领域。

图01：聚类

聚类属于无监督数据挖掘。它不是一个单一的特定算法，但它是解决一个任务的通用方法。因此，可以使用各种算法来实现聚类。适当的聚类算法和参数设置取决于各个数据集。这不是一个自动的任务，但它是一个迭代的发现过程。因此，有必要对数据处理和参数建模进行修改，直到结果达到预期的性能。K均值聚类和层次聚类是数据挖掘中常用的两种聚类算法。

什么是分类(classification)？

分类是使用一组训练数据来识别、区分和理解对象的分类过程。分类是一种有监督的学习技术，其中训练集和正确定义的观测值是可用的。

图02：分类

实现分类的算法是分类器，而观察是实例。K-最近邻算法和决策树算法是数据挖掘中最著名的分类算法。

聚类(clustering)和分类(classification)的区别

聚类是一种无监督学习，而分类是一种有监督的学习技术。它根据特征对相似的实例进行分组，而分类则根据特征为实例分配预定义的标记。聚类将数据集拆分为子集，以将具有相似特征的实例分组。它不使用带标签的数据或训练集。另一方面，根据训练集的观察结果对新数据进行分类。训练集已标记。

聚类的目标是对一组对象进行分组，以确定它们之间是否存在任何关系，而分类的目标是从预定义的类集合中找出新对象属于哪个类。

聚类(clustering)和分类(classification)的区别

总结 - 聚类(clustering) vs. 分类(classification)

Image Courtesy:

1.”Cluster-2″ by Cluster-2.gif: hellisp derivative work: (Public Domain) via Wikimedia Comm*** 2.”Magneti**” by John Aplessed – Own work. (Public Domain) via Wikimedia Comm***