聚类与分类的关键区别在于,聚类是一种基于特征对相似实例进行分组的无监督学习技术,而分类是一种基于特征为实例分配预定义标签的监督学习技术。
尽管聚类和分类看起来是相似的过程,但基于它们的含义,它们之间还是有区别的。在数据挖掘领域,聚类和分类是两种类型的学习方法。这两种方法都通过一个或多个特征将对象特征化为组。
目录
1. 概述和主要区别
2. 什么是群集
3.什么是分类
4. 并列比较-聚类与表格形式的分类
5.摘要
什么是聚类(clustering)?
聚类是一种对对象进行分组的方法,使具有相似特征的对象**在一起,而具有不同特征的对象分开。它是机器学习和数据挖掘中常用的统计数据分析技术。探索性数据分析和泛化也是使用聚类的一个领域。
聚类属于无监督数据挖掘。它不是一个单一的特定算法,但它是解决一个任务的通用方法。因此,可以使用各种算法来实现聚类。适当的聚类算法和参数设置取决于各个数据集。这不是一个自动的任务,但它是一个迭代的发现过程。因此,有必要对数据处理和参数建模进行修改,直到结果达到预期的性能。K均值聚类和层次聚类是数据挖掘中常用的两种聚类算法。
什么是分类(classification)?
分类是使用一组训练数据来识别、区分和理解对象的分类过程。分类是一种有监督的学习技术,其中训练集和正确定义的观测值是可用的。
实现分类的算法是分类器,而观察是实例。K-最近邻算法和决策树算法是数据挖掘中最著名的分类算法。
聚类(clustering)和分类(classification)的区别
聚类是一种无监督学习,而分类是一种有监督的学习技术。它根据特征对相似的实例进行分组,而分类则根据特征为实例分配预定义的标记。聚类将数据集拆分为子集,以将具有相似特征的实例分组。它不使用带标签的数据或训练集。另一方面,根据训练集的观察结果对新数据进行分类。训练集已标记。
聚类的目标是对一组对象进行分组,以确定它们之间是否存在任何关系,而分类的目标是从预定义的类集合中找出新对象属于哪个类。