聚类分析及其在科研中的应用

聚类分析是一种统计技术，用于确定不同单位（如人、群体或社会）如何因其共同特征而组合在一起。也称为聚类，它是一种探索性的数据分析工具，旨在将不同的对象分成不同的组，当它们属于同一组时，它们的关联度最大；当它们不属于同一组时，它们的关联度最小。与其他一些统计技术不同，通过聚类分析发现的结构不需要解释或解释——它发现数据中的结构而不解释它们存在的原因。...

People sorted into groups by color represent the statistical technique of cluster analysis

什么是群集(clustering)？

聚类几乎存在于我们日常生活的每个方面。以杂货店的物品为例。不同类型的物品总是显示在相同或附近的位置——肉类、蔬菜、苏打水、谷类食品、纸制品等。研究人员通常希望对数据进行同样的处理，并将对象或主题分组成有意义的集群。

以社会科学为例，假设我们正在研究国家，并希望根据分工、军事、技术或受过教育的人口等特征将其分组。我们会发现，英国、日本、法国、德国和美国具有相似的特征，并且会聚集在一起。乌干达、尼加拉瓜和巴基斯坦也将被归为不同的群体，因为它们具有不同的特征，包括低财富水平、简单的劳动分工、相对不稳定和不民主的政治制度以及低技术发展。

当研究者没有任何预先设想的假设时，聚类分析通常用于研究的探索阶段。它通常不是唯一使用的统计方法，而是在项目的早期阶段进行的，以帮助指导其余的分析。因此，显著性检验通常既不相关也不适当。

有几种不同类型的聚类分析。最常用的两种方法是K-均值聚类和层次聚类。

k-均值聚类

K-means聚类将数据中的观测值视为彼此具有位置和距离的对象（注意，聚类中使用的距离通常不表示空间距离）。它将对象划分为K个相互排斥的簇，以便每个簇中的对象尽可能彼此接近，同时尽可能远离其他簇中的对象。然后，每个簇以其平均值或中心点为特征。

层次聚类

层次聚类是一种在不同尺度和距离上同时调查数据分组的方法。它通过创建具有不同级别的集群树来实现这一点。与K-means聚类不同，树不是一组单独的聚类。相反，树是一个多级层次结构，其中一个级别的集群作为下一个更高级别的集群连接。使用的算法从单独集群中的每个案例或变量开始，然后组合集群，直到只剩下一个。这使研究人员能够决定什么样的聚类水平最适合他或她的研究。

执行聚类分析

大多数统计软件程序都可以执行聚类分析。在SPSS中，从菜单中选择分析，然后进行分类和聚类分析。在SAS中，可以使用proc cluster功能。

更新：Nicki Lisa Cole博士。

发表于 2021-10-03 03:04
阅读 ( 290 )
分类：数学

你可能感兴趣的文章

酚类(phenetics)和分支学(cladistics)的区别

...学有助于对各种系统进行分类，同时有助于对生物体进行聚类和分组。在这一点上，酚类和支系学在建立生物体之间的关系方面起着重要作用。目录 1. 概述和主要区别 2. 什么是酚类 3. 什么是分支学 4. 酚类与分支学的相似性 5. ...

发布于 2020-10-16 02:54
阅读 ( 345 )

被监督的(supervised)和无监督机器学习(unsupervised machine learning)的区别

...机器学习相关的算法有很多种。其中一些是回归、分类和聚类。开发基于机器学习的应用程序最常用的编程语言是R和Python。也可以使用其他语言，如java、C++和MATLAB。目录 1. 概述和主要区别 2. 什么是监督学习 3. 什么是无监督学...

发布于 2020-10-19 03:49
阅读 ( 711 )

聚类(clustering)和分类(classification)的区别

聚类与分类的关键区别在于，聚类是一种基于特征对相似实例进行分组的无监督学习技术，而分类是一种基于特征为实例分配预定义标签的监督学习技术。尽管聚类和分类看起来是相似的过程，但基于它们的含义，它们之间...

发布于 2020-10-28 16:16
阅读 ( 540 )

宏达电启动新项目为科研捐赠处理器电源

今天在世界移动大会上，HTC宣布了一个雄心勃勃的分布式计算项目，该项目将利用空闲的计算周期进行进一步的科学研究。该项目与伯克利开放式网络计算基础设施（BOINC）合作，将利用空闲的计算周期来处理处理器密集型的科...

发布于 2021-04-25 10:26
阅读 ( 60 )

斐波那契簇

什么是斐波那契簇(fibonacci clusters)？ Fibonacci聚类是一组基于不同价格波动的Fibonacci回溯或延伸水平在一个价格区域附近**。集群理论认为，如果多个斐波那契延伸或回溯水平接近一个价格，该价格可能是一个重要的支撑或阻力区...

发布于 2021-06-14 16:39
阅读 ( 125 )

聚类(clustering)和分类(classification)的区别

聚类和分类技术被用于机器学习、信息检索、图像调查和相关任务中。这两种策略是数据挖掘过程的两个主要部分。在数据分析领域，这些是管理算法所必需的。具体来说，这两个过程都将数据划分为多个集合。这项任务在当...

发布于 2021-06-25 04:13
阅读 ( 685 )

如何illumina测序工作(illumina sequencing work)

...段。Illumina测序工作流程涉及的四个基本步骤是库准备、聚类生成、测序和数据分析，本文将对此进行进一步描述。覆盖的关键领域 1.什么是Illumina测序-定义、事实、优势2.Illumina测序如何工作-Illumina测序过程：–文库准备–...

发布于 2021-06-30 14:04
阅读 ( 171 )

数据挖掘(data mining)和数据仓库(data warehousing)的区别

...使数据适合于数据挖掘。第三步是数据挖掘。它使用诸如聚类、回归、分类等技术或算法来提取数据的模式。第四步是模式评估。它检查获得的输出的准确性。最后一步是用图表表示结果。 Figure 1: Data Mining 进行数据挖掘的主要...

发布于 2021-06-30 17:39
阅读 ( 503 )

机器学习(machine learning)和神经网络(neural networks)的区别

...不需要训练算法。相反，它自己发现输入数据中的模式。聚类是一种主要的无监督学习算法。它标识相似的实例并将它们分组以创建集群。通常，无监督学习比有监督学习困难。简言之，机器学习有助于开发系统，可以学习和执...

发布于 2021-06-30 18:24
阅读 ( 909 )

upgma公司(upgma)和邻居连接树(neighbor joining tree)的区别

...树的主要区别在于UPGMA是一种基于平均连锁法的凝聚层次聚类方法，而邻接树是一种基于最小进化准则的迭代聚类方法。此外，UPGMA生成有根系统发育树，邻接树生成无根系统发育树。由于UPGMA方法假设进化速率相等，分支尖端的...

发布于 2021-07-02 03:03
阅读 ( 291 )