聚类分析及其在科研中的应用

聚类分析是一种统计技术,用于确定不同单位(如人、群体或社会)如何因其共同特征而组合在一起。也称为聚类,它是一种探索性的数据分析工具,旨在将不同的对象分成不同的组,当它们属于同一组时,它们的关联度最大;当它们不属于同一组时,它们的关联度最小。与其他一些统计技术不同,通过聚类分析发现的结构不需要解释或解释——它发现数据中的结构而不解释它们存在的原因。...

聚类分析是一种统计技术,用于确定不同单位(如人、群体或社会)如何因其共同特征而组合在一起。也称为聚类,它是一种探索性的数据分析工具,旨在将不同的对象分成不同的组,当它们属于同一组时,它们的关联度最大;当它们不属于同一组时,它们的关联度最小。与其他一些统计技术不同,通过聚类分析发现的结构不需要解释或解释——它发现数据中的结构而不解释它们存在的原因。

People sorted into groups by color represent the statistical technique of cluster analysis

什么是群集(clustering)?

聚类几乎存在于我们日常生活的每个方面。以杂货店的物品为例。不同类型的物品总是显示在相同或附近的位置——肉类、蔬菜、苏打水、谷类食品、纸制品等。研究人员通常希望对数据进行同样的处理,并将对象或主题分组成有意义的集群。

以社会科学为例,假设我们正在研究国家,并希望根据分工、军事、技术或受过教育的人口等特征将其分组。我们会发现,英国、日本、法国、德国和美国具有相似的特征,并且会聚集在一起。乌干达、尼加拉瓜和巴基斯坦也将被归为不同的群体,因为它们具有不同的特征,包括低财富水平、简单的劳动分工、相对不稳定和不民主的政治制度以及低技术发展。

当研究者没有任何预先设想的假设时,聚类分析通常用于研究的探索阶段。它通常不是唯一使用的统计方法,而是在项目的早期阶段进行的,以帮助指导其余的分析。因此,显著性检验通常既不相关也不适当。

有几种不同类型的聚类分析。最常用的两种方法是K-均值聚类和层次聚类。

k-均值聚类

K-means聚类将数据中的观测值视为彼此具有位置和距离的对象(注意,聚类中使用的距离通常不表示空间距离)。它将对象划分为K个相互排斥的簇,以便每个簇中的对象尽可能彼此接近,同时尽可能远离其他簇中的对象。然后,每个簇以其平均值或中心点为特征。

层次聚类

层次聚类是一种在不同尺度和距离上同时调查数据分组的方法。它通过创建具有不同级别的集群树来实现这一点。与K-means聚类不同,树不是一组单独的聚类。相反,树是一个多级层次结构,其中一个级别的集群作为下一个更高级别的集群连接。使用的算法从单独集群中的每个案例或变量开始,然后组合集群,直到只剩下一个。这使研究人员能够决定什么样的聚类水平最适合他或她的研究。

执行聚类分析

大多数统计软件程序都可以执行聚类分析。在SPSS中,从菜单中选择分析,然后进行分类和聚类分析。在SAS中,可以使用proc cluster功能。

更新:Nicki Lisa Cole博士。

  • 发表于 2021-10-03 03:04
  • 阅读 ( 290 )
  • 分类:数学

你可能感兴趣的文章

酚类(phenetics)和分支学(cladistics)的区别

...学有助于对各种系统进行分类,同时有助于对生物体进行聚类和分组。在这一点上,酚类和支系学在建立生物体之间的关系方面起着重要作用。 目录 1. 概述和主要区别 2. 什么是酚类 3. 什么是分支学 4. 酚类与分支学的相似性 5. ...

  • 发布于 2020-10-16 02:54
  • 阅读 ( 345 )

被监督的(supervised)和无监督机器学习(unsupervised machine learning)的区别

...机器学习相关的算法有很多种。其中一些是回归、分类和聚类。开发基于机器学习的应用程序最常用的编程语言是R和Python。也可以使用其他语言,如java、C++和MATLAB。 目录 1. 概述和主要区别 2. 什么是监督学习 3. 什么是无监督学...

  • 发布于 2020-10-19 03:49
  • 阅读 ( 711 )

聚类(clustering)和分类(classification)的区别

聚类与分类的关键区别在于,聚类是一种基于特征对相似实例进行分组的无监督学习技术,而分类是一种基于特征为实例分配预定义标签的监督学习技术。 尽管聚类和分类看起来是相似的过程,但基于它们的含义,它们之间...

  • 发布于 2020-10-28 16:16
  • 阅读 ( 540 )

宏达电启动新项目为科研捐赠处理器电源

今天在世界移动大会上,HTC宣布了一个雄心勃勃的分布式计算项目,该项目将利用空闲的计算周期进行进一步的科学研究。该项目与伯克利开放式网络计算基础设施(BOINC)合作,将利用空闲的计算周期来处理处理器密集型的科...

  • 发布于 2021-04-25 10:26
  • 阅读 ( 60 )

斐波那契簇

什么是斐波那契簇(fibonacci clusters)? Fibonacci聚类是一组基于不同价格波动的Fibonacci回溯或延伸水平在一个价格区域附近**。集群理论认为,如果多个斐波那契延伸或回溯水平接近一个价格,该价格可能是一个重要的支撑或阻力区...

  • 发布于 2021-06-14 16:39
  • 阅读 ( 125 )

聚类(clustering)和分类(classification)的区别

聚类和分类技术被用于机器学习、信息检索、图像调查和相关任务中。 这两种策略是数据挖掘过程的两个主要部分。在数据分析领域,这些是管理算法所必需的。具体来说,这两个过程都将数据划分为多个集合。这项任务在当...

  • 发布于 2021-06-25 04:13
  • 阅读 ( 685 )

如何illumina测序工作(illumina sequencing work)

...段。Illumina测序工作流程涉及的四个基本步骤是库准备、聚类生成、测序和数据分析,本文将对此进行进一步描述。   覆盖的关键领域 1.什么是Illumina测序-定义、事实、优势2.Illumina测序如何工作-Illumina测序过程:–文库准备–...

  • 发布于 2021-06-30 14:04
  • 阅读 ( 171 )

数据挖掘(data mining)和数据仓库(data warehousing)的区别

...使数据适合于数据挖掘。第三步是数据挖掘。它使用诸如聚类、回归、分类等技术或算法来提取数据的模式。第四步是模式评估。它检查获得的输出的准确性。最后一步是用图表表示结果。 Figure 1: Data Mining 进行数据挖掘的主要...

  • 发布于 2021-06-30 17:39
  • 阅读 ( 503 )

机器学习(machine learning)和神经网络(neural networks)的区别

...不需要训练算法。相反,它自己发现输入数据中的模式。聚类是一种主要的无监督学习算法。它标识相似的实例并将它们分组以创建集群。通常,无监督学习比有监督学习困难。简言之,机器学习有助于开发系统,可以学习和执...

  • 发布于 2021-06-30 18:24
  • 阅读 ( 909 )

upgma公司(upgma)和邻居连接树(neighbor joining tree)的区别

...树的主要区别在于UPGMA是一种基于平均连锁法的凝聚层次聚类方法,而邻接树是一种基于最小进化准则的迭代聚类方法。此外,UPGMA生成有根系统发育树,邻接树生成无根系统发育树。由于UPGMA方法假设进化速率相等,分支尖端的...

  • 发布于 2021-07-02 03:03
  • 阅读 ( 291 )
cnqtxfwedg
cnqtxfwedg

0 篇文章

相关推荐