暂无介绍
数据集的一个重要特征是确定它是否包含任何异常值。异常值在我们的数据集中被直观地认为是与大多数其他数据有很大差异的值。当然,对异常值的这种理解是不明确的。要被视为异常值,该值与其余数据的偏差应该有多大?一位研究人员所说的离群值会与另一位研究人员的离群值相匹配吗?为了给异常值的确定提供一些一致性和定量度量,我们使用了内部和外部围栏。...
许多统计推断问题要求我们找到自由度的数目。自由度的数量从无限多个中选择一个单一的概率分布。这一步骤在计算过程中经常被忽略,但却是至关重要的细节置信区间和假设检验的运作。...
当考虑标准偏差时,可能会令人惊讶的是,实际上有两个可以考虑。存在总体标准偏差和样本标准偏差。我们将区分这两个方面,并强调它们的区别。...
在统计学中,自由度用于定义可分配给统计分布的独立数量。这个数字通常是指一个正整数,表示一个人计算统计问题中缺失因素的能力不受限制。...
方差分析,简称ANOVA,是一种统计测试,用于寻找某一特定度量的均值之间的显著差异。例如,假设您对研究社区中运动员的教育水平感兴趣,那么您可以调查各个团队中的人员。然而,你开始怀疑不同团队的教育水平是否不同。你可以使用方差分析来确定垒球队、橄榄球队和极限飞盘队的平均教育水平是否不同。...
统计学有两个分支,描述统计学和推理统计学。在这两个主要分支中,统计抽样主要涉及推断统计。这类统计背后的基本思想是从统计样本开始。在我们有了这个样本之后,我们试着说一些关于人口的事情。我们很快意识到抽样方法的重要性。...
有许多不同的概率分布。这些发行版中的每一个都有适合特定设置的特定应用程序和用途。这些分布范围从熟悉的钟形曲线(也称为正态分布)到鲜为人知的分布,如伽马分布。大多数分布涉及复杂的密度曲线,但也有一些不涉及。最简单的密度曲线之一是均匀概率分布。...
自举是一种强大的统计技术。当我们使用的样本量很小时,它特别有用。在通常情况下,小于40的样本量不能通过假设正态分布或t分布来处理。引导技术对于少于40个元素的样本非常有效。原因是引导涉及到重采样。这些技术对我们的数据分布没有任何假设。...
在统计学和数学中,范围是数据集最大值和最小值之间的差值,是数据集的两个重要特征之一。范围的公式是数据集中的最大值减去最小值,这使统计学家能够更好地了解数据集的变化程度。...
很多时候,在统计学研究中,把不同的主题联系起来是很重要的。我们将看到一个例子,其中回归线的斜率与相关系数直接相关。由于这些概念都涉及直线,因此很自然会问这样一个问题:“相关系数和最小二乘线是如何相关的?”...
推断统计学的目标之一是估计未知的总体参数。该估计通过从统计样本构造置信区间来执行。一个问题是,“我们的估计值有多好?”换句话说,“从长远来看,我们估计总体参数的统计过程有多准确。确定估计值的一种方法是考虑它是否无偏。这种分析要求我们找到统计数据的预期值。...
数学中使用最广泛的常数之一是数字pi,它由希腊字母π表示。圆周率的概念起源于几何学,但这个数字在整个数学中都有应用,并出现在包括统计学和概率论在内的广泛学科中。Pi甚至获得了文化认可和它自己的节日,在世界各地庆祝Pi日活动。...
数据分布和概率分布的形状不尽相同。有些是不对称的,向左或向右倾斜。其他分布为双峰分布,有两个峰值。讨论分布时要考虑的另一个特征是最左侧和最右侧分布尾部的形状。峰度是分布尾部厚度或重量的度量。分布的峰度属于三类分类之一:...
统计学中变量分类的许多方法之一是考虑解释变量和响应变量之间的差异。虽然这些变量是相关的,但它们之间有着重要的区别。在定义了这些类型的变量之后,我们将看到这些变量的正确识别对统计学的其他方面有直接影响,例如散点图的构造和回归线的斜率。...
样本标准差是一种描述性统计,用于测量定量数据集的传播。这个数字可以是任何非负实数。由于零是一个非负实数,因此值得一问,“样本标准偏差何时等于零?”这发生在非常特殊和非常不寻常的情况下,即我们所有的数据值完全相同。我们将探讨原因。...