假设检验:什么是假设检验,如何进行,为什么要进行假设检验【+ 5个学习资源】
假设检验是私人和政府部门许多分析师使用的一种方法,用于对人口数据进行可能的陈述或假设。
如果您一直在处理或研究人口数据,那么您一定会遇到这个重要的假设检验工具。
可以采用许多方法来进行假设,但并非所有方法都能提供更高的准确性。
如果您对数据不确定但仍想使用它,这可能对您的组织有风险。
假设检验是实现更高准确性的好方法。它在人口分析中起到了重要作用。
在本文中,我将讨论什么是假设检验,它是如何工作的,它的好处以及使用案例。
那么,我们开始吧!
什么是假设检验?
假设检验是分析师使用的一种统计推断方法,用于检验可用的人口数据是否足够支持给定的假设,并根据手头的数据进行假设。
通过这种方法,分析师可以轻松评估假设,并根据手头的数据判断假设的准确性。
简单来说,它是一种基于推断统计学的测试过程,允许您根据收集到的样本数据对人口数据做出结论。
一般来说,分析师几乎不可能找到整个人口的属性或任何特定参数。但是通过假设检验,您可以根据样本数据及其准确性进行明智的预测和决策。
假设检验的类型
假设检验的不同类型包括:
- 零假设:统计数据显示样本数据突变,给定样本数据中两个变量之间没有相关性。
- 备择假设:它展示了主要命题并反对零假设。它是测试过程中的主要驱动力,因为它展示了样本数据中两个变量之间的相关性。
- 无方向性假设:这种类型的假设检验是双尾假设。它表示样本数据中两个变量之间没有方向,并且真实值与预测值不同。
- 有方向性假设:有方向性假设描述了两个变量之间的某种关系。在这里,样本数据中的一个变量可以影响其他变量。
- 统计假设:它帮助分析师评估数据和值是否满足某种假设。在对样本人口参数的结果进行陈述和假设时,它非常有用。
接下来,让我们讨论假设检验的方法。
假设检验的方法
为了评估特定假设是否成立,作为分析师,您需要大量的可信证据来得出结论。在这个测试过程中,需要在开始评估之前设定一个零假设和备择假设。
假设检验不仅涉及单一的方法,而是多种方法来评估样本数据是否可靠。作为分析师,您必须考虑数据和样本大小,并选择适合您的假设检验方法。
正态性检验
这是一种用于分析样本数据中正态分布的标准假设检验方法。在测试过程中,检查分组数据点是否在平均值以下或以上。
在这种统计测试中,点超过或低于平均值的机会是相等的。形成一个钟形曲线,均匀地分布在平均值的两侧。
Z-检验
这是一种在总体数据服从正态分布时使用的另一种假设检验方法。它测试在你已知数据的方差时,两个独立总体参数的均值是否不同。
在分析总体数据时,当数据样本量超过30时,你很可能使用这种类型的检验方法。此外,中心极限定理是使Z-检验合适的另一个原因,因为该定理指出,当样本量增加时,样本呈正态分布。
T-检验
当样本量有限且通常服从正态分布时,你将使用T-检验。一般来说,当样本量小于30且你不知道参数的标准差时,主要应用该检验方法。
进行T-检验时,你会用它来计算特定总体数据的置信区间。
卡方检验
卡方检验是一种常用的假设检验方法,通常用于评估数据分布的适合度和完整性。
然而,你将使用这种假设类型的主要原因是想要将总体方差与假设或已知值的总体方差进行比较。有多种卡方检验方法,但最常见的类型是卡方方差和独立性检验。
方差分析
方差分析是一种统计检验方法,用于比较两个样本数据集。然而,它允许同时比较多于两个均值。
它还解释了样本数据的因变量和自变量。方差分析的使用与Z-检验和T-检验相似,但后两者仅限于比较两个均值。
假设检验的工作原理
每个使用假设检验的分析师都使用随机样本数据进行分析和测量。在测试过程中,随机样本数据用于检验零假设和对立假设。
正如我们之前讨论的,零假设和对立假设完全互斥,在测试结果中,只有一个可以成立。
然而,在某些情况下,虽然拒绝了零假设,对立假设并不总是成立。
p值:在测试过程中,涉及到p值或概率值,它显示结果是否显著。除此之外,p值还显示在测试过程中拒绝或不拒绝零假设的错误发生的概率。所得到的p值要么是0,要么是1,然后与显著水平或α水平进行比较。
这里的显著水平定义了在测试中拒绝零假设时的可接受风险。重要的是记住,假设检验的结果可能导致两种类型的错误:
- 类型1错误发生在测试结果拒绝零假设,尽管零假设为真的情况下。
- 类型2错误发生在样本结果接受零假设,尽管零假设为假的情况下。
导致零假设被拒绝的所有值都存储在临界区域中。而临界值将临界区域与其他区域分隔开。
进行假设检验的步骤
假设检验主要涉及四个步骤:
- 定义假设:在第一步中,作为分析师的工作是定义两个假设,以确保只有一个是正确的。零假设将表明平均BMI没有差异,而备择假设将表明平均BMI存在显著差异。
- 制定计划:在下一步中,您需要设计一个分析计划,以确定如何分析样本数据。重要的是,您应该进行抽样并收集样本数据,以确保其设计用于测试您的假设。
- 分析样本数据:在确定如何评估数据后,就可以开始进程了。您将需要对样本数据进行实际分析,以确保没有冗余。在分析数据时,您应该检查样本之间是否相互独立,以及两个样本的大小是否足够大。
- 计算检验统计量:在此阶段,您将需要计算检验统计量并找到p值。p值将根据假设零假设为真来确定。
- 评估结果:在最后一步中,您需要评估假设检验的结果。在这里,您将根据样本数据决定是否拒绝零假设或声明其合理性。
现在,让我们探讨假设检验的好处。
假设检验的好处
假设检验的好处包括:
- 它帮助您分析对数据决策的主张的力量。
- 作为分析师,它允许您为决定样本数据创造一个可靠的环境。
- 它让您确定参与假设检验的样本数据是否具有统计学意义。
- 它有助于评估任何系统测试过程中测试结果的可靠性和有效性。
根据需求,它有助于将数据从样本阶段推广到更大的人口。
假设检验的应用案例
假设检验在各个领域中用于准确猜测样本数据的准确性。一些现实世界的假设检验例子包括:
#1. 临床试验
在临床试验中广泛应用假设检验,因为它帮助医学专业人员根据样本数据决定新药物、治疗或程序是否有效。
医生可能认为一种治疗可能会减轻某些患者的钾水平。医生可能在进行治疗之前测量一组患者的钾水平,并再次检查水平。
接下来,医生进行假设检验,其中H0:Uafter = Ubefore,表示应用治疗后钾水平与治疗前相同。另一个假设表示Ha:Uafter < Ubefore,表示应用治疗后钾水平降低。
因此,如果p值小于显著性水平,则医生可以得出结论,该治疗可以降低钾水平。
#2. 制造业
在制造工厂中使用假设检验来帮助监督员决定新方法或技术是否有效。
例如,一些制造单位可能使用假设检验来找出新方法是否有助于减少每批次次品数量。假设次品数量为每批300个。
制造商必须确定使用该方法之前和之后生产的总次品数量的均值。他们可以进行假设检验并使用假设H0:Uafter = Ubefore,其中应用新方法后生产的次品均值与之前相同。
另一个假设表明HA:Uafter不等于Ubefore,即应用新方法后生产的次品总数不同。
测试后,当p值小于显著性水平时,制造单位可以得出结论,生产的次品数量已经发生了变化。
#3. 农业
假设检验通常用于确定肥料或杀虫剂是否导致植物生长和免疫力的变化。生物学家可以使用检验来证明某种植物在施用新肥料后可能生长超过15英寸。
生物学家可能会施用肥料一个月以收集样本数据。当生物学家进行测试时,一个假设是H0 U=15英寸,表示肥料对植物平均生长没有影响。
另一个假设表明HA:U>15英寸,表示肥料对植物平均生长有提高。在测试时,当p值小于显著性水平时,生物学家现在可以证明肥料比之前更有助于生长。
学习资源
#1. 统计学:Udemy逐步介绍
Udemy提供了一门关于统计学的课程,您将学习逐步介绍统计学,包括假设检验。该课程有来自前谷歌数据科学家的示例和教训,帮助您掌握置信区间、假设检验等内容。
#2. 数据分析的基本统计学:Udemy
这门关于数据分析的基本统计学的Udemy课程将帮助您通过真实项目、有趣的活动、假设检验、概率分布、回归分析等学习统计学。
#3. 数据科学和业务分析的统计学
这门关于数据科学和业务分析的统计学课程由Udemy提供,将帮助您学习假设检验。它涵盖了不同的统计学主题,使数据科学家和业务分析师能够学习和掌握它们。它涵盖了推断统计学和描述统计学以及回归分析。
#4. Jim Frost的假设检验
这本书可以在Amazon上找到,它是一本直观的指南,帮助分析师做出数据驱动的决策。
预览 | 产品 | 评分 | 价格 | |
---|---|---|---|---|
|
Hypothesis Testing: An Intuitive Guide for Making Data Driven Decisions | $23.98 | Buy on Amazon |
本书涵盖了假设检验的工作原理,为什么需要它们,如何有效使用置信区间、P值、显著性水平等诸多主题。
#5. Scott Hartshorn的假设检验
这本书以其视觉示例独特,最适合初学者寻求关于假设检验的快速指南。
预览 | 产品 | 评分 | 价格 | |
---|---|---|---|---|
|
Hypothesis Testing: A Visual Introduction To Statistical Significance | $9.75 | Buy on Amazon |
它将向您介绍统计学的重要性、类型及其工作原理。它不需要您具备先前的深入统计知识,但能直观地解释一切。
最后的话
假设检验有助于验证假设,并基于评估开发统计数据。它被广泛应用于各个领域,从制造业和农业到临床试验和IT。这种方法不仅准确,还能帮助您为组织做出数据驱动的决策。