快捷搜索: 王者荣耀 脱发

统计学 假设检验(Hypothesis Testing)

什么是假设检验: 通过设定一个假设, 然后通过收集数据、计算等操作来判断这个假设是否成立。

假设检验的步骤:

1. 设定 null hypothesis 和 alternative hypothesis

2. 收集数据

3. 基于收集的数据,来判断 拒绝 或者 接受 null hypothesis ( 有两种方法 1. Critical Value 2. P-Value)

值得注意的是:

H0 - null hypothesis

H1 - alternative hypothesis

1. 对于null hypothesis 和 alternative hypothesis 来说,常见的一共有一下几种组合。

H0: μ >= μ0 H1: μ < μ0

H0: μ <= μ0 H1: μ > μ0

H0: μ = μ0 H1: μ != μ0

注意! a). 对于H1仅仅只有这三种组合。 b). H1 和 H0 永远是相反的 c).一个成功的假设检验的H0和H1的设定是至关重要!

2. significance value: 它是 对null hypothesis 产生误判的概率。 如果value 为5%, 那么我们知道 仅仅只有5%的情况下,null hypothesis 是真的但是我们却拒绝了它。 也就是说,我们有 95%(confidence level)的信心说 null hypothesis 是假的,所以我们拒绝它。当我们使用 收集的数据计算出来的z-score 与5% 相对应的z-score相比较时,如果前者小于后者,那么前者对应的概率会更小, 换句话说,就是可能只有 1%的概率会发生对 null hypo 的误判。这里可能有点绕,但是仔细品味下会很清楚。 另外什么是Critical Value呢?我们已经有了, significance value 对应的我们可以根据critical value z table 找到相应的 value这个value就是critical value.

这里涉及到了 Type I Error. -- H0 为真,但是被拒绝

3. p-value: 就是 我们犯错的概率, 换句话说, 就是 我们假设 H0 是假, 然后我们拒绝它 的概率. 所以我们期望 我们犯错的概率越小越好, 比较 p-valiue和 alpha的值, 如果p-value 值越大, 我们就该越谨慎,从未不拒绝 H0.

我们通过一个例题来学习。

背景: 一个健身房对外宣称在它这里健身的顾客在两周的锻炼之后会减掉 10 公斤, 根据已收集的数据我们得知, 50 个顾客,平均减掉了 9 公斤,标准差为 2.8 公斤。那么在 significance value 是 5%的情况下,我们能否推论 顾客减掉的体重 会小于 10 公斤?

1. 设定 null 和 alternative

H0: μ0 >= 10

H1: μ0 < 10

2. 使用收集的数据的信息,并根据以下的公式计算 test statistic value. t = -2.53 但是z-score with 5% significance level = -1.645.

3.

3.1) critical region 方法. 因为t < z-score 所以,对于null hypothesis 发生误判的概率小于 5%。 所以我们拒绝null hypothesis。 得出结论 顾客减掉的平均体重会小于 10 以上的 值得注意的是: 这个板块中有介绍)

3.2) P- value方法. 根据计算出 test statistics = -2.53, 我们能使用z score table 找到相应的p-value值. 通过比较 p-value和significance value( 5%)

如果 p-value < 0.05, 我们拒绝null hypothesis

FYI:

经验分享 程序员 微信小程序 职场和发展