小流量实验与假设检验

1. 假设检验

T检验是统计推断中非常常见的一种检验方法,用于统计量服从正态分布,但方差未知的情况。

t检验三种常用类型及其应用领域:

  • 单样本均值检验(One-sample t-test):用于检验 总体方差未知、正态数据或近似正态的 单样本的均值 是否与 已知的总体均值相等;
  • 两独立样本均值检验(Independent two-sample t-test):用于检验 两对独立的 正态数据或近似正态的 样本的均值 是否相等,这里可根据总体方差是否相等分类讨论;
  • 配对样本均值检验(Dependent t-test for paired samples):用于检验 一对配对样本的均值的差 是否等于某一个值;

假设检验中常用值定义:当假设检验中零假设为真时,观测到至少与实际观测样本相同极端的样本的概率。若值很小,说明原假设为真的话出现观测样本的概率很低,根据小概率事件原理,则可以认为原假设不为真。

1.1 单样本均值检验

  1. 要求:总体方差未知,否则就可以利用检验(也就是正态检验)正态数据或近似正态
  2. 应用场景举例:
    • 从某厂生产的零件中随机抽取若干件,检验其某种规格的均值是否与要求的规格相等(双侧检验)
    • 在某偏远地区随机抽取若干健康男子,检验其脉搏均数是否高于全体健康男子平均水平(单侧检验)
  3. 原理:

:样本均值与总体均值相等
:样本均值与总体均值不等

记总体均值为,总体方差为(未知):


上面我们已经得到了一个标准正态变量,不难想到卡方变量的一个重要定理:

根据t检验的定义,可以构造统计量为:

成立的条件下,,若上述统计量的值偏离0”太多”,是小概率事件,在一次抽样中几乎不可能发生,其发生的概率即为值。给定显著性水平(如0.05),根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查t界值表中自由度为,显著性水平,得到临界值;若为单侧检验,则为.

1.2 两独立样本均值检验:常用于A/B实验中

  1. 目的:检验两独立样本的均值是否相等。
  2. 要求:两样本独立,服从正态分布或近似正态。
  3. 应用场景举例:
    • 检验两工厂生产同种零件的规格是否相等(双侧检验)
    • 为研究某种治疗儿童贫血新药的疗效,以常规药作为对照,治疗一段时间后,检验施以新药的儿童血红蛋白的增加量是否比常规药的大(单侧检验)
  4. 不同类型及原理:
    记两总体分别为, 样本均值、样本标准差:

根据总体方差是否相等,检验可以分为两种:

1.2.1 总体方差相等且未知

记总体方差为

由卡方变量的重要定理:

由t分布的构造可知:


为两样本的合并标准差,可以证明它是总体方差的无偏估计。

同样地,在成立的条件下,,若为双侧检验,则查t界值表中自由度为,显著性水平,得到临界值;若为单侧检验,则为

1.2.2 总体方差不相等且未知

在总体方差不等的情况下,1.2.1中统计量的分母已不是总体方差的无偏估计,已不再适用,需重新构造一个新统计量,这里需要利用Satterthwaite近似法。

它的自由度为:

其中分别是的自由度,当,>5时,近似分布的效果比较好。

同样地,根据研究的问题确定是双侧检验(two-side test)还是单侧检验(one-side test),若为双侧检验,则查界值表中自由度为,置信水平,得到临界值;若为单侧检验,得到临界值

1.3 配对样本均值检验

  1. 要求:
    • 总体方差相等
    • 正态数据或近似正态
  2. 应用场景举例:

    • 配对的受试对象分别接受不同的处理(如将小白鼠配对为两组,分别接受不同的处理,检验处理结果的差异)
    • 同一受试对象的自身前后对照(如检验癌症患者术前、术后的某种指标的差异)
  3. 原理:
    既然是配对设计,不妨设;方差相等,有。取要检验的指标的差值,计算的样本标准差。要检验配对样本均数的差是否为0,即检验的均值是否为0,这样就转化为了”单样本t检验”,由于正态性和方差相等的假定,差值的均值(以大写字母表示随机变量,小写字母表示样本取值):

构造变量:

由t检验定义,整理可知:

同样地,在成立的条件下,,若为双侧检验,则查t界值表中自由度为,显著性水平,得到临界值;若为单侧检验,则为

2. A/B实验

2.1 整体流程

在A/B实验中,统计显著的作用是用来分析实验期和空转期的指标数据是否有显著差异,从而判断实验指标是否显著。

拿到实验数据后,首先看的是P值,大于0.05一般认为指标变动不显著,即表示实验组和对照组在统计意义上无差异,相反,则认为实验组和对照组在统计意义上有差异;

如果存在空转期,则使用双总体不配对的T-test,否则使用配对T-test;最后若p值小于0.05,则认为统计显著。

双总体T检验判断实验显著性

已知某指标(正态总体)在空转期实验组与对照组相对diff服从,实验期实验组和对照组的相对diff服从,且两个样本相互独立,默认总体方差相等;分别为两样本对应的样本均值,则可构造统计量进行检验:

配对T检验判断实验显著性

对于部分实验人群(例如新用户)无空转期,则直接对实验期指标采用配对T检验方法,对指标显著性进行判断。

3. 业务阈值

用于判断指标变化是否具有显著性。可以认为这是一种比较直观的判断指标显著性的方式。

简单地说,就是在实验的时候(包括空转期和实验期),从大盘抽取很多份流量(与实验流量的抽取条件一致),流量两两组合,计算指标的相对 diff的差值,选取差值的97.5%分位数作为该指标的业务显著性阈值。

阈值计算流程

  1. 选取特定的空转和实验周期,根据hash函数,将期间大盘总体用户随机分为10000组(每组0.01%流量);
  2. 计算不同流量组的指标,并计算出指标均值;
  3. 从10000组流量中随机抽取2n份,分别取n份作为对照/实验组(n*0.01%流量,可根据真实实验流量大小调整n),并计算指标实验期相对差值,空转期相对,得到空转到实验的指标自然波动为:
  4. 重复3的步骤10000次,得到10000个样本,计算出97.5%分位数作为阈值;

完成统计显著性分析只是分析过程中的第一步,其次要看的是业务统计显著性阈值,小流量评估过程中,采用统计显著性业务显著性双重保险以确定实验组和对照组是否有差异确保给出更可观更科学的实验结论。

--------------------本文结束感谢您的阅读--------------------