博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Permutation Test 置换检验
阅读量:6549 次
发布时间:2019-06-24

本文共 2408 字,大约阅读时间需要 8 分钟。

显著性检验通常可以告诉我们一个观测值是否是有效的,例如检测两组样本均值差异的假设检验可以告诉我们这两组样本的均值是否相等(或者那个均值更大)。我们在实验中经常会因为各种问题(时间、经费、人力、物力)得到一些小样本结果,如果我们想知道这些小样本结果的总体是什么样子的,就需要用到置换检验。

Permutation test 置换检验是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它和Bootstrap Methods类似,通过对样本进行顺序上的置换,重新计算统计检验量,构造经验分布,然后在此基础上求出P-value进行推断。

下面通过一个简单例子来介绍Permutation test的思想。

假设我们设计了一个实验来验证加入某种生长素后拟南芥的侧根数量会明显增加。A组是加入某种生长素后,拟南芥的侧根数量;B是不加生长素时,拟南芥的侧根数量(均为假定值)。

A组侧根数量(共12个数据):24 43 58 67 61 44 67 49 59 52 62 50

B组侧根数量(共16个数据):42 43 65 26 33 41 19 54 42 20 17 60 37 42 55 28

我们来用假设检验的方法来判断生长素是否起作用。我们的零假设为:加入的生长素不会促进拟南芥的根系发育。在这个检验中,若零假设成立,那么A组数据的分布和B组数据的分布是一样的,也就是服从同个分布。

接下来构造检验统计量——A组侧根数目的均值同B组侧根数目的均值之差。

statistic:= mean(Xa)-mean(Xb)

对于观测值有 Sobs:=mean(Xa)-mean(Xb)=(24+43+58+67+61+44+67+49+59+52+62+50)/12-(42+43+65+26+33+41+19+54+42+20+17+60+37+42+55+28)/16=14

我们可以通过Sobs在置换分布(permutation distribution)中的位置来得到它的P-value。

Permutation test的具体步骤是:

1.将A、B两组数据合并到一个集合中,从中挑选出12个作为A组的数据(X'a),剩下的作为B组的数据(X'b)。

Gourp:=24 43 58 67 61 44 67 49 59 52 62 50 42 43 65 26 33 41 19 54 42 20 17 60 37 42 55 28

挑选出 X'a:=43 17 44 62 60 26 28 61 50 43 33 19

X'b:=55 41 42 65 59 24 54 52 42 49 37 67 67 20 42 58

2.计算并记录第一步中A组同B组的均值之差。Sper:=mean(X'a)-mean(X'b)= -7.875

3.对前两步重复999次(重复次数越多,得到的背景分布越”稳定“)

这样我们得到有999个置换排列求得的999个Sper结果,这999个Sper结果能代表拟南芥小样本实验的抽样总体情况。

permutation test

如上图所示,我们的观测值 Sobs=14 在抽样总体右尾附近,说明在零假设条件下这个数值是很少出现的。在permutation得到的抽样总体中大于14的数值有9个,所以估计的P-value是9/999=0.01

最后还可以进一步精确P-value结果(做一个抽样总体校正),在抽样总体中加入一个远大于观测值 Sobs=14的样本,最终的P-value=(9+1)/(999+1)=0.01。(为什么这样做是一个校正呢?自己思考:))

结果表明我们的原假设不成立,加入生长素起到了促使拟南芥的根系发育的作用。

参考资料:

1. http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf

2. http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjjz02.htm

3. http://www.r-bloggers.com/lang/chinese/541

 

来源:https://www.plob.org/article/3176.html

 

大数定理:

当样本量足够多时,样本发生的频率近似于概率。

 

中心极限定理:  

中心极限定理以严格的数学形式阐明了在大样本条件下,不论总体的分布如何,样本的均值总是近似地服从正态分布。如果一个随机变量能够分解为独立同分布的随机变量序列之和,则可以直接利用中心极限定理进行解决。总之,恰当地使用中心极限定理解决实际问题有着极其重要意义。

 

假设检验:检验量:样本均值的分布;样本均值的比较。

 

置换检验(非参数检验)

当样本量不够大,样本分布未知的情况下;用置换检验模拟出样本均值分布,然后再进行比较

in detials:

两组数据:A:样本量n;B:样本量m,总体样本数量:n+m

则从n+m个样本中随机抽取n个值,计算出样本均值,然后重复此过程i次(i=1000),得到样本均值的分布情况,然后将A样本均值与得到的分布进行比较。则可以进行假设检验。

 

从n+m个样本中随机抽n个的为A,剩下m为B,计算两组差异,重复次过程i次,得到差异的分布情况,将实际差异与分布情况进行比较。

 

attention:模拟数据,想法与置换检验有相似点。去除掉混淆因素。

 https://en.wikipedia.org/wiki/Resampling_(statistics)

转载地址:http://hguco.baihongyu.com/

你可能感兴趣的文章
[LeetCode] NO. 141 Linked List Cycle
查看>>
[线段树]JZOJ 5812
查看>>
数据库下的分页代码
查看>>
关于javaBean中boolean类型变量的set和get注入后传到前端JS中的问题
查看>>
黄聪:mysql主从配置(清晰的思路)
查看>>
黄聪:Discuz!的SEO优化策略二:如何去掉页脚多余的信息
查看>>
黄聪:Dsicuz x2.5、X3、X3.2如何去掉域名后面的/forum.php
查看>>
黄聪:如何用代码设置控制自己网站的网页在360浏览器打开时强制优先使用极速模式,而非兼容模式...
查看>>
IP multicast IP多播
查看>>
Prestashop--配置到阿里云
查看>>
【三招给系统“添加/删除程序”提速】
查看>>
基于C#的MongoDB数据库开发应用(1)--MongoDB数据库的基础知识和使用
查看>>
UWP消息通知
查看>>
反射工具类.提供调用getter/setter方法, 访问私有变量, 调用私有方法, 获取泛型类型Class,被AOP过的真实类等工具函数.java...
查看>>
电子学习产品缘何备受青睐?
查看>>
名词解释
查看>>
webmagic 下载页面
查看>>
探索c#之一致性Hash详解
查看>>
jQuery操作DOM
查看>>
【转】IE6、IE7下绝对定位position:absolute和margin的冲突bug解决方法
查看>>