pearson, kendall 和spearman三种相关分析方法的区别
关键词: kendall spearman、kendall tau spearman、pearson spearman
1. Pearson相关
Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(coefficient of product-moment correlation)。进行相关分析时,我们一般会同时对两变量绘制散点图,以更直观地考察两变量之间的相互变化关系。
例7-1
表7.6
母血TSH |
1.21 |
1.30 |
1.39 |
1.42 |
1.47 |
1.56 |
1.68 |
1.72 |
1.98 |
2.10 |
脐带血TSH |
3.90 |
4.50 |
4.20 |
4.83 |
4.16 |
4.93 |
4.32 |
4.99 |
4.70 |
5.20 |
对资料进行相关分析之前,我们可以先对其绘制散点图,以考察两变量的真实变化关系,我们可以应用第二章中介绍过的plot过程或gplot过程来执行绘制散点图的功能。散点图完成后再计算变量之间的相关系数,对相关系数进行假设检验,以量化形式表示变量间的相关关系。
为方便起见,此处我们将绘制散点图和相关分析一次完成。此处将母血TSH水平用x1来表示,脐带血TSH水平用x2来表示,编制SAS程序如下。
data temp; |
|
|
|
|
|
proc gplot; |
|
run; |
proc corr; |
|
run; quit; |
进行Pearson相关分析是Corr过程的默认方式,故无需再在proc corr语句后指定pearson选项。
将以上程序提交执行,结果如下。
(1)两变量散点图,见图7.1。
pearson, kendall 和spearman三种相关分析方法的区别:
pearson:皮尔森,线性相关性;
spearman:斯皮尔曼,单调相关性;
kendall:单调相关性;与spearman区别在于某一比较数据需要有序,在有序情况下计算速度比spearman快。
图7.1
(2)两变量相关分析结果
结果中首先给出两变量的描述性统计量,然后给出变量的相关系数矩阵(var语句所列变量中任两者之间的相关系数),对于检验假设为H0:的假设检验结果(仅给出P值)列在相应相关系数的下面。
本例中,散点图表现出明显的椭圆形,说明两变量间存在一定的直线相关,相关分析的结果也验证了这一点,相关系数不为零(P=0.0303<0.05)。
另外,用with语句可以对特定的变量对进行相关分析,此例可将corr过程中间的语句改为:
var x1;
with x2;
因此例仅有两个变量,原程序显得更为简便,但在变量较多时,with语句可发挥很好的作用。
2. Spearman秩相关
当两变量不符合双变量正态分布的假设时,需用Spearman秩相关来描述变量间的相互变化关系。此时,散点图上散点的分布形态不能完全描述两变量间的相关关系,故此时一般不需再绘制散点图。
例7-2
表7.7
综合评分 |
79 |
80 |
91 |
90 |
70 |
87 |
92 |
存活天数 |
45 |
30 |
16 |
24 |
28 |
25 |
14 |
将综合评分和存活天数分别用变量x和y表示,编制程序如下。
data temp; |
|
|
|
|
|
proc corr spearman nosimple; |
|
run; quit; |
Proc corr语句的spearman选项即要求用Spearman秩相关来进行数据分析,nosimple选项则用来禁止对变量描述性统计量的输出。
提交上述程序,结果如下。
SAS仍旧给出相关系数矩阵,其内容和Pearson相关分析的完全一样,只不过相关系数的计算方法不同而已。
这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。
例7-3
此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。
data temp; |
|
|
|
|
|
proc reg; |
|
run; quit; |
虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。
结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R2(R-Square)、校正R2(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。
两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.
Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Spearman相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。
Kendall’s tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验; 取值范围在-1-1之间,此检验适合于正方形表格;