深入解读Logistic回归结果(一):回归系数,OR
关键词:Logistic回归分析、lasso回归系数解读、回归系数解读
Logistic回归虽然名字叫”回归”
一 从线性回归到Logistic回归
线性回归和Logistic回归都是广义线性模型的特例。
假设有一个因变量y和一组自变量x1, x2, x3, … , xn,其中y为连续变量,我们可以拟合一个线性方程:
y =β0
并通过最小二乘法估计各个β系数的值。
如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难:
y = 1 / (1+e-x)
这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。
我们将线性回归方程改写为:
y = 1 / (1+e-z),
其中,z =β0
此时方程两边的取值都在0和1之间。
进一步数学变换,可以写为:
Ln(y/(1-y)) =β0
Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:
p(y=1) = ez/(1+ez),
p(y=0) = 1/(1+ez),
其中,z =β0
接下来就可以使用”最大似然法”估计出各个系数β。
二 odds与OR复习
三 Logistic回归结果的解读
hon |
系数β |
标准误 |
P |
截距 |
-1.12546 |
0.164 |
0.000 |
hon |
例数 |
百分比 |
0 |
151 |
75.5% |
1 |
49 |
24.5% |
hon |
系数β |
标准误 |
P |
female |
0.593 |
.3414294 |
0.083 |
截距 |
-1.47 |
.2689555 |
0.000 |
hon |
female |
Total |
|
Male |
Female |
||
0 |
74 |
77 |
151 |
1 |
17 |
32 |
49 |
Total |
91 |
109 |
|
根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的,女性处于荣誉班级的几率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性对男性的几率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我们可以说,女性比男性在荣誉班的几率高80.9%。
回到Logistic回归结果。截距的系数-1.47是男性odds的对数(因为男性用female=0表示,是对照组),ln(0.23) = -1.47。变量female的系数为0.593,是女性对男性的OR值的对数,ln(1.809) = 0.593。所以我们可以得出关系: OR = exp(β),或者β= ln(OR)(exp(x)函数为指数函数,代表e的x次方)。
hon |
系数β |
标准误 |
P |
math |
.1563404 |
.0256095 |
0.000 |
截距 |
-9.793942 |
1.481745 |
0.000 |
hon |
系数β |
标准误 |
P |
math |
.1229589 |
略 |
0.000 |
female |
0.979948 |
略 |
0.020 |
read |
.0590632 |
略 |
0.026 |
截距 |
-11.77025 |
略 |
0.000 |
hon |
系数β |
标准误 |
P |
female |
-2.899863 |
略 |
0.349 |
math |
.1293781 |
略 |
0.000 |
female*math |
.0669951 |
略 |
0.210 |
截距 |
-8.745841 |
略 |
0.000 |
转载请注明:数据分析 » 深入解读Logistic回归结果(一):回归系数,OR