Logistic回归分析计算方法
关键词:logistic回归分析,二元logistic回归分析,多元logistic回归分析
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
生态学中的虫口模型(亦即Logistic映射)可用来描述
x(n+1)=u*x(n)*(1-x(n)),u属于[0,4],x属于(0,1)这是1976年数学生态学家R. May在英国的《自然》杂志上发表的一篇后来影响甚广的综述中所提出的,最早的一个由倍周期分岔通向混沌的一个例子。后来经过Feigenbaum研究得出:一个系统一旦发生倍周期分岔,必然导致混沌。他还发现并确定了该系统由信周期分岔通向混沌的两个普适常数(也称为Feigenbaum常数)。对于一维 Logistic映射,研究的比较早也比较详细,比如该映射之所以产生混沌,有人归纳出它具有两个基本性质、逆瀑布、周期3窗口、U序列等等。但是一维Logistic映射仅有一个自由度,利用它只能产生一条线或一条曲线,而做图像,至少需要两个或以上个自由度,为此,孙海坚等人给出了LMGS定义。王兴元还扩展了LMGS定义,在此基础上,就可以分析2维及其以上的系统,分析图形与吸引子的结构特征,探讨了图形与吸引子之间的联系;并由一维可观察计算系统混沌定量判据的方法,计算了吸引子的 Lyapunov指数和Lyaounov维数。[1]二维 Logistic映射起着从一维到高维的衔接作用,对二维映射中混沌现象的研究有助于认识和预测更复杂的高维动力系统的性态。王兴元教授通过构造一次藕合和二次祸合的二维Logistic映射研究了二维Logistic映射通向混沌的道路,分析了其分形结构和吸引盆的性质,指出选择不同的控制参数,二维映射可分别按Feigenbaum途径等走向混沌,并且指出在控制参数空间中的较大的区域,其通向混沌的道路与Hopf分岔有关,在这些途径上可观察到锁相和准周期运动。二维滞后Logistic映射x(n+1)=y(n)y(N+1)=u*y(n)*(1-x(n)), u属于(0,2.28),[x,y]属于(0,1)该系统走向混沌的道路正是验证了二维Logistic映射与Neimark-Sacker分岔有密切的关系,对于研究其他的具有滞后的系统具有重要的意义。
追问:
它的回归方程怎么解?
追答:
1.Categorical Variables Codings
这个表显示了所做的多分类变量的哑变量变换。
2.Block 1: Method = Backward Stepwise (Conditional)->Omnibus Tests of Model Coefficients
对模型的系数进行的卡方检验,是否显著相关。
3.Model Summary->-2 Log likelihood
最大似然估计值,范围在(0,正无穷大),一般观察此值是否随步数变化递增或递减,以判断方程收敛情况。所以,-2LL可用于检验Logistic回归的显著性。-2LL反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,又称为拟合劣度卡方统计量。当-2LL的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度越好。
3.Model Summary->R Square
在回归模型里面,R方是决定系数,表明该变量的参与能够决定因变量的一个比例。比方说,儿子的身高和父亲的身高之间的回归模型为:Y=a0+a1X,R方=0.942;这个值说明儿子的身高有94.2%可以取决于其父亲的身高。但在二值回归里面,这个R方是伪决定值,一般不能直接判断变量的决定值。
4.Hosmer and Lemeshow Test
这是一个方程拟合度检验,做的是虚无假设,假设拟合无偏差,查看sig值,如果是>0.05,说明应该接受结果,即认同拟合方程与真实的方程基本没有偏差。也就是说这个sig值越大越好。
5.Classification Table->Percentage Correct
观察最后一项值,Overall Percentage:88.3,这是说明通过该方程预测结果正确率可以达到88.3%,这里可以与Block 0里面的该值做比较,即引入变量比不引入变量后的预测正确率是提升还是减少,提升了多少。
6.Variables in the Equation
最主要的是要看懂这个表格里面的值。B:偏回归系数;S.E.:标准误差;(注意:这里是标准误差,而不是标准差,标准差指的是标准方差S.D.,有很多人在其后做系数标准化的时候以这个值为标准差代入计算,其实是错误的。);wald:检验因子;df:自由度;sig:显著性检验;EXP(B):OR值,也就是比数比。
设某变量的OR值为1.45。OR值的含义是指:如果该变量是连续变量,则该变量每增加1的时候,因变量为1预测正确率提升45%;如果是二分类变量,则是以0为基准,取值为1的时候预测正确率的比值;如果是多分类变量,则以常数重编码为0,0,0的变量为基准,其他几个分类对于它的比值。
我还没打完,字数超了,请继续追问
追问:
继续说
追答:
第一段:
二值Logistic回归模型与普通的回归模型一样,取因变量为Y,自变量为X1、X2…则有:Y=a0+a1X1+a2X2+…anXn;将Y写成Logistic形式为:Logit(P)=ln(p/1-p)=a0+a1X1+a2X2+…anXn
选择SPSS作为分析软件,Analyze->Regression->Binary
Logistic,以此选入因变量Dependent,下面选入所筛选的全部自变量Covaiates,(如果选入的是变量不全是二分类变量,则为非条件回归模型),注意,如果选入的是一个多分类变量,这里应该对该变量进行哑变量(虚拟变量)变换。做这样的变换的解释很简单,因为对于一个多分类变量,不能将1,2,3对其进行简单的标识,每个分类之间无数字化差距。如果要做哑变量变化,点击Categorical,选入多分类变量,Continue。这里注意选择Method,里面有多种变量进入方程的方式,通常选择Enter(一次性进入),和stepwise,有后退剔除式,做后退剔除式相对来说严格些,选择Backward:Conditional。
点击OK,系统进行建模,在这里观察几个主要表的分析数据:
最后一段:
这时,二值回归方程就可以写出来了。如果要考察各进入方程的变量之间的影响力大小,则应该对偏回归系数做标准化,标准化的公式为:β=B×S.D./1.8138;SPSS一般手工计算,SAS自带。观察β的绝对值,大者则影响力大,以此排序。
转载请注明:数据分析 » Logistic回归分析计算方法_logistic回归分析