Logistic回归中出现P值与OR的95%置信区间（CI）结果矛盾

关键词：logistic回归分析p值、logistic回归 p值、logistic回归or值p值、logistic p值、置信区间 p值

在统计分析时，偶尔会遇到这样的情况：P值与OR的95%置信区间（CI）结果矛盾的情况，即P<0.05，但OR的95%置信区间却包括1；或者P>0.05，但OR的95%置信区间却不包括1。
在单因素Logistic回归和多因素Logistic回归中都出现了这样情况。一般认为，这种情况很难发生，因为它们检验具有一致性。之所以发生这种情况，还与变量有关。有些人采取如下方法：一般都是合并变量的例数，回避这一问题。实际上，可能有如下一些原因：

1：存在多重共线性，多重共线性会产生大的标准误，导致单因素分析中Wald检验中P值过大，虽然标准误增大，会使OR的95%置信区间变宽，95%CI的上线或下线特别接近1但还未超过1这个界限，所以出现了P>0.05，但OR的95%置信区间却不包括1。
解决的办法是可以利用逐步筛选变量的方法找出与因变量相关的变量，其他没有进入模型的变量在单因素分析中不给予分析。此外，还可以设法将彼此高度相关的自变量先综合成新变量，然后做因变量关于综合变量的回归。

2：该变量某一类的例数特别少，如文化程度，小学有100人，初中120人，高中30人，大学3人。可能会出现95%置信区间特别宽而包括1，而P值却<0.05。解决的办法可以合并例数少的几类，如本例中可以合并高中和大学成一类为高中和大学。

3：样本含量太小，使估计结果不稳定，产生大的标准误，使本来可能有意义的变量变得无统计学意义。解决办法是增大样本含量。但是在Logistic回归中，到底多大的样本才算合适呢？根据国外一些专家的看法，如果样本小于100，Logistic回归的最大似然估计可能就有一些风险，如果样本大于500则比较合适。样本含量还依赖于变量个数和数据结构等条件。一般是每一个自变量至少需要10例结局。这里说的结局例数不是整个样本的例数。假如，Logistic回归中自变量总共有5个，则至少需要50例研究结局，即如果你研究的因变量是自杀（1=自杀，0=没自杀），其中自变量有8个，那么你的研究中需有80个人是发生了自杀的。可是按照这种情况的话，很多研究的因变量发生结局是很少的，比如自杀这种结局是比较少的，可能我们研究的自变量有18个，但是自杀这个结局却远远没有180例。
对于这种情况，则谨慎使用回归。回归毕竟是统计学方法，与临床实际仍然有差别的。对于不符合回归条件的，宁可不用回归，等待今后更大规模的样本数据进行研究，不要强行使用回归，这样反而有可能得出错误的结论。

转载请注明：数据分析 » Logistic回归中出现P值与OR的95%置信区间（CI）结果矛盾