Logistic回归模型为什么要先做单因素,然后做多因素-数据分析

Logistic回归模型为什么要先做单因素,然后做多因素

关键词：logistic回归模型,二元logistic回归模型,单因素logistic回归,多因素logistic回归
有的文献上是直接做卡方检验有意义的再进入回归模型，但是有的是Logistic 单因素分析，然后在进行多因素分析，不知道这个操作过程在SPSS中如何实现？还有这两种方法的区别是什么，还有我不知道Logistic 回归单因素分析怎么在SPSS中操作.

logistic回归在分析时是否必须按照“单因素—多因素”的分析过程，是否必须先进行单因素分析，然后才能进行多因素分析？单因素分析是否必须的？

这一问题是一个很实际的，许多人在分析时总是不知道如何下手？以下阐述一下我个人的意见，不一定正确，纯属个人心得。

理论上讲，在样本足够大的情况下，最好把所有的因素都放到方程中，以矫正所有可能的混杂因素，但这是有条件的，即必须所有的这些因素之间无相关，且样本足够大。而实际中，因素之间不可能是毫无相关的。当然，这种相关程度也不一样。如果所有的因素之间相关程度都非常低，最好是没有相关，那这时我可以把所有的变量都放在方程中同时进行分析，可以不做单因素分析。

如果你的例数不够多，比如，你有100例，但是有20个因素，那这时你如果把所有因素放在方程中，结果肯定要出问题。这种情况下，最好先进行单因素分析，筛选出一部分变量，将有意义的变量放入方程进行多因素分析。当然，单因素分析时最好将p值放宽一些，比如0.1或0.15等。避免漏掉一些重要因素。

真正进行多因素分析时，是很复杂的，需要仔细验证各个因素之间的关系，一旦发现因素之间有关系，需要仔细分析。如果某一因素放入方程中后，前面的几个变量变化比较大，那就需要小心了。仔细探讨因素之间存在何种关系。

总之，如果样本不多而变量较多，可以先进行单因素分析，筛掉一些可能无意义的变量，然后进行多因素分析，这样可以保证结果更加可靠些。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，弄清楚自变量进入方程的形式，这样才能有效的进行分析。

不论任何情况，分析时必须具体问题具体分析，不能一概而论，更不能套用。即使目的相同、变量相同的数据，也不一定分析结果会一样，因为总会有抽样误差存在的，设计的好坏是不一样的。所以千万不要看一篇类似的文章，然后照搬上面的分析步骤和分析方法，这是不可取的。

转载请注明：数据分析 » Logistic回归模型为什么要先做单因素,然后做多因素