关于标准化回归系数
关键词:标准化回归系数 回归分析 标准化系数 标准化偏回归系数
问:甚么情况下用标准化回归系数?甚么情况下用非标准化回归系数? 是不是常数项通过检验就用非标准,通不过检验就用标准化?
标准化回归系数(Beta值)在多元回归中被用来比较变量间的重要性。但是由于重要性这一词意义的含糊性,这一统计常被误用。
有时人们说重要性,是指同样的条件下,哪一个东西更有效。在提高教学质量上,是硬件条重要还是师资更重要?如果是师资更重要,那么同样的物力投在师资上就可以更快地提高教学质量。但是这里要比较的两者必须有同样的测量单位,如成本(元)。如果变量的单位不同,我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。
而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与某一特定的情况下,自变量间的离散程度有关。比如说,虽然我们不能绝对地说出教育和年资在决定收入上那一个一定是重要的,但如果现在大家的教育程度比较相似,那么在收入的决定上,工作年数就是决定因素;反之,如果工作年数没有太大区别,那么教育就成为了重要原因。这里的重要性是相对的,是根据不同情况而改变的。再举一个通俗的例子,研究者研究的是遗传因素和后天因素对于人成长的影响。那么在一个社会境遇悬殊巨大的环境中,有人在贫民窟成长,有人在贵族学校上学,那么我们会发现人格的大部分差异会从后天环境因素得到解释,而遗传的作用就相对较小;相反,如果儿童都是在一个相差不大的环境中长大的,你会发现,遗传会解释大部分的人格差异。这种意义上的重要性,不仅与这一自变量的回归系数有关系,而且还与这个自变量的波动程度有关系:如果其波动程度较大,那么就会显得较为重要;否则,就显得不太重要。标准化回归系数正是测量这种重要性的。从标准化回归系数的公式 中也可看出,Beta值是与自变量的标准差与成正比的,自变量波动程度的增加,会使它在这一具体情况下的重要性增加。
但是如果将两种重要性混同,就会得到误导性结论。如环境因素的Beta值比遗传因素的Beta值大,就认为在个体的人格发展上应更注意环境因素,而轻视遗传因素,在目前对于Beta值的错误观念非常流行,甚至是一些高手中。
标准化回归系数的比较结果只是适用于某一特定环境的,而不是绝对正确的,它可能因时因地而变化。举例来说,从某一次数据中得出,在影响人格形成的因素中,环境因素的Beta值比遗传因素的Beta值大,这只能说明数据采集当时当地的情况,而不能加以任何不恰当的推论,不能绝对地不加任何限定地说,环境因素的影响就是比遗传因素大。事实上,如果未来环境因素的波动程度变小,很可能遗传因素就显得更为重要。数据的情况千差万别,变量的相对重要性也可能完全不同但都符合当时的实际情况。
你必须明白,我们通常根据非标准化系数来做最后的回归结论,而非标准系数主要是在多元回归中用来比较变量间的重要性。如果用非标准系数得到结论,是有偏差的,因为此时的自变量的数据已经发生了变化,成为标准化数据,如果知道一个自变量数据来代入求因变量时必须标准化数据。
标准化是去除纲量的,比如生产原煤的单位是吨,掘进进尺的单位为米,不光单位不同数量级也是不同的,标准化后便没有纲量的影响了。常数项通不通过检验,都是用标准化前的,因为标准化后常数不就变成0了。
标准化是解决变量的纲量的,如果对线性回归得到的数据进行标准化处理就是使其去除单位的影响,更加精确,从而使回归方程更易于表达,回归效果更加明显.而数据标准化之后,其常数项是不存在的了.是否标准化主要是看你的回归方程,并不是取决于常数是不是通过检验.
使用标准化回归系数,可以消除自变量各单位之间的相互影响作用
当需要比较多个自变量对因变量相对作用大小时,可以采用标准化回归系数,
当我们只是想解释自变量对因变量的作用时,可以采用非标准化回归系数
和常数项通不过检验应该无直接关系。
一般比较多个变量,我们是尽量假设他们具有相同的刻度分化的。如果要精确地考虑,如果变量的单位不同,我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。
而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与某一特定的情况下,自变量间的离散程度有关。标准化回归系数的比较结果只是适用于某一特定环境的,而不是绝对正确的,它可能因时因地而变化。
另外,变量单位的变化会导致非标准化的变量回归系数改变,但其标准化的回归系数就会保持不变,也同样可以说明这个问题。
一般比较多个变量,我们是尽量假设他们具有相同的刻度分化的。如果要精确地考虑,如果变量的单位不同,我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想进行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。
而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与某一特定的情况下,自变量间的离散程度有关。标准化回归系数的比较结果只是适用于某一特定环境的,而不是绝对正确的,它可能因时因地而变化。
另外,变量单位的变化会导致非标准化的变量回归系数改变,但其标准化的回归系数就会保持不变,也同样可以说明这个问题。
转载请注明:数据分析 » 关于标准化回归系数_标准化回归系数 _回归分析 标准化系数