本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

缺失值的机制和传统处理方法_缺失值处理方法

数据分析 cdadata 5981℃

缺失值的机制和传统处理方法

随着缺失值处理方法的成熟和软件的易操作性,投稿国外杂志的论文不介绍缺失值处理程序很难通过审稿人的审查。

1 缺失值处理概述

科学研究中,缺失值是个非常普遍的现象,毫不夸张的说,凡是涉及到数据收集的情景均存在缺失值现象。在社会科学研究中,调查对象在完成问卷过程中可能因各种原因(如,疏忽大意、回避敏感问题)造成数据缺失。数据缺失对于研究者来说是个头痛的问题,不仅损失了信息也增加了工作量。传统的方法通常采用列删法(Listwise Deletion)或者对删法(Pairwise Deletion; Peugh & Enders, 2004)。这种做法简便易行,很多流行软件也提供此类功能,但是此类方法对缺失值的假设条件要求较高,不满足假设前提时产生估计偏差。随着研究的深入,新的处理方法不断发展,其中极大似然法和多重插补法最为学者推崇(Schafer, & Graham, 2002)。本节首先介绍缺失值的三种主要机制,接着简要介绍缺失值处理的传统方法及不足,最后着重介绍上述两种新方法并给出相应的Mplus例句。

2 缺失值的机制

缺失值的机制并非是造成缺失值的原因,而是描述缺失值与观测变量间可能的关系(Schafer, & Graham, 2002)。Rubin (1976)最早将缺失值的机制分为三类:随机缺失(Missing At Random, MAR),完全随机缺失(Missing Completely At Random, MCAR)和非随机缺失(Missing At Non-Random, MANR)。下面简要介绍三种机制的情况。

随机缺失(MAR)

当某变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无关时称作MAR。例如,在一次测试中,如果IQ达不到最低要求的100分,那么将不能参加随后的人格测验。在人格测验上因为IQ低于100分而产生的缺失值为MAR。

完全随机缺失(MCAR)

当某变量缺失值发生的可能性与其他变量无关也与该变量自身无关时称作MCAR。换句话说,某变量缺失值的出现完全是个随机事件。可以将存在MCAR变量的数据看做是假定完整数据的一个随机样本(Rubin 1976)。

非随机缺失(MANR)

当某变量出现缺失值的可能性只与自身相关时称作MANR。例如,公司新录用了20名员工,由于6名员工表现较差在试用期内辞退,试用期结束后的表现评定中,辞退的6名员工的表现分即为非随机缺失。

数据是否是完全随机缺失可以采用单变量t检验和Little (1988)提出的多元t检验。其原理是,如果变量X的缺失值是完全随机的,那么在X上缺失和非缺失两组样本间在第二个变量Y上的均值差异是不显著的,否则存在某种相关性。多元t检验可在SPSS上运行。然而均值差异比较并非能保证MCAR,因为在MAR和MANR条件先也能产生相等的均值(Enders, 2010)。

目前,缺失检验MAR的有效程序,幸运的是严重违反MAR假设的情况相对较少(Graham et al., 1997, p. 354; Schafer & Graham, 2002)。研究者推荐使用包含辅助变量(Auxiliary Variables,与缺失值相关的因素)的方法减少估计偏差并提高满足MAR假设的可能性(Collins et al., 2001; Rubin, 1996; Schafer, 1997; Schafer & Graham, 2002)。具体来说,在分析缺失值数据时将辅助变量纳入分析过程,但辅助变量并不出现在模型中(在Mplus中的程序见表9-)。

3 缺失值处理的传统方法

列删法 将存在缺失值的被试删除。列删法操作方便,仍目前流行的缺失值处理方法(Peugh & Enders, 2004)。列删法的假设机制是MCAR,在很多情况下很难满足此假设,所以会产生偏差的参数估计(e.g., Enders & Bandalos, 2001)。由于删除了非缺失信息,损失了样本量,进而削弱了统计功效。但是,当样本量很大而缺失值所占样本比例较少时(<5%)可以考虑使用列删法,但任然存在上述不足。

对删法 在计算相关矩阵时,用所有可获得的数据计算,不管是否存在缺失值。同列删法一样,对删法的假设机制也是MCAR,在不满足假设时产生估计偏差(e.g., Enders & Bandalos, 2001)。由于计算每对相关系数基于差异较大的样本,所以存在协方差矩阵非正定的风险(Graham, 2009)。另外,样本的差异也会使计算标准误产生问题(Enders, 2010; Graham, 2009)。

均值替代法(Mean Substitution)使用每个变量的均值去填补该变量的缺失值。这种方法产生估计偏差(Little & Rubin, 1987),最不为方法学者推荐(Al

转载请注明:数据分析 » 缺失值的机制和传统处理方法_缺失值处理方法

喜欢 (1)or分享 (0)