异常值探测的相关理论及方法
摘要:异常值是影响统计数据质量的一个非常重要的因素,一直以来,我国的统计界以及社会各界均对此问题给予很高的关注。所以,近年来有关异常值的理论探讨一直是个热点问题。但是目前研究的重点一直放在统计法律制度的健全以及统计工作程序完善等方面。虽然这两点确实能提高统计数据的质量,但对于已经形成的统计数据,在进行统计分析之前,我们更关注的是统计数据的误差问题,即所提供的统计数据与客观的社会经济现象实际的数量特征之间的差距问题。异常值的存在,使得统计分析的误差大大增大,小则出现差错,大则可能发生事故,甚至可能会导致严重的宏观决策失误。因此,在利用已得数据进行统计分析之前,必须对异常值进行探测和检验。
一、概述
异常数据挖掘,又称为离群点分析或者孤立点挖掘。在人们对数据进行分析处理的过程中,经常会遇到少量这样的数据,它们与数据一般模式不一致,或者说与大多数样相比有些不一样。我们称这样的数据为异常数据,对异常数据的处理在某些领域很有价值,例如在网络安全领域,可以利用异常数据挖掘来分析网络中的异常行为;在金融领域异常数据挖掘可以识别信用卡的欺诈交易、股市的操控行为、会计信息的虚假报价、欺诈贷款等。
异常数据挖掘涉及两个基本问题。其一,在对一个给定的数据集分析之前必须事先约定满足什么样的数据才是异常数据,也就是异常数据定义的问题。其二,用什么方法来从给定的数据集中将异常数据提取出来。
二、异常数据的定义
异常数据是少量的、与众不同的,与大多数数据相比是有偏差的,而且产生这种偏差的原因不是随机的,而是有其更深层次的必然原因,它产生于完全不同的机制。
为了从数据集中识别异常数据,就必须有一个明确的标准。这需要找到数据的内在规律,在一个可接受的误差范围内,满足内在规律的数据就是正常数据,而不满足内在规律的数据就是异常数据。这种数据间的内在规律可以根据数据本身的特点从位置关系、函数关系、规则关系、序列关系等方面来考查。
(1) 位置关系
位置关系是数据间的最常见的一种关系,大多数正常数据具有很大的相似性而符合一个共同模式,在空间上表现在一起的趋势,团结在一个或者多个核心的周围,而那些异常数据则表现得离群,他们总是离所有的核心都很远。
(2) 函数关系
函数关系也是一种常见的数据关系,即大多数数据都符合某个函数模型,因此数据点大多分布在函数曲线附近,而那些异常数据则距离曲线比较远。
(3) 规则关系
如果数据集中某些符合某个规则条件,则称这些数据具有规则关系。具有同一规则关系的正常数据一般会使该规则的结论成立,而如果某个数据具有该规则关系但不能是该结论成立,那么他就是异常数据规则的一般形式为 A1&A2…&An—>C
这里Ai和C都是对数据特征的描述。
(4) 序列关系
序列关系是指数据集中的某些数据满足某种序列模式,而那些相同条件下不满足序列模式的数据就是异常数据。
三、异常挖掘的常用方法
异常数据挖掘方法是数据挖掘的一个重要方向。许多研究人员从不同角度及不同的应用领域出发,提出了不同类型的挖掘方法。从技术来源看,这些方法可以划分为基于统计的方法、基于距离的方法、基于偏离的方法和
基于聚类的方法。
(1) 基于统计的方法
基于统计的方法的基本思想是根据数据集的特性事先假定一个数据分布的概率模型,然后根据模型的不一致性来确定异常。首先对给定的数据集假设一个概率分布模型,然后在某个显著水平上,确定数据集的拒绝域或者接受域,拒绝域是时出现概率很小的区间,如果数据落在此区间,则判定为异常数据。
统计学的方法的优点是很明显的,它建立在成熟的统计学理论基础上,只要给定概率模型,其他统计模型非常有效,异常点的含义也非常明确。
(2) 基于距离的方法
基于距离的方法主要是基于数据点间的距离来发现异常点,由于它具有比较明显的几何解释,是当前使用最普遍的方法。基于距离的方法的基本思想是以距离的大小来检测小模式,异常点是那些被认为没有足够的邻居的点。他可以述为数据集N中,至少有P个对象和对象O的距离大于d,则对象O是一个带参数P和d的基于距离的异常点。
(3) 基于密度的方法
基于距离的方法对全局各个聚类的数据提出了统一的P和d参数,但是如果各个聚类本身密度的不同,则基于距离的方法会出现问题,因此提出了基于密度模型的局部异常点挖掘算法。
在这种情况下,数据是否异常不仅取决于它与周围数据的距离得大小,而且与邻域内的密度状况有关,一个邻域内的密度可以用包含固定数据点个数的邻域半径或者指定半径邻域中包含的数据点数来描述。
(4) 基于偏离的方法
基于偏离的方法的基本思想是通过检查一组对象的主要特性来确定异常,如果一个对象的特性与给定的描述过分的偏离,则该数据被认为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP数据看立体方法。序列异常技术的核心是要构建一个相异度函数,对于一个包含了很多样本的数据集,如果样本间的相似度较高,相异度函数的值就比较小,反之,如果样本间的相异度越大,相异度函数的值就越大(例如方差就是满足这种要求的函数)。OLAP数据立方体方法利用在大规模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单
元值显著不同于根据同居模型得到的期望值,则该单元值被认为是一个异常点。
(5) 基于聚类的方法
基于聚类的方法的基本思想是将异常挖掘的过程转换成聚类的过程。首先是将数据集利用已经成熟的模型进行聚类分析,将数据集划分为多个簇,然后选择那些离簇的质心比较远的样本作为异常点。
四、基于统计的异常检测方法:检测一元正态分布中的异常点
假定用一个参数模型来描述数据的分布 (如正态分布),应用基于统计分布的异常点检测方法依赖于数据分布、参数分布 (如均值或方差)、期望异常点的数目及(置信度区间)
异常点的概率定义:异常点是一个对象,关于数据的概率分布模型,它具有低概率,概率分布模型通过估计用户指定的分布的参数,由数据创建。例如如果假定数据具有高斯分布,则基本分布的均值和标准差可以通过计算数据的均值和标准差来估计,然后可以估计每个对象在该分布下的概率。
下面利用统计学中最常使用的分布之一:高斯(正态)分布,来介绍一种简单的统计学异常点检测方法。正态分布用记号:N (μ,σ)表示,μ表示均值,σ表示方差。
来自N(0,1)分布的对象(值)出现在分布尾部的机会很小。例如,对象落在 3标准差的中心区域以外的概率仅有0.0027。更一般地,如果x是属性值,则|x|>=c的概率随c增加而迅速减小。设α= p (|x| ≥c)。表6-1显示当分布为N(0,1)时c的某些样本值和对应的α值。注意:离群值超过4个标准差的值出现的可能性是万分之一。
转载请注明:数据分析 » 异常值探测的相关理论及方法