一、主成分分析PCA
1. 基本思想
主成分分析是一类常用的针对连续变量的降维方法,选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交。
主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量,经证明,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。因此,进行主成分分析时,选取最大的几个特征值对应的特征向量,并将数据映射在这几个特征向量组成的参考系中,达到降维的目的(选择的特征向量数量低于原始数据的维数)。
当分析中所选的变量具有不同的量纲,且差别比较大的情况下,应选择相关系数矩阵进行主成分分析。
主成分分析适用于变量之间具有相关关系,变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关,表明主成分分析是有意义的。
2.主成分的计算公式
3.散点图解
原始数据可以使用原坐标系中的向量来表示,协方差矩阵的特征向量为A和B,由于A方向的变异远大于B方向,因此,将所有点映射到A上,并使用A作为参考系来᧿述数据,这样忽略了数据在B方向上的变异,但却将二维的数据降低到了一维。
4. 主成分分析的步骤
5. 选择主成分个数
6. 应用场景
主成分法的应用大致分为三个方面: 1、对数据做综合打分; 2、 降维以便对数据进行描述;3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性,能够根据需求选取合适的主成分数量。
二、因子分析
1. 基本思想
因子分析是一类常用的连续变量降维并进行维度分析的方法,其经常采用主成分法作为其因子载荷矩阵的估计方法,在特征向量方向上,使用特征值的平方根进行加权,最后通过因子旋转,使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转,这种方法是一种正交旋转。
2. 正交旋转因子模型
3. 因子分析的一般步骤
4. 因子载荷矩阵的估计
5. 因子旋转
6. 因子分析的应用
1.聚类分析的基本逻辑
聚类分析的基本逻辑是计算观测值之间的距离或者相似度。距离较小、相似度较高,按照相似度进行分组。
具体可以分为三个步骤:
1. 从N个观测和K个熟悉数据开始;
2. 计算N个观测两两之间的距离;
3. 将距离近的观测聚为一类,将距离远的分为不同的类,最终达到组间的距离最大化,组内的距离最小化。
2.聚类分析的方法种类
系统聚类法(层次聚类):该方法可以得到较理想的分类,但是难以处理大量样本。
K-means聚类(非层次聚类、快速聚类):可以处理大量样本,但是不能提供类相似度信息,不能交互的决定聚类个数。
两步法聚类(先使用K-means聚类,后使用层次聚类)
3. 系统聚类
系统聚类,也就是层次聚类,指的是形成类相似度层次图谱,便于直观的确定类之间的划分。 其基本思想在于令 n 个样本自成一类,计算其两两之间的相似性,此时类间距离与样本间距离是等价的。把测度最小的两个类合并, 然后按照某种聚类方法计算类间的距离,再按最小距离准则并类。这样每次减少一类,持续下去, 直到所有样本都归为一类为止。 该方法可以得到较理想的分类,但是难以处理大量样本。
1. 基本步骤
(1)对数据进行变换处理;(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的)
(2)构造n个类,每个类只包含一个样本;
(3)计算n个样本两两间的距离;
(4)合并距离最近的两类为一新类;
(5)计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;
(6)画聚类图;
(7)决定类的个数,从而得出分类结果。
2. 数据预处理
不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响,因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对连续变量进行处理。
在聚类分析中,常用的聚类要素的数据处理方法有如下几种:
①Z soroes标准化
②标准差标准化
③正态标准化
经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
为了得到合理的聚类结果,不但要对数据进行标准化,还要对变量进行维度分析。一般采用因子分析进行维度分析,根据样本的特征选择因子转换的方法,对观测数据进行处理,并在保存的因子结果上进行聚类分析。
如果变量呈偏态分布,可以对数据进行函数变换来克服偏态性,如对数变换。
3.观测点间距离的计算
在聚类时的一个重要问题是定义样本距离,一般使用欧式距离或闵可夫斯基距离,闵可夫斯基距离公式如下:
4. 观测类间聚类的计算
另一个重要为题是定义两个类之间的距离,方法包括平均联接法、重心法和 Ward 最小方差法。
(1)平均连接法又称全连接法,即将一类的所有观测值与另一类的所有观测值分别做两两之间的距离,求所有距离的平均值作为类间距离:
(2)重心法计算的是观测类各自重心之间的距离:
(3)Ward 最小方差法: 基于方差分析的思想,如果分类合理,则同类样本间离差平方和应当较小,类与类间离差平方和应当较大。 Ward 最小方差法并类时, 总是使并类导致的类内离差平方和增量最小。因此,该方法很少受到异常值的影响,在实际应用中的分类效果较好,适用范围广。但该方法要求样品间的距离必须是欧氏距离。
4. K-means聚类
K-means 聚类是一种快速聚类法,适合应用于大样本量的数据。其方法可以总结为: 首先随机选择 K 个点作为中心点,所有样本与这 K 个中心点计算距离,距离最近的样本被归为与中心点同类的点,然后重新计算每个类的中心,再次计算每个样本与类中心的距离,并按照最短距离原则重新划分类,如此迭代直至类不再变化为止。
1. 基本步骤
(1)设定K值,确定聚类数(软件随机分配聚类中心所需的种子)。
(2)计算每个记录到类中心的距离(欧式聚类),并分成K类。
(3)然后把K类中心(均值)作为新的中心,重新计算距离。
(4)迭代到收敛标准停止。
2. 优缺点
该方法的优点是计算速度快,可用于样本量较大的数据,缺点是需要人为设定聚类的数量 K,同时其初始点的不同选择可能会形成不同的聚类结果,因此常常使用多次选择初始中心点,并对最终的多个聚类结果取平均的方法来构建稳定的模型。
3. 应用实例
发现异常值:如刷信用级别的违规者的行为会与正常消费行为在消费频次、平均消费金额等方面差异比较大,对其进行定位相当于发现异常点,因此要求对变量的转换不能改变其原有分布形态。常用的标准化方法如中心标准化、极差标准化不会改变分布形态,而且在聚类前往往需要使用标准化来消除变量的量纲。
四、对应分析
1. 类型
2. 对应分析和列联表分析的关系
在对两个分类变量进行分析时,列联表是常用的方式,但如果变量分类水平较多,往往很难直观地发现分类水平之间的相互联系,为此会使用对应分析方法来处理这个问题。
对应分析是用于寻求列联表的行和列之间的关系的一种低维图形表示法,它可以从直觉上揭示同一分类变量的各个类别之间的差异,以及不同分类变量各个类别之间的对应关系。
在对应分析中,列联表的每一行对应(通常是二维)图中的一点,每一列也对应同一图中的一点。本质上,这些点都是列联表的各行各列向一个二维欧式空间的投影,这种投影最大限度的保持了各行或各列之间的关系。
3. 对应分析和列联表分析的关系
4.对应图的解读方法
2-观察邻近区域
3-向量分析——偏好排序
4-向量的夹角——余弦定理
5.优缺点
定性变量划分的类别越多,这种方法的优势越明显。
简单对应分析的缺点:
五、多维尺度分析
1.相似性或距离测量
多维尺度分析用于衡量样本间相异性(距离)或相似性程度。由于变量类型的不同,样本间的距离或相似性往往也需要采用不同的方法来衡量,比如闵可夫斯基距离、卡方距离、余弦相似度等等,应当熟知距离/相似性测量的原理和适用性, 并正确使用。
2、多维尺度分析原理
3、多维尺度分析的应用
在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。
在需要比较样本间相异性或相似性的场合下,可以使用多维尺度分析,例如比较不同品牌/产品间相似性,用以寻找潜在的竞争对手。最终的结果往往是在二维感知图上来展示。
4、多维尺度分析与对应分析的区别
六、预测性数据分析方法
1. 简单线性回归
2. 多元线性回归
1.多元回归方程
2. 线性回归的五个假设
● 假设一: 解释变量和被解释变量之间存在线性关系;(违反,则模型预测能力差)
● 假设二:解释变量和扰动项不能相关;(违反则回归系数估计有偏)
● 假设三:解释变量之间不能强线性相关(膨胀系数);(违法则回归系数的标准误差被放大)
● 假设四:扰动项独立同分布(异方差检验、 DW 检验);(违反则扰动项的标准误差估计不准,T检验失效)
● 假设五:扰动项服从正态分布( QQ 检验)。(违反则T检验失效)
3. 模型变量的选择
4.线性回归分析的步骤
( 1) 要对数据做基本的分析,分析的是潜在的解释变量和被解释变量之间可能存在的基本关系;
( 2) 可以根据初步分析的结果构建候选模型;
( 3) 对候选模型进行有效性假设检验;
( 4)对模型的共线性和影响点进行检测,修正模型可能存在的偏差;
( 5)根据检测的结果对模型进行修正;
( 6)对修正后的模型重新进行必要的有效性假设检验、 共线性和影响点检测, 直到模型不再需要进一步修正为止;
( 7) 对修正后的模型进行预测检验。 建立有效的建模循环才能保证模型的正确性、有效性和精确性。
5. 残差假设的检查
残差需要满足独立同分布和正态分布两个假设。
6.离群值
离群值可能会导致拟合曲线产生偏差。一般使用统计量来识别可能的离群值。
7. 共线性
3.逻辑回归
1. 分类变量的相关性检验
分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法。
1. 列联表
3. 评判模型表现优劣的方法
(1)一致性分析:计算一 致的对数,不一致的对数、相等的对数来评估模型是否很好的预测了自身的数据。C值越大模型表现力越好。
通过混淆矩阵,能够确定预测模型的灵敏度和特异度。灵敏度指的是模型“击中”的概率,而特异度指的是模型“正确否定”的概率。公式为灵敏度=A/(A+B);特异度=D/(C+D)。
ROC 曲线是基于灵敏度和特异度画出的曲线。ROC 曲线下面积指的是 ROC 曲线和底线、右线围成的面积。由于灵敏度和特异度的取值范围都在[0,1]之间, ROC 曲线下面积值越接近1,表明模型预测能力越强。
七 、时间序列
时间序列:系统中某一变量或指标的数值或统计观测值,按时间顺序排列成一个数值序列,就称为时间序列(Time Series),又称动态数据。
1. 趋势分解法
1. 时间序列变化形式
时间序列主要考虑的因素是:
- 长期趋势(Long-term trend)
- 时间序列可能相当稳定或随时间呈现某种趋势。
- 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function)。
- 季节性变动(Seasonal variation)
- 按时间变动,呈现重复性行为的序列。
- 季节性变动通常和日期或气候有关。
- 季节性变动通常和年周期有关。
- 周期性变动(Cyclical variation)
- 相对于季节性变动,时间序列可能经历“周期性变动”。
- 周期性变动通常是因为经济变动。
- 随机影响(Random effects)
如图所示,黑色的曲线代表时间序列的原始取值, 而根据原始序列的时间走势就能确定该时间序列的长期趋势变动。 而很多行业都是存在季节性变动的趋势的。比如, 运输行业、风力发电行业。又比如, 水果和蔬菜价格等。 而循环趋势也成为周期趋势。比如经济周期趋势。相对而言, 循环和季节性趋势是原始序列中较为稳健的趋势变动。 而无规则的随机趋势是难以进行预测的,且波动较大。因此, 对于时间序列的拆分,通常是将较为稳健的长期循环以及季节性趋势拆分出来,而不考虑随机趋势的影响。
2. 时间序列模型
2. 时间序列分析预测法的分类
平滑预测法
包括移动平均法和指数平滑法两种,其具体是把时间序列作为随机变量,运用算术平均和加权平均的方法做未来趋势的预测。这样得到的趋势线比实际数据点的连线要平滑一些,故称平滑预测法。
趋势外推预测法
根据预测对象历史发展的统计资料,拟合成预先指定的某种时间函数,并用它来描述预测目标的发展趋势。
平稳时间序列预测法
由于平稳时间序列的随机特征不随时间变化,所以可利用过去的数据估计该时间序列模型的参数,从而可以预测未来。
3. 平稳时间序列 ARMA 模型