统计分析方法分类
1)数据的统计推断:参数估计与假设检验
方差分析: (proc anova/glm(多因子非均衡时使用))
(要求所研究的指标具有独立性,正态性和方差齐性)
研究若干个因素及因素间的交互作用对一个(或多个)指标的影响,解决如下的问题:
a、对指标的影响,哪些因素重要,哪些因素不重要
b、每个因素中哪种水平对指标来说最好
c、各因素以什么样的水平搭配起来对指标最有利
基本方法:
把试验数据的总波动分解为由说考虑因素引起的波动和随机因素引起的波动,并分析各因素的波动对总波动的影响,从而判别因素对指标影响是否显著以及影响是否巨大。
2)简化数据结构(降维问题):将某些复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关,或把高维空间的数据投影到低维空间,使问题简化且损失的信息也不太多。(主成分分析、因子分析、对应分析等)
主成分分析(proc princomp):
当变量个数较多,彼此间存在多重共线性,因为使得观测数据有一定程度的信息重叠,希望用较少的几个综合变量来代替原来较多变量,使得几个综合变量彼此互不相关,且尽可能多地反映原变量的信息。设法将原来的变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析。
因子分析
根据相关性的大小把变量分组,使得同组内的变量相关性高,不同组变量的相关性较低,然后在每一个组内提炼出一个公因子。
从大量的指标中提取有代表性的共性因子,比如客户忠诚度,满意度等。主成份分析是寻找一种逼近,能够最大可能的描述数据的变化(variability)。因子分析可以理解为一个隐变量模型。由此可以说,因子分析某种程度上是一个参数模型。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
3)分类与判别(归类问题)
对所考察的变量按相似程度进行分类(聚类分析、判别分析等)
聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度而不同组中的数据对象是不相似的。相似或者不相似描述的是基于数据描述属性的取值来确定的。通常是利用各对象间的距离来进行表示。
数据挖掘领域的聚类算法有很多种,其中k-means聚类算法是最简单而且非常有效的聚类算法。采用k-means聚类算法对整个用户空间进行聚类的主要步骤如下:
(1)随机选择k个用户作为种子节点,将k个用户对项的评分数据作为初始的聚类中心。
(2)对剩余的用户集合,计算每个用户与k个聚类中心的相似性,将每个用户分配到相似性最高的聚类中。
(3)对新生成的聚类,计算聚类中所有用户对项的平均评分,生成新的聚类中心。
(4)重复以上2到3步,直到聚类不再发生改变为止。
例如:通过分组聚类出具有相似行为的客户,并分析客户的共同特征,
可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。
判别分析
判别分析是按照一定的判别准则,建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。据此即可确定某一样本属于何类。例如:为了确诊某种疾病,需要将病人的各项检测指标同各种典型的病历做对照,从而判断其最可能属于哪种疾病。
4)变量间的相互联系
分析一个或几个变量的变化是否依赖于另一些变量的变化(回归分析)
分析两组变量间的相互关系(典型相关分析)
回归分析
目的:设法找出变量间的依存(数量)关系, 用函数关系式表达出来。
所谓回归分析法,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式)。
回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。
此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。
回归分析法是定量预测方法之一。它依据事物内部因素变化的因果关系来预测事物未来的发展趋势。由于它依据的是事物内部的发展规律,因此这种方法比较精确。测报工作中常用的是一元线性回归和多元线性回归模型。
一元线性回归是指事物发展的自变量与因变量之间是单因素间的简单线性关系,它的模型可以表示为: y=a+bx
其中y是因变量,x是自变量,a是常数,b是回归系数。
多元线性回归是指一个因变量与多个自变量之间的线性关系。模型的一般型式为y=a+b1x1+b2x2+…+bnxn 其中,y是因变量,x1、x2、…xn是自变量,a是常数,b1、b2、…bn是回归系数。
logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。
在数据挖掘过程中,各种方法使配合使用的。
转载请注明:数据分析 » 统计分析方法分类_统计学分类数据分析_统计方法分类_统计分析方法