散点图在统计中的作用_统计学散点图-数据分析

散点图在统计中的作用_统计学散点图

散点图主要是度量两变量关系强弱的最直观的图形，虽然三维图形也在起着类似的作用，但就直观性上仍然不能取代二维图的效果，不过在探索多维变量间关系上提供了非常好的视角，另外比较常用的是侦察相对回归面的异常值，尤其具有可视化的优势，不过个人认为这并不比二维图更清晰。至于矩阵图其本质上仍然是二维关系。

下面从不同的侧重点来说明

1）探索数据主体模型

proc sortdata=data_anl.performance;by scale;run;

proc sgplotdata=data_anl.performance;

scatter x=gcharacteristic y=jaim /group=scale;

ellipse x=gcharacteristic y=jaim;

run;

散点的相对疏离程度主要反映在相关系数上，其趋势状况是由回归系数，或斜率来反映。

散点分布信息如线性，非线性，提供了统计模型的多项式信息；而分布的长短对应数据或统计信息的大小。图中显示了线性、且第一组提供的信息更丰富一点（方差大）。

95%的预测区间，给出了数据的主体模型，及其可能存在异常值的观测信息，如果两变量s与j线性关系已经确定的话，那么符号圆点、加号两组均有异常案例，其中圆点组有较多的异常。这对模型的预测效果将产生很大的影响。

2）探索模型残差信息

proc sortdata=data_anl.performance;by scale;run;

proc sgplotdata=data_anl.performance;

title ‘reg to fit’;

reg y=gcharacteristic x=jaim/group=scale clm cli;

run;

第一组数据的离散性更大一点，预示着不同类型的异常信息，提示在建模时对这些观测需多加小心，其中杠杆点最值得关注。

95%的预测区间和置信区间，给出了不同组模型的拟合效果，两组数据比较相近，故置信区间有些重叠，至于模型残差信息，以第一组为例，红色箭头指向的那个点和蓝色箭头指向的点，均是较强的杠杆点，但杠杆点所起的效应是否会破坏模型的有效性，需要视OLS估计的残差而定，我们知道回归参数标准误来源于残差等信息的计算（正向关系），因此红色箭头点将带来的相对较大的残差（相对第一组回归线而言），如果这种信息超出了一定的规则，OLS估计将无效。

垂直特异性是另一个值得关注的异常信息，像第一组的数据（最下方的几个圆点，包括红色箭头指向的点）可能带来回归截距的变化（当然回归线两边分布点大致相当的话除外），如果数据点同时具有上述两种特征，那么该数据点没有理由不处理。

3）探索残差的相对信息