简单抽样和复杂抽样
简单抽样。从下列选项中选择抽样方法:
a)从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如,如果最大样本大小设置为 10000,则前 10000 条记录会被选中。
b) n 中取 1。选择此选项会按照这样的方式抽样数据:每隔 n 个记录传递或丢弃一次。例如,如果 n 设为 5,则每隔五条记录便会选中一条。
c) 随机 %。选择此选项会随机抽样指定百分比的数据。例如,如果百分比设置为 20,则根据选择的模式,将 20% 的数据传递到数据流或将其丢弃。使用该字段可指定抽样百分比。您还可以使用设置随机数种子控件指定一个种子值。
通过复杂样本选项,您可以与其他选项一起更好地控制样本,包含聚类样本、分层样本和加权样本。
聚类和分层。允许您指定聚类和分层,如果需要请输入加权字段。
样本类型。
a) 随机。在每一层内随机选择聚类或记录。
b) 系统化。以固定间隔选择记录。除了会根据随机种子更改第一条记录的位置之外,此选项工作原理与 n 中取 1 方法基本相似。n 的值会根据样本大小和比例自动确定。
样本单元。可以选择比例或计数作为基本样本单元。
样本大小。您可以按以下几种方式指定样本大小:
a) 固定。允许您将样本总大小指定为计数或比例。
b) 自定义。允许您为每个子组或分层指定样本大小。此选项只有在“聚类”和“分层”子对话框中指定了层字段时才可用。
c) 变量。允许用户挑选一个字段来为每一个子组或层定义样本大小。对于特定层内的每条记录,此字段应该都有相同的值;例如,如果样本按县分层,那么具有 county = Surrey 的所有记录必须具有相同值。该字段必须为数值型并且它的值必须与所选样本单元相匹配。比例的值应该大于 0 小于 1;计数的最小值为 1。
每层的最小样本。指定记录的最小值(如果已指定了聚类字段,可指定聚类的最小值)。
每层的最大样本。指定记录或聚类的最大值。如果在没有指定聚类或分层字段的情况下选择了此选项,则将选择指定大小的随机或系统化样本。
转载请注明:数据分析 » 简单抽样和复杂抽样_ 复杂抽样_简单随机抽样