本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

IBM SPSS Modeler数据与文本挖掘实战

spss培训 cdadata 5756℃

IBM SPSS Modeler数据与文本挖掘实战

国内首本SPSS Modeler数据与文本挖掘实战教程,15个行业应用案例的经验分享

本书提供资源文件下载,下载地址: http://pan.baidu.com/s/1eQEedKA

编辑推荐
  本书是完全来自于实践的Modeler数据分析与挖掘的实战型著作;
全书通过15个行业应用案例,介绍Modeler在数据分析与挖掘领域中的应用;
本书是作者在行业工作中的经验分享,因此所涉及到的案例具体很强的实用性,可以用来解决你在商业应用中的实际问题。
内容简介
《IBM SPSS Modeler数据与挖掘实战》一书书主要包括两部分内容:在数据挖掘部分,重点介绍了各种数据挖掘方法的基本原理及应用,包括回归分析、时间序列分析、因子分析、决策树分析、判别分析、聚类分析、人工神经网络、贝叶斯网络以及社交网络分析等;在文本挖掘部分,重点介绍了文本挖掘的节点,以及具体的实现过程。每一章都详细介绍了数据和文本挖掘的基本原理和分析过程,同时在实例中也介绍了SPSS Modeler中大部分节点的使用方法及应用步骤。
本书提供了15个来自行业应用中的案例,旨在通过系统的工作案例使读者能够掌握应用技巧的同时,卓有成效地提升解决实际问题的能力。
本书对于高校理工学科、经济金融学科及数量分析方面的学生,以及数据挖掘和分析方面的研究人员和从业人员等,具有很强的可读性、可操作性与可使用性,尤其适合商业销售、经济管理、社会研究和人文教育等行业的相关人员阅读。
作者简介
  王国平,毕业于上海海洋大学,硕士,就职于上海大智慧股份有限公司,从事金融数据研究、金融产品设计工作,有多年的数据挖掘与分析以及行业案例实践经验。本书是首本著作,是在实践工作中的经验分享。
目  录

第1部分 数据挖掘篇
第1章 数据挖掘概述
  1.1 什么是数据挖掘
    1.1.1 数据挖掘的定义
    1.1.2 数据挖掘的发展阶段
    1.1.3 数据挖掘的技术特征
  1.2 与传统技术的比较
    1.2.1 数据挖掘和统计分析
    1.2.2 数据挖掘和数据仓库
    1.2.3 数据挖掘和OLAP
    1.2.4 数据挖掘和Web挖掘
  1.3 常用的数据挖掘软件
    1.3.1 SAS EM
    1.3.2 SPSS Modeler
    1.3.3 Intelligent Miner
  1.4 应用实例:目标客户分析
    1.4.1 研究方法
    1.4.2 数据分析
    1.4.3 研究结论
第2章 SPSS Modeler软件概述
  2.1 软件简介
    2.1.1 软件发展
    2.1.2 软件界面
    2.1.3 软件特点
    2.1.4 软件功能
    2.1.5 软件算法
    2.1.6 高级功能
    2.1.7 软件安装
  2.2 行业应用
    2.2.1 通信行业
    2.2.2 政府行业
    2.2.3 金融行业
    2.2.4 制造行业
    2.2.5 医药行业
    2.2.6 教育科研
    2.2.7 市场调研
    2.2.8 连锁零售
  2.3 数据挖掘流程
    2.3.1 业务理解
    2.3.2 数据理解
    2.3.3 数据准备
    2.3.4 建立模型
    2.3.5 评估模型
    2.3.6 应用模型
  2.4 应用实例:药物效果研究
    2.4.1 研究方法
    2.4.2 数据分析
    2.4.3 研究结论
第3章 SPSS Modeler基础操作
  3.1 数据输入
    3.1.1 数据库
    3.1.2 可变文件
    3.1.3 固定文件
    3.1.4 SAS文件
    3.1.5 Statistics文件
    3.1.6 Excel文件
  3.2 数据流操作
    3.2.1 生成数据流
    3.2.2 添加和删除节点
    3.2.3 连接数据流
    3.2.4 修改连接节点
    3.2.5 执行数据流
  3.3 图形制作
    3.3.1 散点图
    3.3.2 直方图
    3.3.3 网络图
    3.3.4 评估图
  3.4 应用实例:产品销售预测
    3.4.1 研究方法
    3.4.2 数据分析
    3.4.3 研究结论
第4章 回归分析
第5章 时间序列
第6章 因子分析
第7章 决策树
第8章 判别分析
第9章 聚类分析
第10章 关联分析
第11章 人工神经网络
第12章 贝叶斯网络
第13章 社交网络分析
第2部分 文本挖掘篇
第14章 文本挖掘概述
第15章 文本挖掘算法
第16章 SPSS Modeler文本挖掘概述
第17章 SPSS Modeler文本挖掘节点
第18章 SPSS Modeler文本挖掘实例
附录A 配置SQL Server ODBC数据源
参考文献

前  言

数据挖掘是一个逐步演进的过程,在电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习正成为人们关注的焦点,机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,相应的软件通过学习这些范例总结并生成相应的规则,通常这些规则具有通用性,使用它们可以快速解决某一类的实际问题。随着神经网络技术的形成和发展,人们将注意力转向知识工程,知识工程不同于机器学习(向计算机输入范例,让它生成规则),而是直接给计算机输入已被代码化的规则,计算机通过使用这些规则来解决某些问题。
上个世纪80年代人们又在新的神经网络理论的指导下,重新将注意力转回到机器学习的方法上,并将其成果应用于处理大型商业数据库。随着新术语——知识发现(简称KDD,即Knowledge Discovery in Database)逐渐被人们所接受,并用KDD来描述整个数据挖掘的过程,包括最开始的制定业务目标到最终的结果分析,利用数据挖掘(Data Mining)来描述使用挖掘算法进行数据挖掘的子过程,在这一过程中,数据挖掘工具的选择变得越来越重要。
IBM SPSS Modeler强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据当中,帮助客户揭示了隐藏在交易系统、企业资源计划、结构数据库和普通文件中的模式和趋势,让客户始终站在行业发展的前端,IBM公司于2009年收购了SPSS数据分析软件公司,并将其和Clementine数据挖掘软件进行整合,且将Clementine更名为IBM SPSS Modeler,再次推向全球市场,本书介绍的是15.0版本,也是目前的最新版本。
作为一个数据挖掘平台,Modeler结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中应用价值的其他数据挖掘工具相比,Modeler功能强大的数据挖掘算法,使数据挖掘贯穿于业务流程的始终,在缩短投资回报周期的同时极大地提高了投资回报率。

本书的主要优势:
目前,市场上大多数的SPSS Modeler图书基本上还是按照较早版本的Clementine编写,而且大多是理论性的介绍,没有结合具体的案例进行深入分析。
理论部分:解决案例所涉及的理论知识和算法,SPSS Modeler 作为数据挖掘的工具毕竟不是智能化的,需要了解工具的内在理论和逻辑,才能更有效地进行数据挖掘。
案例分析:使用数据挖掘理论对案例进行分析,找出解决问题的技术路线,帮助读者从解决问题的角度进行思考。

本书面向的读者:
本书由数据挖掘与分析研究人员编写,书中实例都具有很高的参考价值。本书对于高校理工学科、经济金融学科及数量分析方面的学生,以及数据挖掘和分析方面的研究人员和从业人员等,具有很强的可读性、可操作性与可使用性,尤其适合商业销售、经济管理、社会研究和人文教育等行业的相关人员阅读。
本书提供资源文件下载,下载地址: http://pan.baidu.com/s/1eQEedKA

致谢:
本书是编者近年来使用SPSS Modeler的经验汇总与提炼,在写作过程中,得到了编者领导、同事、老师、同学以及朋友的帮助,借本书出版之际,向他们表示诚挚的感谢!
最后还要特别感谢清华大学出版社的支持,以及各位编辑热情细致的工作。由于作者水平有限,书中难免会出现不足和错误,敬请广大读者批评与指正。

编者
2014年9月于上海

在线试读部分章节

  8.1.2模型应用
判别分析技术曾经在许多领域得到成功的应用,例如在医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;在体育选材中,根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物/植物分类、儿童心理测验、地理区域的经济差异、决策行为预测等。
在市场调研中,一般根据事先确定的因变量(例如产品的主要用户、普通用户和非用户;自有房屋或租赁;电视观众和非电视观众)找出相应处理的区别特性。在判别分析中,因变量为类别数据,有多少类别就有多少类别处理组;自变量通常为可度量数据。通过判别分析,可以建立能够最大限度地区分因变量类别的函数,考查自变量的组间差异是否显著,判断哪些自变量对组间差异贡献最大,评估分类的程度,根据自变量的值将样本归类。
8.1.3建模步骤
判别分析的本质是要建立一个可靠的判别函数。判别函数一般为基于分类数据各变量的线性组合函数,将每一个观测的各变量数据代入判别函数得到函数值,根据函数值的大小,按照判别准则实现对样品的分类,而不同判别分析的差异主要在于判别函数的构建和样本分类时判别准则的差异。
1.对已知分组属性案例的处理
此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。
2.对未知分组属性案例的处理
此阶段为判别分析的第二阶段,它是以第一阶段的分析结果为依据对未知分组属性的案例进行判别分组。确定一个案例属于哪一类,可以把该观测量的各变量值代入每个线性判别函数,哪个判别函数值大,则该案例就属于哪一类。
8.1.4注意事项
判别分析的基本条件是:分组变量必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的。
每个解释变量不能是其他解释变量的线性组合(例如出现多重共线性情况时,判别权重会出现问题)。
各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(当各组协方差矩阵有显著差异时,判别函数不相同)。
判别分析对判别变量有三个基本假设:其一是每一个判别变量不能是其他判别变量的线性组合,否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计的统计性不显著;其二是各组案例的协方差矩阵相等,在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验;其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
8.2应用实例:电信客户群判别分析
客户群分析是进行客户活动和销售的基础。根据客户和经销商的采购潜力,客户可以被分成大型、中型和小型客户(经销商/区域)。根据自己公司在这个客户(经销商/区域)中的份额,市场份额低于10%的客户(经销商/区域)处于增长区,市场份额介于10%~30%之间的客户(经销商/区域)处于发展区,份额大约30%的客户(经销商/区域)处于巩固区,因此所有的客户和经销商被分成了9类,对处于不同区域的客户(经销商/区域)应该采取不同的销售策略。对于消费品市场,还可以在客户分析表中填入经销商的名字或者销售区域来分析销售区域或者经销商。
根据客户群分析,销售团队可以制定正确的销售策略。
处于增长区的客户往往很少使用自己公司的产品,这时销售团队的销售重点应是对客户的宣传和介绍,销售方式包括各种广告、新闻发布会、展览会。
对于处于发展区的客户,销售团队的重点是深入了解客户需求并建立互信的关系,销售方式包括拜访、在客户现场的技术交流、重要客户的参观和考察、提供测试环境和样品等。
巩固区的客户已经大量使用了自己的产品,这时最重要的是提高他们的满意程度,帮助客户解决使用过程中的难题是确保客户满意的第一步,这是一个系统的工程,销售团队往往扮演协调者的角色,使用公司的资源来提高客户的满意程度。
在本案例中,我们刚开始进入市场的时候,客户都处于增长区,销售策略是通过大型展会进入中小客户市场,由于竞争对手对中小客户的忽视,使销售额迅速增长起来。当销售团队的力量和资源成长起来的时候,才进入大型客户市场,这样能够确保很高的获胜概率。
8.2.1研究方法
判别式分析是一项根据输入字段值对记录进行分类的统计技术。这种技术与线性回归类似,但用分类目标字段代替了数值字段。假设某个电信提供商根据服务使用模式对它的客户群进行了分段,将这些客户分为了4个组。如果人口统计学数据可用于预测组成员资格,则可以为各个潜在客户自定义服务。
8.2.2数据分析
1.定义数据源
本实例将使用Modeler附带的名为telco.sav的数据文件,该文件位于SPSSModeler安装程序的Demos目录中,如图8-1所示。该实例主要关注于使用人口统计数据预测使用模式,目标字段的客户类别具有4个可能的值,分别对应4个客户组:①基本服务;②电子服务;③增值服务;④全套服务。
图8-1电信客户群模型
2.数据理解
添加“类型”节点并单击“读取值”按钮,确保所有测量水平设置正确。例如,具有值0和1的多数字段可视为标志,如图8-2所示。
图8-2数据理解
若要更改具有相似值(如0/1)的多个字段,请单击“值”列,以便按值对字段进行排序,然后在按住Shift键的同时使用鼠标或箭头键选择所有要更改的字段,可以右键单击选定的内容,以更改选定字段的测量级别或其他属性。
更准确而言,性别应视为具有两个值的集合字段,而不是标志,所以将其测量值保留为名义。将“客户类别(custcat)”字段的“角色”设置为“目标”,将所有其他字段的“角色”设置为“输入”,如图8-3所示。
图8-3角色设置
因为此实例主要关注人口统计,所以请使用“过滤”节点选取相关字段(地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别)。其他字段可以排除在此分析之外,如图8-4所示。
图8-4字段过滤
另外,可以将这些字段的“角色”更改为“无”,而不要排除这些字段,或者选择要在“建模”节点中使用的字段。
3.数据准备
首先,设置“流属性”对话框,以便在输出中显示变量和值标签。从菜单中选择:“文件”→“流属性”→“选项”,选中“在输出中显示字段和值标签”,然后单击“确定”按钮,如图8-5所示。
图8-5数据准备
4.建立模型
在“判别式”节点中,打开“模型”选项卡,然后选择“逐步法”,如图8-6所示。
图8-6建立模型
在“专家”选项卡中,将“模式”设置为专家,然后单击“输出”按钮。在“高级输出”对话框中,选择“汇总表”、“区域图”和“步骤汇总”,然后单击“确定”按钮,如图8-7所示。
图8-7输出选项
在“专家”选项卡中,将“模式”设置为专家,然后单击“步进”按钮。在“使用F值”中“纳入”和“移除”都使用默认的数值,分别是3.84和2.71,如图8-8所示。
图8-8输出选项
单击“运行”按钮以创建模型,该模型将添加到流和位于右上角的“模型”选项卡中。若要查看其详细信息,请双击流中的模型,如图8-9所示。
图8-9预测变量重要性
5.模型评估
打开“高级”选项卡,单击“在外部浏览器中启动”按钮以在Web浏览器中查看结果,如图8-10所示。
图8-10判别式分析
拥有大量预测变量时,逐步法有助于自动选择“最适合的”用于模型的变量。逐步法的最初模型不包括任何预测变量。在每个步骤中,会将具有超出输入标准值(默认为3.84)的最大FtoEnter值的预测变量添加到模型中,如图8-11所示。
图8-11逐步法变量
在最后一个步骤中保留在分析之外变量的FtoRemove值都大于3.84,因此不再向分析中添加其他变量,如图8-12所示。
图8-12逐步法变量
此表显示了每个步骤中包括在分析中的变量的统计信息。容差是指该变量的方差中不能由方程式的其他自变量解释的部分所占比例。容差很小的变量可以向模型提供的信息很少,并且可导致计算问题。
FtoRemove值有助于说明从当前模型中删除某个变量(假设其他变量仍保留)时可能发生的情况。输入变量的FtoRemove与上述步骤中的FtoEnter相同。
逐步法很方便,但也有其局限。请注意,因为逐步法仅根据统计意义选择模型,所以它有可能选择不具有实际意义的预测变量。如果比较熟悉数据并对有重要意义的预测变量有所预期,那么应该利用经验而不使用逐步法。但是,如果存在多个预测变量而不知道从何处着手,则运行逐步分析法并调整选定的模型比完全没有模型要好。检查模型拟合,如图8-13所示。
图8-13模型拟合程度
几乎所有由模型解释的方差都源于前两个判别函数。三个函数可自动拟合,但由于第三个函数特征值极小,可以完全忽视此函数而不用担心安全性,如图8-14所示。
图8-14模型判别函数
对于每一个函数集合,该判别式将检验各组所列函数的均值相等的假设。对函数3的检验具有的显著性值大于0.10,因此该函数对模型而言意义甚微,如图8-15所示。
图8-15模型相关度
当存在多个判别式函数时,用星号来标记每个变量与某典型函数的最大绝对相关度。在每个函数内部,这些标记星号(*)的变量将按相关度大小排序。
家庭成员数、婚姻状况与第三个函数具有最强相关度,但该函数是无用函数,因此这些变量是几乎无用的预测变量,如图8-16所示。
图8-16模型区域图
区域图有助于研究组与判别式函数之间的关系。结合结构矩阵的结果,区域图能够对预测变量和组之间的关系提供图形化的解释。第一个函数显示在水平轴上,将组4(全套服务用户)从其他组中区分开来,因为教育程度与第一个函数具有很强的、明确的关联度,这表明全套服务用户通常具有最高的教育程度。第二个函数将组1和组3(基本服务和附加服务用户)区分开来。附加服务用户倾向于比基本服务用户具有更长工作时间和更大的年龄。尽管区域图表明电子服务用户受过良好教育并且具有中等工作经验,但无法很好地将它与其他组区分开来。
总体而言,标记有星号(*)的组的矩心靠近区域边界时,则表明所有组间的分隔不是非常强。区域图仅绘制了前两个判别式函数,但由于第三个函数无关紧要,因此区域图提供了判别式模型的全面视图,如图8-17所示。
图8-17判别式函数
8.2.3研究结论
从图8-15可知,教育程度与第一个函数具有最强相关度,并且它是与该函数具有最强相关度的唯一变量,工作时间、年龄、家庭收入(以千计)、现住址居住时间、是否退休以及性别与第二个函数具有最强相关度,而性别、是否退休与该函数的相关度比其他变量要弱许多,其他变量将该函数标记为“稳定”函数。
从图8-17可以看出,模型的预测能力比预计的强大,但需要借助于分类结果才能确定其强大的程度。对于给定的观测数据,“空”模型(即不包括任何预测变量的模型)将把所有用户分类到附加服务模型组,因此,空模型的正确率将是25.9%,模型可获得较之空模型多34.7%(即60.6%)的用户。

……

转载请注明:数据分析 » IBM SPSS Modeler数据与文本挖掘实战

喜欢 (7)or分享 (0)