本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

大数据分析方法与应用

大数据分析 cdadata 3003℃

大数据分析方法与应用

大数据分析:方法与应用
介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具,掌握复杂数据的分析与建模,使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,熟练掌握一种数据分析的语言,内容主要有:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。

大数据分析方法与应用本书介绍数据挖掘、统计学习和模式识别中与大数据分析相关的理论、方法及工具。理论学习的目标是使学生掌握复杂数据的分析与建模;方法学习的目标是使学生能够按照实证研究的规范和数据挖掘的步骤进行大数据研发,工具学习的目标是使学生熟练掌握一种数据分析的语言。本书内容由 10章构成:大数据分析概述,数据挖掘流程,有指导的学习,无指导的学习,贝叶斯分类和因果学习,高维回归及变量选择,图模型,客户关系管理、社会网络分析、自然语言模型和文本挖掘。

大数据分析方法与应用
本书可用做统计学、管理学、计算机科学等专业进行数据挖掘、机器学习、人工智能等相关课程的本科高年级、研究生教材或教学参考书。
目录:
第 1章 大数据分析概述 ……………………………………………………………………………………………………..1
1.1 大数据概述 ……………………………………………………………………………………………………………1
1.1.1 什么是大数据 …………………………………………………………………………………………….1
1.1.2 数据、信息与认知 ……………………………………………………………………………………..2
1.1.3 数据管理与数据库 ……………………………………………………………………………………..5
1.1.4 数据仓库 ……………………………………………………………………………………………………7
1.1.5 数据挖掘的内涵和基本特征 ……………………………………………………………………….9
1.2 数据挖掘的产生与功能 ………………………………………………………………………………………..10
1.2.1 数据挖掘的历史 ……………………………………………………………………………………….10
1.2.2 数据挖掘的功能 ……………………………………………………………………………………….12
1.3 数据挖掘与相关领域之间的关系 ………………………………………………………………………….13
1.3.1 数据挖掘与机器学习 ………………………………………………………………………………..14
1.3.2 数据挖掘与数据仓库 ………………………………………………………………………………..14
1.3.3 数据挖掘与统计学 ……………………………………………………………………………………15
1.3.4 数据挖掘与智能决策 ………………………………………………………………………………..16
1.3.5 数据挖掘与云计算 ……………………………………………………………………………………17
1.4 大数据研究方法 …………………………………………………………………………………………………..18
1.5 讨论题目 ……………………………………………………………………………………………………………..19
1.6 推荐阅读 ……………………………………………………………………………………………………………..20
第 2章 数据挖掘流程 ……………………………………………………………………………………………………….22
2.1 数据挖掘流程概述 ……………………………………………………………………………………………….22
2.1.1 问题识别 ………………………………………………………………………………………………….23
2.1.2 数据理解 ………………………………………………………………………………………………….25
2.1.3 数据准备 ………………………………………………………………………………………………….26
2.1.4 建立模型 ………………………………………………………………………………………………….27
2.1.5 模型评价 ………………………………………………………………………………………………….27
2.1.6 部署应用 ………………………………………………………………………………………………….30
2.2 离群点发现 ………………………………………………………………………………………………………….30
2.2.1 基于统计的离群点检测 …………………………………………………………………………….31
2.2.2 基于距离的离群点检测 …………………………………………………………………………….32
2.2.3 局部离群点算法 ……………………………………………………………………………………….34
2.3 不平衡数据级联算法 ……………………………………………………………………………………………36
2.4 讨论题目 ……………………………………………………………………………………………………………..41
2.5 推荐阅读 ……………………………………………………………………………………………………………..43
第 3章 有指导的学习 ……………………………………………………………………………………………………….45
3.1 有指导的学习概述 ……………………………………………………………………………………………….45
3.2 k-近邻………………………………………………………………………………………………………………….493.3 决策树 …………………………………………………………………………………………………………………51

3.3.1 决策树的基本概念 ……………………………………………………………………………………51
3.3.2 分类回归树 ………………………………………………………………………………………………53
3.3.3 决策树的剪枝 …………………………………………………………………………………………..54
3.4 提升方法 ……………………………………………………………………………………………………………..58
3.5 随机森林树 ………………………………………………………………………………………………………….63
3.5.1 随机森林树算法的定义 …………………………………………………………………………….64
3.5.2 如何确定随机森林树算法中树的节点分裂变量 …………………………………………64
3.5.3 随机森林树的回归算法 …………………………………………………………………………….65
3.6 人工神经网络 ………………………………………………………………………………………………………68
3.6.1 人工神经网络基本概念 …………………………………………………………………………….68
3.6.2感知器算法 ………………………………………………………………………………………………69
3.6.3 LMS算法…………………………………………………………………………………………………72
3.6.4 反向传播算法 …………………………………………………………………………………………..74
3.6.5 神经网络相关问题讨论 …………………………………………………………………………….79
3.7 支持向量机 ………………………………………………………………………………………………………….83
3.7.1 最大边距分类 …………………………………………………………………………………………..84
3.7.2 支持向量机问题的求解 …………………………………………………………………………….85
3.7.3 支持向量机的核方法 ………………………………………………………………………………..87
3.8 多元自适应回归样条 ……………………………………………………………………………………………91
3.9 讨论题目 ……………………………………………………………………………………………………………..93
3.10推荐阅读 ……………………………………………………………………………………………………………95
第 4章 无指导的学习 ……………………………………………………………………………………………………….97
4.1关联规则 ……………………………………………………………………………………………………………..97
4.1.1静态关联规则算法 Apriori算法 ………………………………………………………………..98
4.1.2动态关联规则算法 Carma算法………………………………………………………………..102
4.1.3 序列规则挖掘算法 ………………………………………………………………………………….104
4.2聚类分析 ……………………………………………………………………………………………………………106
4.2.1 聚类分析的含义及作用 …………………………………………………………………………..106
4.2.2 距离的定义 …………………………………………………………………………………………….106
4.2.3 系统层次聚类法 ……………………………………………………………………………………..108
4.2.4 k-均值算法 ……………………………………………………………………………………………..108
4.2.5 BIRCH算法…………………………………………………………………………………………… 110
4.2.6 基于密度的聚类算法 ……………………………………………………………………………… 111
4.3基于预测强度的聚类方法 ………………………………………………………………………………….. 113
4.3.1 预测强度 ……………………………………………………………………………………………….. 115
4.3.2 预测强度方法的应用 ……………………………………………………………………………… 115
4.3.3 案例分析 ……………………………………………………………………………………………….. 115
4.4 聚类问题的变量选择 ………………………………………………………………………………………….122
4.4.1 高斯成对罚模型聚类 ………………………………………………………………………………122
4.4.2 各类异方差成对罚模型聚类 ……………………………………………………………………123
4.4.3 几种聚类变量选择的比较 ……………………………………………………………………….127
4.5 讨论题目 ……………………………………………………………………………………………………………128
4.6 推荐阅读 ……………………………………………………………………………………………………………129
第 5章 贝叶斯分类和因果学习 ……………………………………………………………………………………….130
5.1 贝叶斯分类 ………………………………………………………………………………………………………..130
5.2 决策论与统计决策论 ………………………………………………………………………………………….132
5.2.1 决策与风险 …………………………………………………………………………………………….132
5.2.2 统计决策 ………………………………………………………………………………………………..136
5.3 线性判别函数和二次判别函数 ……………………………………………………………………………138
5.4 朴素贝叶斯分类 …………………………………………………………………………………………………143
5.5 贝叶斯网络 ………………………………………………………………………………………………………..145
5.5.1 基本概念 ………………………………………………………………………………………………..145
5.5.2 贝叶斯网络的应用 ………………………………………………………………………………….146
5.5.3 贝叶斯网络的构建 ………………………………………………………………………………….148
5.6 案例:贝叶斯网络模型在信用卡违约概率建模中的应用 ……………………………………..155
5.7 讨论题目 ……………………………………………………………………………………………………………157
5.8 推荐阅读 ……………………………………………………………………………………………………………160
第 6章 高维回归及变量选择 …………………………………………………………………………………………..161
6.1 线性回归模型 …………………………………………………………………………………………………….161
6.2 模型选择 ……………………………………………………………………………………………………………173
6.2.1 模型选择概述 …………………………………………………………………………………………174
6.2.2 偏差-方差分解………………………………………………………………………………………..179
6.2.3 模型选择准则 …………………………………………………………………………………………180
6.2.4 回归变量选择 …………………………………………………………………………………………184
6.3 广义线性模型 …………………………………………………………………………………………………….188
6.3.1 二点分布回归 …………………………………………………………………………………………188
6.3.2 指数族概率分布 ……………………………………………………………………………………..190
6.3.3 广义线性模型 …………………………………………………………………………………………192
6.3.4 模型估计 ………………………………………………………………………………………………..193
6.3.5 模型检验与诊断 ……………………………………………………………………………………..194
6.4 高维回归系数压缩 ……………………………………………………………………………………………..202
6.4.1 岭回归 ……………………………………………………………………………………………………203
6.4.2 LASSO…………………………………………………………………………………………………..204
6.4.3 Shooting算法………………………………………………………………………………………….205
6.4.4 路径算法 ………………………………………………………………………………………………..207
6.4.5 其他惩罚项及 Oracle性质 ……………………………………………………………………… 211
6.4.6 软件实现 ………………………………………………………………………………………………..213
6.5 总结……………………………………………………….214
6.6 讨论题目 ……………………………………………………………………………………………………………214
6.7 推荐阅读 ……………………………………………………………………………………………………………216
第 7章 图模型 ………………………………………………………………………………………………………………..217
7.1 图模型基本概念和性质 ………………………………………………………………………………………218
7.1.1 图矩阵 ……………………………………………………………………………………………………220
7.1.2 概率图模型概念和性质 …………………………………………………………………………..220
7.2 协方差选择 ………………………………………………………………………………………………………..222
7.2.1 用回归估计图模型 ………………………………………………………………………………….222
7.2.2 基于最大似然框架的方法 ……………………………………………………………………….225
7.3 指数族图模型 …………………………………………………………………………………………………….229
7.3.1 基本定义 ………………………………………………………………………………………………..229
7.3.2 参数估计及假设检验 ………………………………………………………………………………231
7.4 谱聚类 ……………………………………………………………………………………………………………….234
7.4.1 聚类和图划分 …………………………………………………………………………………………234
7.4.2 谱聚类 ……………………………………………………………………………………………………235
7.5 总结…………………………………………….242
7.6 讨论题目 ……………………………………………………………………………………………………………242
7.7 推荐阅读 ……………………………………………………………………………………………………………243
第 8章 客户关系管理 ……………………………………………………………………………………………………..245
8.1 协同推荐模型 …………………………………………………………………………………………………….245
8.1.1 基于邻域的算法 ……………………………………………………………………………………..246
8.1.2 矩阵分解模型 …………………………………………………………………………………………249
8.2 客户价值随机模型 ……………………………………………………………………………………………..252
8.2.1 客户价值的定义 ……………………………………………………………………………………..252
8.2.2 客户价值分析模型 ………………………………………………………………………………….253
8.2.3 客户购买状态转移矩阵 …………………………………………………………………………..254
8.2.4 利润矩阵 ………………………………………………………………………………………………..257
8.2.5 客户价值的计算 ……………………………………………………………………………………..259
8.3 案例:银行卡消费客户价值模型 ………………………………………………………………………..259
8.4 推荐阅读 ……………………………………………………………………………………………………………265
第 9章 社会网络分析 ……………………………………………………………………………………………………..266
9.1 社会网络概述 …………………………………………………………………………………………………….266
9.1.1 社会网络概念与发展 ………………………………………………………………………………266
9.1.2 社会网络的基本特征 ………………………………………………………………………………269
9.1.3 社群挖掘算法 …………………………………………………………………………………………271
9.1.4 模型的评价 …………………………………………………………………………………………….272
9.2 案例:社会网络在学术机构合作关系上的研究 …………………………………………………..273
9.3讨论题目 ……………………………………………………………………………………………………………278
9.4推荐阅读 ……………………………………………………………………………………………………………278
附录 A 本章 R程序 …………………………………………………………………………………………………279
第 10章 自然语言模型和文本挖掘 ………………………………………………………………………………….281
10.1向量空间模型 …………………………………………………………………………………………………..282
10.1.1向量空间模型基本概念 ……………………………………………………………………….282
10.1.2特征选择准则 ……………………………………………………………………………………..283
10.2统计语言模型 …………………………………………………………………………………………………..284
10.2.1 n-gram模型 ………………………………………………………………………………………..284
10.2.2 主题 n-元模型……………………………………………………………………………………..286
10.3 LDA模型…………………………………………………………………………………………………………287
10.4 案例: LDA模型的热点新闻发现 ……………………………………………………………………..290
10.5推荐阅读 ……………………………………………………………………………………………………..293

转载请注明:数据分析 » 大数据分析方法与应用

喜欢 (2)or分享 (0)