导语
内容提要
张浩彬著的《小白学数据挖掘与机器学习(SPSS Modeler案例篇)》用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。本书以IBM SPSS Modeler作为案例实践工具,首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了IBM SPSS Modeler工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点,用通俗的语言介绍具体的算法理论,同时在每章最后都附上应用案例,让读者更轻松地阅读本书并掌握对应的算法和实践操作。全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点,适合数据挖掘与机器学习入门读者阅读。
作者简介
张浩彬,人称浩彬老撕,曾任IBM大中华区商业智能事业部SPSS分析工程师,认知解决方案事业部数据分析专家;现任广东柯内特环境科技有限公司首席数据科学家。致力机器学习及SPSS技术分享,专注于人工智能技术与应用。微信公众号:探数寻理(wetalkdata)。
目录
第1章 数据挖掘那些事儿
1.1 当我们在谈数据挖掘时,其实在讨论什么
1.2 从 CRISP-DM 开启数据挖掘实践
第2章 数据挖掘之利器:SPSS
2.1 SPSS Modeler 简介
2.2 SPSS Modeler 的下载与安装
2.3 SPSS Modeler 的主界面及基本操作
2.3.1 SPSS Modeler 主界面介绍
2.3.2 鼠标基本操作
2.4 将 SPSS Modeler 连接到服务器端
第3章 巧妇难为无米之炊:数据,数据!
3.1 数据的身份
3.1.1 变量的测量级别
3.1.2 变量的角色
3.2 数据的读取
3.2.1 读取 Excel 文件数据
3.2.2 读取变量文件数据
3.2.3 读取 SPSS Statistics(.sav)文件数据
3.2.4 读取数据库数据
3.3 数据的基本设定
3.3.1 变量角色的设定
3.3.2 字段的筛选及命名
3.4 数据的集成
3.4.1 数据的变量集成:合并节点
3.4.2 数据的记录集成:追加节点
第4章 一点都不简单的描述性统计分析
4.1 分类变量的基本分析: “矩阵”节点
4.2 连续变量的基本分析:数据审核节点
4.2.1 连续变量基本分析指标介绍
4.2.2 “数据审核”节点
第5章 何为足够大的差异:常用的统计检验
5.1 假设检验
5.1.1 假设检验的基本原理
5.1.2 假设检验的一般步骤
5.2 连续变量与分类变量之间的关系: t 检验
5.2.1 两组独立样本均值比较
5.2.2 两组配对样本均值比较
5.2.3 使用 t 检验的前提条件
5.2.4 案例:使用均值比较分析电信客户的流失情况
5.3 两个连续变量之间的关系:相关分析
5.3.1 相关分析理论
5.3.2 案例:使用相关分析研究居民消费水平与国内生产总值的相关关系
5.4 两个分类变量之间的关系:卡方检验
5.4.1 卡方检验的原理
5.4.2 卡方检验的前提条件
5.4.3 案例:使用卡方检验研究两个分类字段之间的关系
第6章 从身高和体重的关系谈起:回归分析
6.1 一元线性回归分析
6.1.1 分析因变量与自变量的关系,构建回归模型
6.1.2 估计模型系数,求解回归模型
6.1.3 对模型系数进行检验,确认模型有效性
6.1.4 拟合优度检验,判断模型解释能力
6.1.5 借助回归模型进行预测
6.2 多元线性回归分析
6.2.1 估计模型系数,求解回归模型
6.2.2 对模型参数进行检验,确认模型有效性
6.2.3 拟合优度检验,判断模型解释能力
6.2.4 模型的变量选择
6.3 使用线性回归分析的注意事项
6.4 案例:使用回归分析研究影响房屋价格的重要因素
第7章 回归岂止这么简单:回归模型的进一步扩展
7.1 曲线回归
7.2 Logistic 回归
7.2.1 Logistic 回归理论
7.2.2 案例:使用 Logistic 回归模型分析个人收入水平影响因素
第8章 模型评估那些事儿:过拟合与欠拟合
8.1 过拟合与欠拟合
8.2 留出法与交叉验证
8.2.1 留出法与分层抽样
8.2.2 交叉验证
第9章 从看电影的思考到决策树的生成
9.1 决策树概述
9.2 决策树生成
9.2.1 从 ID3 算法到 C5.0 算法
9.2.2 CART 算法
9.3 决策树的剪枝
9.3.1 预剪枝策略
9.3.2 后剪枝策略
9.3.3 代价敏感学习
9.4 案例:用决策树分析客户违约情况
9.5 关于信息熵的扩展
第10章 人工神经网络:从人脑神经元开始
10.1 从人脑神经元到人工神经网络
10.2 感知机
10.3 人工神经网络
10.3.1 隐藏层的作用
10.3.2 人工神经网络算法
10.4 案例:利用人工神经网络分析某电信运营商的客户流失情况
第11章 物以类聚,人以群分:聚类分析
11.1 聚类思想的概述
11.2 聚类方法的关键:距离
11.3 K-Means 算法
11.3.1 K-Means 算法原理
11.3.2 轮廓系数(Silhouette coefficient)
11.4 案例:利用 K-Means 算法对不同型号汽车的属性进行聚类分群研究
第12章 啤酒+尿布=关联分析?
12.1 一个关于关联分析的传说
12.2 关联分析的基本概念
12.3 关联规则的有效性指标
12.4 Apriori 算法
12.4.1 生成频繁项集
12.4.2 生成关联规则
12.5 案例:利用 Apriori 算法对顾客的个人信息及购买记录进行关联分析
第13章 三个臭皮匠,赛过诸葛亮:集成学习算法
13.1 集成学习算法概述
13.2 3 种不同的集成学习算法
13.2.1 Bagging 算法
13.2.2 Boosting 算法
13.2.3 随机森林
13.3 集成学习算法实践
13.3.1 Bagging 算法和 Boosting 算法
13.3.2 随机森林
13.3.3 集成学习算法结果比较