导语
内容提要
数据分析、数据挖掘的本质是探寻数据背后的逻辑,挖掘人们的欲望、需求、态度等。宋云生、张坚洪、黎新年著的《探寻数据背后的逻辑(R语言数据挖掘之道)》不仅仅教会读者如何掌握数据挖掘相关技能,更教会读者如何从数据挖掘结果中分析出更深层次的逻辑。
本书主要介绍使用R语言进行数据挖掘的过程。具体内容包括R软件的安装及R语言基础知识、数据探索、数据可视化、回归预测分析、时间序列分析、算法选择流程及十大算法介绍、数据抓取、社交网络关系分析、情感分析、话题模型、推荐系统,以及数据挖掘在生物信息学中的应用。另外,本书还介绍了R脚本优化相关内容,使读者的数据挖掘技能更上一层楼。
本书适合从事数据挖掘、数据分析、市场研究的工作者及学生群体,以及对数据挖掘和数据分析感兴趣的初级读者。
目录
第1章 万事不只开头难
1.1 工欲善其事,必先利其器:安装
1.1.1 安装R和R
1.1.2 安装数据包
1.1.3 数据包加载、卸载、升级,查看帮助文档
1.1.4 什么样的R包值得相信
1.2 了解R的对象
1.2.1 如何进行常见的算术运算
1.2.2 R语言的三大数据类型
1.2.3 向量及其运算
1.2.4 因子变量鲜有人知的秘密
1.2.5 矩阵相关运算及神奇的特征值
1.2.6 数据框及其筛选、替换、添加、排序、去重
1.2.7 与数组(array)相比,表单(list)的用处更加广泛
1.2.8 如何进行数据结构之间的转化
1.3 R语言的重器:函数
1.3.1 自编函数
1.3.2 有用的R字符串函数
1.4 控制流在R语言里只是一种辅助工具
1.4.1 判断
1.4.2 循环
1.5 数据的读入与输出
1.5.1 常见数据格式的输入/输出(CSV、TXT、RDATA、XLSX)
1.5.2 数据库连接:Oracle、MySQL及Hive
1.5.3 乱码就像马赛克一样让人讨厌
第2章 数据探索,招招都是利器
2.1 不要在工作后才认识“脏数据”
2.1.1 以老板信服的方式处理缺失数据
2.1.2 异常值预警
2.1.3 字符处理正则表达式不再是天书
2.2 数据透视、数据整形、关联融合与批量处理
2.2.1 还忘不掉Excel的数据透视表吗
2.2.2 你能给数据做整形手术吗:long型和wide型
2.2.3 关联合并表
2.2.4 数据批处理:R语言里最重要的一个函数家族:*pply
2.3 一招完成数据探索报告
2.4 拯救你的很多时候是基础理论
2.4.1 参数检验及非参检验
2.4.2 学了很多算法却忘了方差分析
2.4.3 多因素方差分析及协方差作用
2.4.4 很多熟悉的数据处理方法已经成笑话,工具箱该换了
第3章 从商务气质的数据可视化说起
3.1 说说数据可视化的专业素养
3.1.1 数据可视化历史上有多少背影等你仰望
3.1.2 商务图表应该具有哪些素质
3.1.3 那些你不知道的图表误导性伎俩
3.1.4 如何快速解构著名杂志的图表
3.2 ggplot2包:一个价值8万美元的态度
3.2.1 一张图学会ggplot2包的绘图原理
3.2.2 基础绘图科学:ggplot2包的主题函数继承关系图(关系网络图)
3.2.3 基础图表一网打尽
3.2.4 古老的地图焕发新颜
3.3 将静态图转为D3交互图表:plotly
3.4 从基础到进阶的变形图表
3.4.1 马赛克图(分类变量描述性分析)
3.4.2 Sankey图和chordDiagram图
第4章 分位数回归模拟股票指数风险通道
4.1 用线性回归预测医院的药品销售额
……
第5章 时间序列分析
第6章 选择什么算法也有一套流程
第7章 深入浅出十大算法
第8章 数据抓取
第9章 不可不说的社交网络关系
第10章 情感分析:一种准确率高达90%的新方法?
第11章 话题模型:很多牛人过不去的坎儿
第12章 排名就是简单的推荐系统吗?
第13章 生物信息学中的数据挖掘案例
第14章 产品化:关于内存、速度和自动化