导语
内容提要
本书主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。
第1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。
第2篇介绍了网络数据采集、数据清洗、数据存储等技术。
第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为最终的数据可视化奠定基础。
第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了最新的结构化流式处理技术。
第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。
本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。
目录
第1篇 Python程序设计
第1章 Python入门
1.1 Python概述
1.1.1 Python的发展历程
1.1.2 Python生态的应用
1.1.3 Python的前景
1.2 搭建Python开发环境
1.2.1 独立安装
1.2.2 安装Anaconda
1.3 Python开发工具介绍
1.4 Python软件包的管理
1.4.1 搜索软件
1.4.2 安装软件
1.4.3 卸载软件
1.4.4 更新软件
1.4.5 显示已安装软件包
1.5 实训:编写“Hello World”
本章小结
第2章 Python基础
2.1 变量
2.1.1 什么是变量
2.1.2 变量与类型
2.1.3 变量赋值
2.1.4 动态类型
2.1.5 内存管理
2.1.6 垃圾回收
2.1.7 Python代码执行过程
2.2 标识符
2.2.1 有效的标识符
2.2.2 特殊标识符
2.2.3 关键字
2.2.4 内建模块
2.3 代码组织
2.3.1 缩进
2.3.2 代码注释
2.3.3 多行语句
2.4 输入与输出
2.4.1 输入
2.4.2 输出
2.4.3 一个完整的示例程序
2.5 运算符与优先级
2.6 新手问答
2.7 实训:设计一个简易计算器
本章小结
第3章 数据类型与流程控制
3.1 数字类型
3.1.1 数字对象的创建、修改与删除
……
第4章 函数、模块、包
第5章 面向对象的程序设计
第6章 高级主题
第2篇 数据采集与数据清洗
第7章 网络数据采集
第8章 数据清洗
第3篇 数据分析与可视化
第9章 NurmPy数值计算
第10章 Matplotib可视化
第11章 Pandas统计分析
第12章 Seaborn可视化
第4篇 大数据存储与快速分析篇
第13章 Hadoop数据存储与基本操作
第14章 Spark入门
第15章 Spark RDD编程
第16章 Spark SQL编程
第17章 Spark流式计算编程
第5篇 项目实战篇
第18章 分析电商网站销售数据
第19章 分析旅游网站数据
第20章 分析在售二手房数据
附录:Python常见面试题精选
主要参考文献