导语
内容提要
山姆·阿拉帕蒂著的《Hadoop专家(管理调优与Spark\YARN\HDFS安全)》翻译自Sam R. Alapati 的Expert Hadoop Administration。Sam R. Alapati 是Sabre公司的首席Hadoop管理员,具有多年的Hadoop运维管理经验。他希望通过本书,为Hadoop集群开发与管理人员提供一些有益指导。
从事Hadoop的管理工作,首先要了解Hadoop的架构,只进行单纯的操作并不能被称为合格的管理员。基于此,本书在介绍Hadoop及其生态组件时,都会首先介绍其架构,以期读者能够在更高的层次认识管理工作。
本书首先介绍了Hadoop的整体架构及其部署与使用;然后着重介绍了两个重要的计算引擎MapReduce 与Spark;接着介绍了Hadoop的数据存储与安全、数据均衡等特性;最后则介绍了如何进行参数调优与故障排除。整个流程下来,读者能够建立起完整的关于Hadoop 管理的体系架构。
本书为Hadoop管理员而编写,同时也适合Hadoop开发人员使用。
作者简介
山姆·阿拉帕蒂,从事HadOoD管理已6年。他目前是Sabre公司的首席Hadoop管理员,每天在多个大型Hadoop集群上工作,是所有Hadoop管理的核心负责人。AIapati管理着多个Hadoop关键数据科学和数据分析工作流程。作为Oracle DBA白勺专家,Alapati在过去14年中出版了18本大受欢迎的Oracle技术方面的书籍。
目录
第Ⅰ部分 Hadoop架构与Hadoop集群介绍
第1章 Hadoop与Hadoop环境介绍
Hadoop简介
Hadoop 的特性
Hadoop 与大数据
Hadoop 的典型应用场景
传统数据库系统
数据湖
大数据、数据科学和Hadoop
Hadoop集群与集群计算
集群计算
Hadoop 集群
Hadoop组件和Hadoop生态
Hadoop管理员需要做些什么
Hadoop 管理—新的范式
关于Hadoop 管理你需要知道的
Hadoop 管理员的工具集
Hadoop 1和Hadoop 2的关键区别
架构区别
高可用性
多计算引擎
分离处理和调度
Hadoop 1 和Hadoop 2 中的资源分配
分布式数据处理:MapReduce和Spark、Hive、Pig
MapReduce
Apache Spark
Apache Hive
Apache Pig
数据整合:Apache Sqoop、Apache Flume和Apache Kafka
Hadoop管理中的关键领域
集群存储管理
集群资源分配
作业调度
Hadoop 数据安全
总结
第2章 Hadoop架构介绍
Had00p与分布式计算
Hadoop架构
Hadoop集群
主节点和工作节点
Hadoop服务
数据存储——Hadoop分布式文件系统
HDFs特性
HDFS架构
HDFS文件系统
NameNode操作
利用YARN(Had00p操作系统)进行数据处理
YARN的架构
ApplicationMaster如何与ResourceManager协作进行资源分配
总结
第3章 创建和配置一个简单的Hadoop集群
Hadoop发行版本和安装类型
……
第4章 规划和创建一个完全分布式集群
第Ⅱ部分 Hadoop应用架构
第5章 在集群上运行一个应用——MapReduce框架和Hive、Pig
第6章 集群上的应用—Spark框架介绍
第7章 运行Spark应用程序
第Ⅲ部分 管理和保护Hadoop数据和高可用性
第8章 NameNode的作用和HDFS的工作原理
第9章 HDFS命令、HDFS权限和HDFS存储
第10章 数据保护、文件格式和访问HDFS
第11章 NameNode操作、高可用性和联合
第IV部分 数据迁移、资源分配、作业调度及安全
第12章 将数据导入和导出Hadoop
第13章 Hadoop集群中的资源分配
第14章 使用Oozie管理作业工作流
第15章 Hadoop安全
第V部分 监控、优化和故障排除
第16章 管理作业、使用Hue和执行常规任务
第17章 监控、指标和Hadoop日志
第18章 调优集群资源,优化MapReduce作业和基准测试
第19章 在YARN上配置和调优Apache Spark
第20章 优化Spark应用程序
第21章 Hadoop故障排除一样例
附录A 安装VirtualBox和Linux以及虚拟机的克隆