全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 电工无线电自动化 > 自动化技术

Hadoop专家(管理调优与Spark\YARN\HDFS安全)

  • 定价: ¥168
  • ISBN:9787121356698
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:电子工业
  • 页数:726页
  • 作者:(美)山姆·阿拉帕...
  • 立即节省:
  • 2019-03-01 第1版
  • 2019-03-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    山姆·阿拉帕蒂著的《Hadoop专家(管理调优与Spark\YARN\HDFS安全)》翻译自Sam R. Alapati 的Expert Hadoop Administration。Sam R. Alapati 是Sabre公司的首席Hadoop管理员,具有多年的Hadoop运维管理经验。他希望通过本书,为Hadoop集群开发与管理人员提供一些有益指导。
    从事Hadoop的管理工作,首先要了解Hadoop的架构,只进行单纯的操作并不能被称为合格的管理员。基于此,本书在介绍Hadoop及其生态组件时,都会首先介绍其架构,以期读者能够在更高的层次认识管理工作。
    本书首先介绍了Hadoop的整体架构及其部署与使用;然后着重介绍了两个重要的计算引擎MapReduce 与Spark;接着介绍了Hadoop的数据存储与安全、数据均衡等特性;最后则介绍了如何进行参数调优与故障排除。整个流程下来,读者能够建立起完整的关于Hadoop 管理的体系架构。
    本书为Hadoop管理员而编写,同时也适合Hadoop开发人员使用。

作者简介

    山姆·阿拉帕蒂,从事HadOoD管理已6年。他目前是Sabre公司的首席Hadoop管理员,每天在多个大型Hadoop集群上工作,是所有Hadoop管理的核心负责人。AIapati管理着多个Hadoop关键数据科学和数据分析工作流程。作为Oracle DBA白勺专家,Alapati在过去14年中出版了18本大受欢迎的Oracle技术方面的书籍。

目录

第Ⅰ部分  Hadoop架构与Hadoop集群介绍
第1章 Hadoop与Hadoop环境介绍
    Hadoop简介
    Hadoop 的特性
    Hadoop 与大数据
    Hadoop 的典型应用场景
    传统数据库系统
    数据湖
    大数据、数据科学和Hadoop
    Hadoop集群与集群计算
    集群计算
    Hadoop 集群
    Hadoop组件和Hadoop生态
    Hadoop管理员需要做些什么
    Hadoop 管理—新的范式
    关于Hadoop 管理你需要知道的
    Hadoop 管理员的工具集
    Hadoop 1和Hadoop 2的关键区别
    架构区别
    高可用性
    多计算引擎
    分离处理和调度
    Hadoop 1 和Hadoop 2 中的资源分配
    分布式数据处理:MapReduce和Spark、Hive、Pig
    MapReduce
    Apache Spark
    Apache Hive
    Apache Pig
    数据整合:Apache Sqoop、Apache Flume和Apache Kafka
    Hadoop管理中的关键领域
    集群存储管理
    集群资源分配
    作业调度
    Hadoop 数据安全
    总结
第2章  Hadoop架构介绍
    Had00p与分布式计算
    Hadoop架构
    Hadoop集群
    主节点和工作节点
    Hadoop服务
    数据存储——Hadoop分布式文件系统
    HDFs特性
    HDFS架构
    HDFS文件系统
    NameNode操作
    利用YARN(Had00p操作系统)进行数据处理
    YARN的架构
    ApplicationMaster如何与ResourceManager协作进行资源分配
    总结
第3章  创建和配置一个简单的Hadoop集群
    Hadoop发行版本和安装类型
……
第4章  规划和创建一个完全分布式集群
第Ⅱ部分  Hadoop应用架构
第5章  在集群上运行一个应用——MapReduce框架和Hive、Pig
第6章  集群上的应用—Spark框架介绍
第7章  运行Spark应用程序
第Ⅲ部分  管理和保护Hadoop数据和高可用性
第8章  NameNode的作用和HDFS的工作原理
第9章  HDFS命令、HDFS权限和HDFS存储
第10章  数据保护、文件格式和访问HDFS
第11章  NameNode操作、高可用性和联合
第IV部分  数据迁移、资源分配、作业调度及安全
第12章  将数据导入和导出Hadoop
第13章  Hadoop集群中的资源分配
第14章  使用Oozie管理作业工作流
第15章  Hadoop安全
第V部分  监控、优化和故障排除
第16章  管理作业、使用Hue和执行常规任务
第17章  监控、指标和Hadoop日志
第18章  调优集群资源,优化MapReduce作业和基准测试
第19章  在YARN上配置和调优Apache Spark
第20章  优化Spark应用程序
第21章  Hadoop故障排除一样例
附录A  安装VirtualBox和Linux以及虚拟机的克隆