全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 电工无线电自动化 > 自动化技术

Hadoop数据分析/图灵程序设计丛书

  • 定价: ¥69
  • ISBN:9787115479648
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:人民邮电
  • 页数:211页
  • 作者:(美)本杰明·班福...
  • 立即节省:
  • 2018-04-01 第1版
  • 2018-04-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本杰明·班福特、珍妮·基姆著的《Hadoop数据分析》旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。
    本书适合数据科学领域的从业人员,以及对数据分析感兴趣的研究人员。

目录

前言
第一部分  分布式计算入门
  第1章  数据产品时代
    1.1 什么是数据产品
    1.2 使用Hadoop构建大规模数据产品
      1.2.1 利用大型数据集
      1.2.2 数据产品中的Hadoop
    1.3 数据科学流水线和Hadoop生态系统
    1.4 小结
  第2章  大数据操作系统
    2.1 基本概念
    2.2 Hadoop架构
      2.2.1 Hadoop集群
      2.2.2 HDFS
      2.2.3 YARN
    2.3 使用分布式文件系统
      2.3.1 基本的文件系统操作
      2.3.2 HDFS文件权限
      2.3.3 其他HDFS接口
    2.4 使用分布式计算
      2.4.1 MapReduce:函数式编程模型
      2.4.2 MapReduce:集群上的实现
      2.4.3 不止一个MapReduce:作业链
    2.5 向YARN提交MapReduce作业
    2.6 小结
  第3章  Python框架和Hadoop Streaming
    3.1 Hadoop Streaming
      3.1.1 使用Streaming在CSV数据上运行计算
      3.1.2 执行Streaming作业
    3.2 Python的MapReduce框架
      3.2.1 短语计数
      3.2.2 其他框架
    3.3 MapReduce进阶
      3.3.1 combiner
      3.3.2 partitioner
      3.3.3 作业链
    3.4 小结
  第4章  Spark内存计算
    4.1 Spark基础
      4.1.1 Spark栈
      4.1.2 RDD
      4.1.3 使用RDD编程
    4.2 基于PySpark的交互性Spark
    4.3 编写Spark应用程序
    4.4 小结
  第5章  分布式分析和模式
    5.1 键计算
      5.1.1 复合键
      5.1.2 键空间模式
      5.1.3 pair与stripe
    5.2 设计模式
      5.2.1 概要
      5.2.2 索引
      5.2.3 过滤
    5.3 迈向最后一英里分析
      5.3.1 模型拟合
      5.3.2 模型验证
    5.4 小结
第二部分  大数据科学的工作流和工具
  第6章  数据挖掘和数据仓
    6.1 Hive结构化数据查询
      6.1.1 Hive命令行接口(CLI)
      6.1.2 Hive查询语言
      6.1.3 Hive数据分析
    6.2 HBase
      6.2.1 NoSQL与列式数据库
      6.2.2 HBase实时分析
    6.3 小结
  第7章  数据采集
    7.1 使用Sqoop导入关系数据
      7.1.1 从MySQL导入HDFS
      7.1.2 从MySQL导入Hive
      7.1.3 从MySQL导入HBase
    7.2 使用Flume获取流式数据
      7.2.1 Flume数据流
      7.2.2 使用Flume获取产品印象数据
    7.3 小结
  第8章  使用高级API进行分析
    8.1 Pig
      8.1.1 Pig Latin
      8.1.2 数据类型
      8.1.3 关系运算符
      8.1.4 用户定义函数
      8.1.5 Pig小结
    8.2 Spark高级API
      8.2.1 Spark SQL
      8.2.2 DataFrame
    8.3 小结
  第9章  机器学习
    9.1 使用Spark进行可扩展的机器学习
      9.1.1 协同过滤
      9.1.2 分类
      9.1.3 聚类
    9.2 小结
  第10章  总结:分布式数据科学实战
    10.1 数据产品生命周期
      10.1.1 数据湖泊
      10.1.2 数据采集
      10.1.3 计算数据存储
    10.2 机器学习生命周期
    10.3 小结
附录A 创建Hadoop伪分布式开发环境
附录B 安装Hadoop生态系统产品
术语表
关于作者
关于封面