深度强化学习原理与实践：陈仲铭//何明 : 电子电脑 :电工无线电自动化 :自动化技术 :浙江新华书店网群

您现在的位置：全部商品分类 > 电子电脑 > 电工无线电自动化 > 自动化技术

深度强化学习原理与实践

定价： ~~￥99~~ 元
ISBN：9787115505323
开本：16开平装

折扣：折
出版社：人民邮电
页数：341页

作者：陈仲铭//何明
立即节省：元
2019-05-01 第1版
2019-05-01 第1次印刷

导语

内容提要

    本书构建了一个完整的深度强化学习理论和实践体系：从马尔可夫决策过程开始，根据价值函数、策略函数求解贝尔曼方程，到利用深度学习模拟价值网络和策略网络。书中详细介绍了深度强化学习相关算法，如Rainbow、Ape-X算法等，并阐述了相关算法的具体实现方式和代表性应用（如AlphaGo）。此外，本书还深度剖析了强化学习各算法之间的联系，有助于读者举一反三。
    本书分为四篇：初探强化学习、求解强化学习、求解强化学习进阶和深度强化学习。涉及基础理论到深度强化学习算法框架的各方面内容，反映了深度强化学习领域过去的发展历程和研究进展，有助于读者发现该领域中新的研究问题和方向。
    本书适用于计算机视觉、计算机自然语言的相关从业人员，以及对人工智能、机器学习和深度学习感兴趣的人员，还可作为高等院校计算机等相关专业本科生及研究生的参考用书。

第一篇  初探强化学习
  第1章  强化学习绪论
    1.1  初探强化学习
      1.1.1  强化学习与机器学习
      1.1.2  强化学习与监督学习的区别
      1.1.3  历史发展
    1.2  基础理论
      1.2.1  组成元素
      1.2.2  环境模型
      1.2.3  探索与利用
      1.2.4  预测与控制
      1.2.5  强化学习的特点
    1.3  应用案例
    1.4  强化学习的思考
      1.4.1  强化学习待解决问题
      1.4.2  强化学习的突破点
    1.5  小结
  第2章  数学基础及环境
    2.1  简介
    2.2  马尔可夫决策过程
      2.2.1  马尔可夫性质
      2.2.2  马尔可夫决策过程
    2.3  强化学习的数学基础理论
      2.3.1  策略
      2.3.2  奖励
      2.3.3  价值函数
    2.4  求解强化学习
      2.4.1  贝尔曼方程
      2.4.2  最优值函数
      2.4.3  最优策略
      2.4.4  求解最优策略
    2.5  示例：HelloGrid迷宫环境
      2.5.1  初识OpenAI Gym库
      2.5.2  建立HelloGrid环境
  2.6  小结
第二篇  求解强化学习
  第3章  动态规划法
    3.1  动态规划
      3.1.1  动态规划概述
      3.1.2  动态规划与贝尔曼方程
    3.2  策略评估
      3.2.1  策略评估算法
      3.2.2  策略评估算法实现
    3.3  策略改进
    3.4  策略迭代
      3.4.1  策略迭代算法
      3.4.2  策略迭代算法实现
    3.5  值迭代
      3.5.1  值迭代算法
  ……
  第4章  蒙特卡洛法
  第5章  时间差分法
第三篇  求解强化学习进阶
  第6章  值函数近似法
  第7章  策略梯度法
  第8章  整合学习与规划
第四篇  深度强化学习
  第9章  深度强化学习
  第10章  深度Q网络
  第11章  深度强化学习算法框架
  第12章  从围棋AlphaGo到AlphaGoZero
附录部分

全部商品分类

深度强化学习原理与实践

导语

内容提要

目录

售后服务

我的订单

订单支付

联系我们