全部商品分类

您现在的位置: 全部商品分类 > 电子电脑 > 电工无线电自动化 > 自动化技术

机器学习(算法背后的理论与优化)

  • 定价: ¥69
  • ISBN:9787302517184
  • 开 本:16开 平装
  •  
  • 折扣:
  • 出版社:清华大学
  • 页数:185页
  • 作者:史春奇//卜晶祎//...
  • 立即节省:
  • 2019-07-01 第1版
  • 2019-07-01 第1次印刷
我要买:
点击放图片

导语

  

内容提要

  

    以机器学习为核心的人工智能已经成为新一代生产力发展的主要驱动因素。新的技术正在向各行各业渗透,大有变革各个领域的趋势。传统产业向智慧产业的升级迫使原行业从业人员逐渐转型,市场上对相关学习材料的需求也日益高涨。帮助广大学习者更好地理解和掌握机器学习,是编写本书的目的。
    本书针对机器学习领域中最常见的一类问题——有监督学习,从入门、进阶、深化三个层面由浅入深地进行了讲解。三个层面包括基础入门算法、核心理论及理论背后的数学优化。入门部分用以逻辑回归为代表的广义线性模型为出发点,引入书中所有涉及的知识点;进阶部分的核心理论涵盖了经验风险最小、结构风险最小、正则化及统一的分类边界理论;深化部分的数学优化则主要包括最大熵原理、拉格朗日对偶等理论在数学上的推导,以及对模型求解的主流最优化方法的探讨等。
    本书由浅入深,从个别到普便,从自然算法到优化算法,从各个角度深入剖析了机器学习,力求帮助读者循序渐进地掌握机器学习的概念、算法和优化理论。

目录

第1章  线性回归与逻辑回归
  1.1  线性回归
    1.1.1  函数关系与统计关系
    1.1.2  统计与机器学习
  1.2  最小二乘法与高斯-马尔可夫定理
    1.2.1  最小二乘法
    1.2.2  高斯-马尔可夫定理
  1.3  从线性回归到逻辑回归
  1.4  最大似然估计求解逻辑回归
  1.5  最小二乘与最大似然
    1.5.1  逻辑回归与伯努利分布
    1.5.2  线性回归与正态分布
  1.6  小结
  参考文献
第2章  广义线性模型
  2.1  广义线性模型概述
    2.1.1  广义线性模型的定义
    2.1.2  链接函数与指数分布簇
  2.2  广义线性模型求解
  2.3  最大似然估计Ⅰ:Fisher信息
  2.4  最大似然估计Ⅱ:KL散度与Bregman散度
    2.4.1  KL散度
    2.4.2  Bregman散度
  2.5  小结
  参考文献
第3章  经验风险最小
  3.1  经验风险与泛化误差概述
    3.1.1  经验风险
    3.1.2  泛化误差
    3.1.3  欠拟合和过拟合
    3.1.4  VC维
  3.2  经验风险最小的算法
  3.3  分类边界
    3.3.1  分类算法的损失函数
    3.3.2  分类算法的边界
  3.4  小结
  参考文献
第4章  结构风险最小
  4.1  经验风险最小和过拟合
  4.2  结构风险最小和正则化
    4.2.1  从空间角度理解SRM
    4.2.2  从贝叶斯观点理解SRM
  4.3  回归的正则化
    4.3.1  L2正则化和岭回归
    4.3.2  L1正则化和Lasso回归
    4.3.3  L1、L2组合正则化和ElasticNet回归
  4.4  分类的正则化
    4.4.1  支持向量机和L2正则化
    4.4.2  XGBoost和树正则化
    4.4.3  神经网络和DropOut正则化
    4.4.4  正则化的优缺点
  4.5  小结
  参考文献
第5章  贝叶斯统计与熵
  5.1  统计学习的基础:参数估计
    5.1.1  矩估计
    5.1.2  最大似然估计
    5.1.3  最小二乘法
  5.2  概率分布与三大统计思维
    5.2.1  频率派和正态分布
    5.2.2  经验派和正态分布
    5.2.3  贝叶斯派和正态分布
    5.2.4  贝叶斯统计和熵的关系
  5.3  信息熵的理解
    5.3.1  信息熵简史
    5.3.2  信息熵定义
    5.3.3  期望编码长度解释
    5.3.4  不确定性公理化解释
    5.3.5  基于熵的度量
  5.4  最大熵原理
    5.4.1  最大熵的直观理解
    5.4.2  最大熵解释自然指数分布簇
    5.4.3  最大熵解释最大似然估计
  5.5  小结
  参考文献
第6章  基于熵的Softmax
  6.1  二项分布和多项分布
  6.2  Logistic回归和Softmax回归
    6.2.1  广义线性模型的解释
    6.2.2  Softmax回归
    6.2.3  最大熵原理与Softmax回归的等价性
  6.3  最大熵条件下的Log-Linear
  6.4  多分类界面
    6.4.1  感知机和多分类感知机
    6.4.2  多分类感知机和结构感知机
  6.5  概率图模型里面的Log-Linear
  6.6  深度学习里面的Softmax层
  6.7  小结
  参考文献
第7章  拉格朗日乘子法
  7.1  凸共轭
    7.1.1  凸共轭的定义
    7.1.2  凸共轭定理
  7.2  拉格朗日对偶
    7.2.1  拉格朗日对偶概述
    7.2.2  Salter条件
    7.2.3  KKT条件
  7.3  Fenchel对偶
  7.4  增广拉格朗日乘子法
    7.4.1  近端
    7.4.2  增广拉格朗日乘子法和对偶上升算法
  7.5  交替方向乘子法
    7.5.1  对偶分解
    7.5.2  交替方向乘子法概述
  7.6  小结
  参考文献
第8章  随机梯度下降法
  8.1  随机梯度下降法概述
    8.1.1  机器学习场景
    8.1.2  随机梯度下降法的定义
    8.1.3  随机梯度下降法收敛性分析
    8.1.4  收敛性证明
  8.2  随机梯度下降法进阶Ⅰ:方差缩减
    8.2.1  方差缩减的效果
    8.2.2  方差缩减的实现
  8.3  随机梯度下降法进阶Ⅱ:加速与适应
    8.3.1  加速
    8.3.2  适应
    8.3.3  加速£适应
  8.4  随机梯度下降法的并行实现
  8.5  小结
  参考文献
第9章  常见的最优化方法
  9.1  最速下降算法
    9.1.1  l2范数与梯度下降法
    9.1.2  l1范数与坐标下降算法
    9.1.3  二次范数与牛顿法
  9.2  步长的设定
    9.2.1  Armijo-Goldstein准则
    9.2.2  Wolfe-Powell准则
    9.2.3  回溯线搜索
  9.3  收敛性分析
    9.3.1  收敛速率
    9.3.2  对目标函数的一些假设
  9.4  一阶算法:梯度下降法
  9.5  二阶算法:牛顿法及其衍生算法
    9.5.1  牛顿法与梯度下降法的对比
    9.5.2  拟牛顿法
    9.5.3  从二次范数的角度看牛顿法
  9.6  小结
  参考文献