强化学习精要:核心算法与TensorFlow实现 | ||
定价 | 80.00 | |
出版社 | 电子工业出版社 | |
出版时间 | 2018年05月 | |
开本 | 16开 | |
作者 | 冯超 | |
页数 | 392 | |
ISBN编码 | 9787121340000 |
《强化学习精要:核心算法与TensorFlow 实现》用通俗幽默的语言深入浅出地介绍了强化学习的基本算法与代码实现,为读者构建了一个完整的强化学习知识体系,同时介绍了这些算法的具体实现方式。从基本的马尔可夫决策过程,到各种复杂的强化学习算法,读者都可以从本书中学习到。本书除了介绍这些算法的原理,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。书中介绍的代码可以帮助读者快速将算法应用到实践中。
《强化学习精要:核心算法与TensorFlow 实现》内容翔实,语言简洁易懂,既适合零基础的人员入门学习,也适合相关科研人员研究参考。
近年来强化学习在学术界和工业界都受到了极大关注,很多工业界的巨头都在不断探索强化学习的实际应用。滴滴出行作为全球大的移动出行公司,已经把强化学习应用到多个业务场景中,帮助用户和司机解决出行问题,构建城市智慧大脑。本书介绍了强化学习的经*算法及近年来发展中的一些卓*成果,同时将理论联系实际,深入分析了这些算法的具体实现。作为一本内容丰富的强化学习科普书籍,希望无论是强化学习领域的初学者还是有经验的研发人员,均可从书中得到收获。
—— 王征,滴滴出行AI Labs时空数据组负责人
本书的特色之一是紧跟强化学习技术发展的前沿,从基于值函数的算法、基于策略梯度的算法,一直介绍到生成对抗模仿学习算法,内容涵盖了近年来深度强化学习研究的众多突破性算法;特色之二是结合开源的深度学习框架TensorFlow、强化学习仿真框架Gym及在这些框架上实现的算法集合Baselines,针对性地讲解了核心算法的代码实现,出色地将算法理论和实践结合起来。对强化学习领域的科研人员而言,这是一本不可多*的优秀读物。
—— 章宗长,苏州大学副教授
机器学习特别是强化学习,是近年和将来的学术研究重点,也是业界热点问题。本书作者通过对强化学习的概述和用Python实现的具体实例的讲解,为读者指明了一条通过编程理解和实践强化学习算法的道路。本书适合刚开始接触强化学习的初学者入门或者有经验的从业者巩固和借鉴。
—— 李可,美国微软公司高*数据科学家
这几年,机器学习因为深度学习的突飞猛进有了激动人心的进展,强化学习技术由于建模和环境的互动及延迟的反馈获得了较高的学术地位。本书全面而实用,对强化学习感兴趣的朋友来说是难得的教材。
—— 吴双,依图科技研究科学家
第*部分强化学习入门与基础知识
1 引言2
1.1 强化学习的概念 2
1.1.1 巴浦洛夫的狗 3
1.1.2 俄罗斯方块 4
1.2 站在被实验者的角度看问题 5
1.3 强化学习效果的评估 8
1.3.1 不断试错 8
1.3.2 看重长期回报 8
1.4 强化学习与监督学习 9
1.4.1 强化学习与监督学习的本质 9
1.4.2 模仿学习 10
1.5 强化学习的实验环境 11
1.5.1 Arcade Learning Environment 12
1.5.2 Box2D 12
1.5.3 MuJoCo 13
1.5.4 Gym 14
1.6 本书的主要内容 15
1.7 参考资料 16
2 数学与机器学习基础17
2.1 线性代数基础 17
2.2 对称矩阵的性质 21
2.2.1 特征值与特征向量 21
2.2.2 对称矩阵的特征值和特征向量 22
2.2.3 对称矩阵的对角化 23
2.3 概率论 24
2.3.1 概率与分布 24
2.3.2 *大似然估计 27
2.4 重要性采样 29
2.5 信息论基础 33
2.6 KL 散度 35
2.7 凸函数及其性质 39
2.8 机器学习的基本概念 41
2.9 机器学习的目标函数 43
2.10 总结 45
3 优化算法47
3.1 梯度下降法 47
3.1.1 什么是梯度下降法 47
3.1.2 优雅的步长 48
3.2 动量算法 53
3.3 共轭梯度法 59
3.3.1 精妙的约束 59
3.3.2 共轭 60
3.3.3 优化步长的确定 63
3.3.4 Gram-Schmidt 方法 64
3.3.5 共轭梯度 65
3.4 自然梯度法 69
3.4.1 基本概念 69
3.4.2 Fisher 信息矩阵 71
3.4.3 自然梯度法目标公式 76
3.5 总结 77
4 TensorFlow 入门78
4.1 TensorFlow 的基本使用方法 78
4.2 TensorFlow 原理介绍 82
4.2.1 创建变量的scope 83
4.2.2 创建一个Variable 背后的故事 89
4.2.3 运算操作 94
4.2.4 tf.gradients 96
4.2.5 Optimizer 102
4.2.6 TensorFlow 的反向传播技巧 106
4.2.7 arg_scope 的使用 109
4.3 TensorFlow 的分布式训练 113
4.3.1 基于MPI 的数据并行模型 114
4.3.2 MPI 的实现:mpi_adam 121
4.4 基于TensorFlow 实现经*网络结构 122
4.4.1 多层感知器 122
4.4.2 卷积神经网络 124
4.4.3 循环神经网络 126
.............................
14.5 从样本中学习 342
14.6 总结 344
14.7 参考资料 344
15 反向强化学习算法2.0 345
15.1 *大熵模型 345
15.1.1 指数家族 346
15.1.2 *大熵模型的推导 349
15.1.3 *大熵模型的实现 354
15.2 *大熵反向强化学习 356
15.3 GAIL 361
15.3.1 GAN 的基本概念 361
15.3.2 GAN 的训练分析 363
15.4 GAIL 实现 367
15.5 总结 370
15.6 参考资料 370
深入浅出强化学习:原理入门 | ||
定价 | 79.00 | |
出版社 | 电子工业出版社 | |
版次 | 1 | |
出版时间 | 2018年01月 | |
开本 | 16 | |
作者 | 郭宪,方勇纯 著 | |
装帧 | 平装 | |
页数 | 256 | |
字数 | ||
ISBN编码 | 9787121329180 |
《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从*基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题*基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。
基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。*后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。
除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。
1 绪论 1
1.1 这是一本什么书 1
1.2 强化学习可以解决什么问题 2
1.3 强化学习如何解决问题 4
1.4 强化学习算法分类及发展趋势 5
1.5 强化学习仿真环境构建 7
1.5.1 gym安装及简单的demo示例 8
1.5.2 深入剖析gym环境构建 10
1.6 本书主要内容及安排 12
第*篇 强化学习基础 17
2 马尔科夫决策过程 18
2.1 马尔科夫决策过程理论讲解 18
2.2 MDP中的概率学基础讲解 26
2.3 基于gym的MDP实例讲解 29
2.4 习题 34
3 基于模型的动态规划方法 36
3.1 基于模型的动态规划方法理论 36
3.2 动态规划中的数学基础讲解 47
3.2.1 线性方程组的迭代解法 47
3.2.2 压缩映射证明策略评估的收敛性 49
3.3 基于gym的编程实例 52
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有