|
|
|
|
|
|
|
|
ISBN |
9787115631541 |
定价 |
RMB79.80 |
售价 |
RM87.80 |
优惠价 |
RM65.85 * (-25%)
|
作者 |
江季,王琦,楊毅遠
|
出版社 |
人民郵電出版社
|
出版日期 |
2025-04-01 |
装订 |
平裝. 無. 160 页. 26. |
库存量 |
海外库存 下单时可选择“空运”或“海运”(空运和海运需独立下单)。空运费每本书/CD是RM22.50。 空运需时8-11个工作天,海运需时约30个工作天。 (以上预计时间不包括出版社调货的时间以及尚未出版的预购商品) |
|
有现货时通知我 |
|
放入下次购买清单 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
本書是繼《Easy RL:強化學習教程》(俗稱“蘑菇書”)之後,為強化學習的讀者專門打造的一本深入實踐的全新教程。
全書大部分內容基於3位作者的實踐經驗,涵蓋馬爾可夫決策過程、動態規劃、免模型預測、免模型控制、深度學習基礎、DQN算法、DQN算法進階、策略梯度、Actor-Critic算法、DDPG與TD3算法、PPO算法等內容,旨在幫助讀者快速入門強化學習的代碼實踐,並輔以一套開源代碼框架“JoyRL”,便於讀者適應業界應用研究風格的代碼。
與“蘑菇書”不同,本書針對強化學習核心理論進行提煉,並串聯知識點,重視強化學習代碼實踐的指導而不是對於理論的詳細講解。
本書適合具有一定編程基礎且希望快速進入實踐應用階段的讀者閱讀。 |
|
|
|
|
|
|
|
|
|
|
|
購買中國簡體書籍請注意:
1. 因裝幀品質及貨運條件未臻完善,中國簡體書可能有出現磨痕、凹痕、折痕等問題,故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外,其餘所有商品將正常出貨。
|
|
|
|
|
|
|
|
|
目錄
第1章 緒論
1.1 為什麼要學習強化學習?
1.2 強化學習的應用
1.3 強化學習方向概述
1.3.1 多智能體強化學習
1.3.2 模仿學習和逆強化學習
1.3.3 探索策略
1.3.4 實時環境
1.3.5 多任務強化學習
1.4 學習本書之前的一些準備
第2章 馬爾可夫決策過程
2.1 馬爾可夫決策過程
2.2 馬爾可夫性質
2.3 回報
2.4 狀態轉移矩陣
2.5 本章小結
2.6 練習題
第3章 動態規劃
3.1 動態規劃的編程思想
3.2 狀態值函數和動作值函數
3.3 貝爾曼方程
3.4 策略迭代算法
3.5 值迭代算法
3.6 本章小結
3.7 練習題
第4章 模型預測
4.1 有模型與模型
4.2 預測與控制
4.3 蒙卡羅方法
4.4 時序差分方法
4.5 時序差分方法和蒙卡羅方法的差異
4.6 n步時序差分方法
4.7 本章小結
4.8 練習題
第5章 模型控制
5.1 Q-learning算法
5.1.1 Q表格
5.1.2 探索策略
5.2 Sarsa算法
5.3 同策略算法與異策略算法
5.4 實戰:Q-learning算法
5.4.1 定義訓練
5.4.2 定義算法
5.4.3 定義環境
5.4.4 設置參數
5.4.5 開始訓練
5.4.6 結果分析
5.4.7 消融實驗
5.5 實戰:Sarsa算法
5.6 本章小結
5.7 練習題
第6章 深度學習基礎
6.1 強化學習與深度學習的關係
6.2 線性回歸模型
6.3 梯度下降
6.4 邏輯回歸模型
6.5 全連接網絡
6.6 高級的經網絡模型
6.7 本章小結
6.8 練習題
第7章 DQN算法
7.1 深度經網絡
7.2 經驗回放
7.3 目標網絡
7.4 實戰:DQN算法
7.4.1 偽代碼
7.4.2 定義模型
7.4.3 經驗回放
7.4.4 定義智能體
7.4.5 定義環境
7.4.6 設置參數
7.5 本章小結
7.6 練習題
第8章 DQN算法進
8.1 DoubleDQN算法
8.2 DuelingDQN算法
8.3 NoisyDQN算法
8.4 PERDQN算法
8.5 實戰:DoubleDQN算法
8.6 實戰:DuelingDQN算法
8.7 實戰:NoisyDQN算法
8.8 實戰:PERDQN算法
8.8.1 偽代碼
8.8.2 SumTree結構
8.8.3 PER
8.9 本章小結
8.10 練習題
第9章 策略梯度
9.1 基於值的算法的缺點
9.2 策略梯度算法
9.3 REINFORCE算法
9.4 策略梯度推導進
9.4.1 平穩分佈
9.4.2 基於平穩分佈的策略梯度推導
9.5 策略函數的設計
9.5.1 離散動作空間的策略函數
9.5.2 連續動作空間的策略函數
9.6 本章小結
9.7 練習題
第10章 Actor-Critic算法
10.1 策略梯度算法的缺點
10.2 QActor-Critic算法
10.3 A2C與A3C算法
10.4 廣義勢估計
10.5 實戰:A2C算法
10.5.1 定義模型
10.5.2 採樣動作
10.5.3 策略更新
10.6 本章小結
10.7 練習題
第11章 DDPG與TD3算法
11.1 DPG算法
11.2 DDPG算法
11.3 DDPG算法的缺點
11.4 TD3算法
11.4.1 雙Q網絡
11.4.2 延遲更新
11.4.3 噪聲正則化
11.5 實戰:DDPG算法
11.5.1 DDPG偽代碼
11.5.2 定義模型
11.5.3 動作採樣
11.6 實戰:TD3算法
11.7 本章小結
11.8 練習題
第12章 PPO算法
12.1 重要性採樣
12.2 PPO算法
12.3 一個常見的誤區
12.4 實戰:PPO算法
12.4.1 PPO算法偽代碼
12.4.2 PPO算法更新
12.5 本章小結
12.6 練習題
練習題答案 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
楊毅遠,牛津大學計算機系博士研究生,碩士畢業于清華大學。Datawhale成員,《Easy RL:強化學習教程》作者,主要研究方向為時間序列、數據挖掘、智能傳感系統,深度學習,曾獲國家獎學金、北京市優秀畢業生、清華大學優秀碩士學位論文、全國大學生智能汽車競賽總冠軍等榮譽,發表SCI/EI論文多篇。 |
|
|
|
|
|
|
|
|
|
|
|