Math.py

Wir müssen wissen , wir werden wissen

0%

前一個部分,我們了解到如果遇到 Sparse Reward 時,可以怎麼樣做學習。但,如果今天可能連 Reward 都沒有,又或者是 Reward 很難定義的狀況下,可以怎麼做學習呢 ? Imitation Learning ( 或稱 Learning by Demonstration / Apprenticeship Learning ) 就是在解決這樣的情況。

閱讀全文 »

從 Policy Gradieint 開始說起

在前面的課程筆記 "Deep Reinforcement Learning (1) --- Policy Gradient (Review)" 中,最後我們推導出了 policy gradient 的通式如下 :

\[ \nabla\bar{R}_{\theta}\approx\frac{1}{N}\sum\limits_{i=1}^{N}\sum\limits_{t=1}^{T}\big(\sum\limits_{t'=t}^{T_n}\alpha^{t'-t} r_{t'}^n-b\big)\nabla\log P_{\theta}(a_t^n|s_t^n) \]

閱讀全文 »

我們在進行 Reinforcement Learning 的過程,其實很常會遇到的狀況就是,大部分的時間都沒有 Reward,在這樣的狀態下,機器只能一直隨機的選擇 Action,這樣其實不會學習到任何東西。

以下介紹三種方式,可以讓機器從 0 開始學習,最後可以達到目標。

閱讀全文 »