$\pi$ 為無理數之證明
假設 \(\pi\) 為有理數,即, \(\pi=\dfrac{p}{q}\text{,}\) and \(p,q\in\mathbb{N}\)。 令 :
假設 \(\pi\) 為有理數,即, \(\pi=\dfrac{p}{q}\text{,}\) and \(p,q\in\mathbb{N}\)。 令 :
前一個部分,我們了解到如果遇到 Sparse Reward 時,可以怎麼樣做學習。但,如果今天可能連 Reward 都沒有,又或者是 Reward 很難定義的狀況下,可以怎麼做學習呢 ? Imitation Learning ( 或稱 Learning by Demonstration / Apprenticeship Learning ) 就是在解決這樣的情況。
在前面的課程筆記 "Deep Reinforcement Learning (1) --- Policy Gradient (Review)" 中,最後我們推導出了 policy gradient 的通式如下 :
\[ \nabla\bar{R}_{\theta}\approx\frac{1}{N}\sum\limits_{i=1}^{N}\sum\limits_{t=1}^{T}\big(\sum\limits_{t'=t}^{T_n}\alpha^{t'-t} r_{t'}^n-b\big)\nabla\log P_{\theta}(a_t^n|s_t^n) \]
我們在進行 Reinforcement Learning 的過程,其實很常會遇到的狀況就是,大部分的時間都沒有 Reward,在這樣的狀態下,機器只能一直隨機的選擇 Action,這樣其實不會學習到任何東西。
以下介紹三種方式,可以讓機器從 0 開始學習,最後可以達到目標。
此專案利用 Pre-train 好的 Dlib model,進行人臉辨識 (Face Detection) ,並且實現僅用一張照片作為 database 就可以作出達到一定效果的人臉識別 (Face Recognition)。 除此之外,更加入了活體偵測 (Liveness Detection) 技術,以避免利用靜態圖片通過系統識別的問題。