$\pi$ 為無理數之證明
假設 $\pi$ 為有理數,即, $\pi=\dfrac{p}{q}\text{,}$ and $p,q\in\mathbb{N}$。 令 :
Deep Reinforcement Learning (8) --- Imitation Learning
前一個部分,我們了解到如果遇到 Sparse Reward 時,可以怎麼樣做學習。但,如果今天可能連 Reward 都沒有,又或者是 Reward 很難定義的狀況下,可以怎麼做學習呢 ? Imitation Learning ( 或稱 Learning by Demonstration / Apprenticeship Learning ) 就是在解決這樣的情況。
Deep Reinforcement Learning (6) --- Actor-Critic
從 Policy Gradieint 開始說起
在前面的課程筆記 “Deep Reinforcement Learning (1) — Policy Gradient (Review)“ 中,最後我們推導出了 policy gradient 的通式如下 :
$$
\nabla\bar{R}{\theta}\approx\frac{1}{N}\sum\limits{i=1}^{N}\sum\limits_{t=1}^{T}\big(\sum\limits_{t’=t}^{T_n}\alpha^{t’-t} r_{t’}^n-b\big)\nabla\log P_{\theta}(a_t^n|s_t^n)
$$
Deep Reinforcement Learning (7) --- Sparse Reward
我們在進行 Reinforcement Learning 的過程,其實很常會遇到的狀況就是,大部分的時間都沒有 Reward,在這樣的狀態下,機器只能一直隨機的選擇 Action,這樣其實不會學習到任何東西。
以下介紹三種方式,可以讓機器從 0 開始學習,最後可以達到目標。
人臉辨識系統 Face Recognition 開發紀錄 ( OpenCV / Dlib )
此專案利用 Pre-train 好的 Dlib model,進行人臉辨識 (Face Detection) ,並且實現僅用一張照片作為 database 就可以作出達到一定效果的人臉識別 (Face Recognition)。 除此之外,更加入了活體偵測 (Liveness Detection) 技術,以避免利用靜態圖片通過系統識別的問題。