Math.py

Wir müssen wissen , wir werden wissen

0%

摘要 Abstract

主要的 Sequence transduction model 都是基於包含 encoder 及 decoder 的複雜 RNN 或 CNN 結構。而表現最好的模型將 encoder, decoder 與注意力機制 (Attention Mechanism) 連結在一起。這篇論文中提出了一個新的簡單網路結構 Transformer,它是一個基於注意力機制的網路結構,並且完全不含 RNN 與 CNN 。在一些實驗中都顯示 Transformer 具有優勢,除了高度可平行運算外,訓練的時間也明顯降低許多。

閱讀全文 »

前一個部分,我們了解到如果遇到 Sparse Reward 時,可以怎麼樣做學習。但,如果今天可能連 Reward 都沒有,又或者是 Reward 很難定義的狀況下,可以怎麼做學習呢 ? Imitation Learning ( 或稱 Learning by Demonstration / Apprenticeship Learning ) 就是在解決這樣的情況。

閱讀全文 »

從 Policy Gradieint 開始說起

在前面的課程筆記 “Deep Reinforcement Learning (1) — Policy Gradient (Review)“ 中,最後我們推導出了 policy gradient 的通式如下 :

$$
\nabla\bar{R}{\theta}\approx\frac{1}{N}\sum\limits{i=1}^{N}\sum\limits_{t=1}^{T}\big(\sum\limits_{t’=t}^{T_n}\alpha^{t’-t} r_{t’}^n-b\big)\nabla\log P_{\theta}(a_t^n|s_t^n)
$$

閱讀全文 »

我們在進行 Reinforcement Learning 的過程,其實很常會遇到的狀況就是,大部分的時間都沒有 Reward,在這樣的狀態下,機器只能一直隨機的選擇 Action,這樣其實不會學習到任何東西。

以下介紹三種方式,可以讓機器從 0 開始學習,最後可以達到目標。

閱讀全文 »

此專案利用 Pre-train 好的 Dlib model,進行人臉辨識 (Face Detection) ,並且實現僅用一張照片作為 database 就可以作出達到一定效果的人臉識別 (Face Recognition)。 除此之外,更加入了活體偵測 (Liveness Detection) 技術,以避免利用靜態圖片通過系統識別的問題。

閱讀全文 »