Math.py

Wir müssen wissen , wir werden wissen

0%

State-Value function $V^{\pi}(s)$

Q-Learning 是 Reinforcement Learning 中一種 Value-Based 的方法,在 Q-Learning 中,並不直接去學習一個 Policy 而是要學習一個評價函數 Critic,來評價某一個 policy $\pi$ 在某一個 state $s$ 中採取行為後,後續得到的期望 Reward 有多少。

因此,我們可以知道,一個 Critic $V^{\pi}(s)$ 必須配合一個 policy $\pi$ ,才能來計算後續的 Reward 有多少。

閱讀全文 »

On Policy & Off Policy

我們前面所用的技巧稱為 “ On Policy “ ,意思就是,我們用來跟 Environment 互動的 Actor 跟我們要訓練的 Actor 是同一個。

但前面有提到,這樣的訓練其實會花非常多時間,因為每一次參數更新完,就必須要重新讓 Actor 跟 Environment 互動收集新的資料,然後再進行訓練。是不是有辦法可以讓 Actor 跟 Environment 互動收集的資料拿來更新多次參數,省去一直收集資料的冗長過程 ?

這就是 “ Off Policy “ 的作用。在 Off Policy 中,我們利用一個不同的 Actor 、Policy $\pi_{\theta}’$ 來跟 Environment 互動收集資料,然後讓我們想要訓練的 Actor 、 Policy $\pi_{\theta}’$ 利用這些資料,一次進行多次參數更新。

閱讀全文 »

作為 Deep Reinforcement Learning 的第一堂課,主要是針對 Machine Learning 中 RL 的部分進行簡單的複習及補充。有些基礎的概念,在 MLDS GAN 系列課程中也已有提及,閱讀此篇筆記前可先看看 “ Reinforcement Learning “ 及 “ Generative Adversarial Network (9) — Sequence Generation “ 這兩篇筆記。

閱讀全文 »

概要 Abstrct

在這篇論文中,作者推出了一個嶄新的物件偵測方式 – YOLO。原本的物件偵測任務是利用分類器來進行,但在 YOLO 中,作者們將物件偵測視為一個回歸任務,來從空間中分割出邊界框 ( Bounding Box )並且計算出類別機率。僅利用一個神經網路進行一次計算來直接預測邊界框及類別機率,也因為整個偵測過程只有使用單一個神經網路,因此可以視為是一個 End-to-End 的優化過程。

閱讀全文 »

當我們訓練出一個 GAN 之後,在之前的部分有說過,我們總會希望可以藉由調整 Vector 的某些維度來改變生成圖像的一些特徵。例如 : 金髮轉黑髮、年輕便年老或是男人變女人…等等。但我們也有說過,我們很難知道每一個維度所代表的意義為何,也有可能根本每一個維度都無法區分出屬於哪一個圖像特徵。

閱讀全文 »

在 GAN 中,我們會隨機 input 一組向量,然後生成一個我們要的物件 ( 可能是圖片、文字、語句… )。直覺的,我們總會希望這一組向量的每一個維度都代表某一個特性、性質。

但是現實總是沒有想像中美好。

閱讀全文 »