Deep Reinforcement Learning (4) --- Q-learning (Advanced Tips)
這一個部分延續上一篇文章,對 Q-Learning 的一些技巧做了更深入的延伸。
Deep Reinforcement Learning (3) --- Q-learning (Basic Idea)
Deep Reinforcement Learning (2) --- Proximal Policy Optimization (PPO)
On Policy & Off Policy
我們前面所用的技巧稱為 “ On Policy “ ,意思就是,我們用來跟 Environment 互動的 Actor 跟我們要訓練的 Actor 是同一個。
但前面有提到,這樣的訓練其實會花非常多時間,因為每一次參數更新完,就必須要重新讓 Actor 跟 Environment 互動收集新的資料,然後再進行訓練。是不是有辦法可以讓 Actor 跟 Environment 互動收集的資料拿來更新多次參數,省去一直收集資料的冗長過程 ?
這就是 “ Off Policy “ 的作用。在 Off Policy 中,我們利用一個不同的 Actor 、Policy $\pi_{\theta}’$ 來跟 Environment 互動收集資料,然後讓我們想要訓練的 Actor 、 Policy $\pi_{\theta}’$ 利用這些資料,一次進行多次參數更新。
Deep Reinforcement Learning (1) --- Policy Gradient (Review)
作為 Deep Reinforcement Learning 的第一堂課,主要是針對 Machine Learning 中 RL 的部分進行簡單的複習及補充。有些基礎的概念,在 MLDS GAN 系列課程中也已有提及,閱讀此篇筆記前可先看看 “ Reinforcement Learning “ 及 “ Generative Adversarial Network (9) — Sequence Generation “ 這兩篇筆記。
[論文] You Only Look Once : Unified, Real-Time Object Detection
Generative Adversarial Network (10) --- Evaluation & Concluding Remarks
GAN 講了這麼多,重點還是要得到一個夠好的 Generator 可以生成我們想要的東西。可是,什麼樣的 Generator 是夠好的 ? 我們怎麼評估訓練完成的 Generator ?
Generative Adversarial Network (9) --- Sequence Generation
在 GAN 的應用中,前面有提到可以用來做 conditional image generation,這種技術我們可以用來進行圖像風格的轉換、語音上的轉換…等等。
Generative Adversarial Network (8) --- Photo Editing
當我們訓練出一個 GAN 之後,在之前的部分有說過,我們總會希望可以藉由調整 Vector 的某些維度來改變生成圖像的一些特徵。例如 : 金髮轉黑髮、年輕便年老或是男人變女人…等等。但我們也有說過,我們很難知道每一個維度所代表的意義為何,也有可能根本每一個維度都無法區分出屬於哪一個圖像特徵。
Generative Adversarial Network (7) --- InfoGAN, VAE-GAN, BiGAN
在 GAN 中,我們會隨機 input 一組向量,然後生成一個我們要的物件 ( 可能是圖片、文字、語句… )。直覺的,我們總會希望這一組向量的每一個維度都代表某一個特性、性質。
但是現實總是沒有想像中美好。