古典線性模型 v.s 廣義線性模型
前言
撰寫此文主要受 “剖析深度學習 (4):Sigmoid, Softmax怎麼來?為什麼要用MSE和Cross Entropy?談廣義線性模型“ 一文所激勵。
此篇論文距今已有十多年歷史,但就初入 SLAM 領域的初心者來說,這仍是一篇入門的論文可讓我們以極短時間了解 SLAM 的整個核心概念與一些經典的解決方法。但雖說入門,仍然需要不少的先備知識 (例如 : 機率統計、卡爾曼濾波器、粒子濾波器….) ,要能完全掌握也必須要花一些時間。
比較需要注意的是,這篇真的僅是入門,不能作為理解 SLAM 問題的全貌,畢竟在 2006年以後到現在,十多年的時間也發展了不少新技術,更有甚者結合了 Deep Learning 有更好的 performance,但我相信在此論文的基礎下,去了解最新技術會相對來說簡單一些,而這也是我會選擇閱讀此篇論文的主要原因之一。
另外,本篇論文筆記會加入一些補充資料在其中,以利完全沒有相關經驗及先備知識的讀者在進行論文閱讀時能更加清楚整個論文的內容。因此整篇論文筆記的內容或許會與原文有一些差異,並不會完全相同,在對照原始論文時可能要稍微注意的地方。
上一篇文章 “ Android 初探 (一) : Android 初探 (一) : 從 Hello World ! 認識 Android 專案開發 “ 簡單介紹了一個 Android 專案的主要架構以及如何在模擬器上 run 出整個結果,這一篇會著重在一個 Android app是怎麼運作的,以及可以怎麼簡單設計使用者介面。
這篇雖然說看似一篇論文,但整體讀下來比較像是一篇筆記 (作者也說這篇論文它定位為技術文件),因此這一篇論文閱讀筆記我就以略讀的方式來撰寫,想留一點時間來做一下不同版本 YOLO 之間的比較。
在前面的文章 “針孔相機模型 Pinhole Camera Model“ 中我們有提到在一個理想的針孔相機中,一個 3D 目標怎麼投影到 2D 平面上。
但是,實際上一個光學系統必須經由多組鏡頭所組成,在這樣的系統下,單純理想的針孔相機模型便無法擬合真實情況。加入鏡頭、透鏡後,成像必然會有某些程度上的失真、變形,這樣的情況我們稱之為「畸變」(Distortion)。
論文中提出了一個網路結構,可以將一般圖片 ( 未經過處理 ) 輸入後,直接進行手部關鍵點的定位。此方法利用改良過的 VNect[^註1] 來對輸入圖像計算其 Heatmap,再利用此 Heatmap 來進行關鍵點的定位。