Review: Visual Odometry I [tutorial]
Scaramuzza, D., & Fraundorfer, F. (2011). Visual odometry [tutorial]. IEEE robotics & automation magazine, 18(4), 80-92.
0. Introduction
Visual Odometry๋ ๋ชจ๋ ธ ๋๋ ์คํ ๋ ์ค ์นด๋ฉ๋ผ ๋ง์ ์ด์ฉํ์ฌ ์ด๋ค ์ฃผ์ฒด(e.g. ์ฐจ๋, ์ฌ๋, ๋ก๋ด ๋ฑ)์ ์๊ณ ๋ชจ์ ์ ์ถ์ ํ๋ ๊ณผ์ ์ด๋ค. ํ์ฉ ๋ถ์ผ๋ก๋ ๋ก๋ณดํฑ์ค, ์จ์ด๋ฌ๋ธ, ์ฆ๊ฐ ํ์ค, ์์จ ์ฃผํ ๋ฑ์ด ์๋ค.
egomotion์ ๋ํ์ฌ
Visual Odometry๋ผ๋ ๋จ์ด๋ 2004๋ Nister์ ๋ํ ๋ ผ๋ฌธ์์ ์ฒ์ ๋ฑ์ฅํ์ผ๋ฉฐ, Wheel Odometry์์ ์ ์ฌ์ฑ ๋๋ฌธ์ ๊ทธ๋ ๊ฒ ์ ํด์ก๋ค. ์ฐธ๊ณ ๋ก, Wheel Odometry๋, ์ผ์ ์๊ฐ ๋์์ ๋ฐํด์ ํ์ ์๋ฅผ ์ด์ฉํ์ฌ ์ฐจ๋์ ์ ์ง์ ์ธ ์์ง์์ ์ถ์ ํ๋ ๊ฒ์ด๋ค. ์ด์ ๊ฐ์ด, Visual Odometry ๋ํ ์ฐจ๋์ ์์ง์์ผ๋ก ์ธํด ์ฅ์ฐฉ๋ ์นด๋ฉ๋ผ์ ์ด๋ฏธ์ง์ ์๊ธฐ๋ ๋ณํ๋ฅผ ํตํด ์ฐจ๋์ ํฌ์ฆ๋ฅผ ์ ์ง์ ์ผ๋ก ์ถ์ ํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. Visual Odometry๊ฐ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ธฐ ์ํด์ , ์ฒซ์งธ, ์ถฉ๋ถํ ๋ฐ์ ํ๊ฒฝ์ด์ด์ผ ํ๊ณ , ๋์งธ, ๊ฐ๊ฐ์ ์ ์ ์ธ Scene์ ์์ง์์ ํ์คํ ์ถ์ถ ํด๋ผ ์ ์๋ ์ถฉ๋ถํ ์ง๊ฐ์ ์ง๋๊ณ ์์ด์ผ ํ๋ค. ๋๋ถ์ด, ์ฐ์ํ ํ๋ ์๋ค์ ์ถฉ๋ถํ๊ฒ ๊ฒน์น Scene๋ค์ด์ด์ผ ํ๋ค.
Wheel Odometry์ ๋น๊ตํด์ Visual Odometry๋ Wheel slip๊ณผ ์ธํ๋ถํํ ์ง๋ฉด ๋ฑ ๋ค๋ฅธ ๋ถ๋ฆฌํ ์กฐ๊ฑด๋ค์ ์ํฅ์ ๋ฐ์ง ์๋๋ค. Visual Odometry๋ 0.1 ~ 2% ๋ฒ์์ ์๋ ์์น ์ค์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ Wheel Odometry ๋ณด๋ค ์ ํํ Trajectory ์ถ์ ์ด ๊ฐ๋ฅํ ๊ฒ์ด ์ฆ๋ช ๋์๋ค.
Trajectory์ ๋ํ
์ด๋ฌํ ์ด์ ์ผ๋ก Visual Odometry๋ Wheel Odometry๋ฅผ ๋น๋กฏํ ๋ค๋ฅธ Navigation ์์คํ (GNSS, IMU, Laser Odometry )์ ๋์ ํน์ ๋ณด์ถฉ์์ผ๋ก ๋ ์ค๋ฅด๊ณ ์๋ค. ํนํ ๋ฌผ์๊ณผ ๊ฐ์ GPS ์์ ์ง์ญ์์ Visual Odometry๊ฐ ๋ ์ ์ฉํ๋ค.
๋ ํํธ์ Tutorial๊ณผ Survey๋ฅผ ํตํด 1980๋ ๋ถํฐ 2011๊น์ง Visual Odometry(์ดํ VO)์ ๊ดํ ์ฐ๊ตฌ๋ฅผ ์์ ๋ณผ ๊ฒ์ด๋ค. ์ฒ์ 20๋ ๋์ ๋ง์ ์คํ๋ผ์ธ ๊ตฌํ์ด ์ด๋ฃจ์ด์ก์ง๋ง, 30๋ ์งธ ๋ค์ด์ ์ฒ ์ค์๊ฐ ์์คํ ์ด ํ์ฑ ํ์ฌ ์ฐจ๋์ ์ฌ์ฉ๋๋ฉด์ ์ฃผ๋ฅ๊ฐ ๋์๋ค. ์ฒซ ๋ฒ์งธ ํํธ์์ 30๋ ๋์์ ์ด ๋ถ์ผ ๋ ผ๋ฌธ๋ค์ ๋ํ ํ๊ณ ์ ํต์ฌ ๋ด์ฉ์ ๋ค๋ฃฌ๋ค. ์นด๋ฉ๋ผ ๋ชจ๋ธ๋ง๊ณผ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ๊ดํ ๊ฐ๋จํ ๊ณ ์ฐฐ ํ์, ๋ชจ๋ ธ์ ์คํ ๋ ์ค ์นด๋ฉ๋ผ๋ฅผ ์ด์ฉํ ์์ง์ ์ถ์ ๊ณผ์ ์ ์ดํด๋ณด๊ณ ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ์์๋ณธ๋ค. ๋ ๋ฒ์งธ ํํธ์์ ํผ์ณ ๋งค์นญ๊ณผ robustness ๊ทธ๋ฆฌ๊ณ ํ์ฉํ๋ ๊ฒ์ ๋ค๋ฃฌ๋ค. ์ด ๋ถ๋ถ์์ VO์์ ์ฃผ๋ก ์ฐ์ด๋ ํน์ง์ ์ถ์ถ๊ธฐ์ ๋ํด ์ดํด๋ณด๊ณ ๋ค๋ฅธ ์์๋ผ์ด์ด ์ ๊ฑฐ ๋ฐฉ์๋ ์ดํด๋ณธ๋ค. ํนํ Random Sample Consensus (i.e. RANSAC)๊ณผ ๊ทธ๊ฒ์ ๋น ๋ฅด๊ฒ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ฐ์กฐํด์ ๋ ผํ๋ค. ๊ทธ๋ฆฌ๊ณ error modeling, location recognition, bundle adjustment ๋ฑ์ ๋ํด์๋ ๋ค๋ค๋ณธ๋ค.
์ด ํํ ๋ฆฌ์ผ์ ์๋ จ์์ ๋น์๋ จ์ ๋ชจ๋์๊ฒ ์์ ํ VO์์คํ ์ ๊ตฌ์ถํ๋ ๊ฐ์ด๋ ๋ผ์ธ๊ณผ ์ฐธ์กฐ ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ณตํ๋ค. ํญ์ ์๋ํ๋ ์์ ํ๊ฒฝ์ ์ํ ์ด์์ ์ด๊ณ ๊ณ ์ ํ VO ์๋ฃจ์ ์ด ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์ ํน์ ํ์ ํ๊ฒฝ๊ณผ ์ฃผ์ด์ง ๊ณ์ฐ ๋ฆฌ์์ค์ ๋ฐ๋ผ ์ ์คํ๊ฒ ์ต์ ์ ์๋ฃจ์ ์ ์ ํํด์ผ ํ๋ค..
1. History of Visual Odometry
SfM๊ณผ ๊ฐ์ ์ปดํจํฐ ๋น์ ์ปค๋ฎค๋ํฐ์์ ์นด๋ฉ๋ผ ์ด๋ฏธ์ง ์ธํธ์์ ์๋์ ์ธ ์นด๋ฉ๋ผ ํฌ์ฆ์ 3์ฐจ์ ๊ตฌ์กฐ๋ฅผ ๋ณต์ํ๋ ๋ฌธ์ ๊ฐ ์๋ ค์ ธ ์๋ค. ๊ทธ ๊ธฐ์์ [2]์ [3]๊ณผ ๊ฐ์ ๊ฒ๋ค๋ก ๊ฑฐ์ฌ๋ฌ ์ฌ๋ผ๊ฐ ์ ์๋ค. VO๋ SFM์ ํน์ ํ ๊ฒฝ์ฐ์ด๋ค. SFM์ ์ฐ์์ ์ธ ์ ๋ ฌ, ๋น์ ๋ ฌ ์ด๋ฏธ์ง ์ ์ผ๋ก ๋ถํฐ ๊ตฌ์กฐ์ ์นด๋ฉ๋ผ ํฌ์ฆ 3D ์ฌ๊ตฌ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๋น๊ต์ ์ผ๋ฐ์ ์ด๋ค. (๋ ํฐ ๋ฐ์ด๋๋ฆฌ๋ค.) ์ต์ข ๊ตฌ์กฐ์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ ์ผ๋ฐ์ ์ผ๋ก ์คํ๋ผ์ธ ์ต์ ํ(BO)๋ก ๋ค๋ฌ์ด์ง๋ฉฐ, ๊ณ์ฐ ์๊ฐ์ ์ด๋ฏธ์ง ์์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ค. ๋ฐ๋ฉด์, VO๋ -์๋ก์ด ํ๋ ์์ด ๋ค์ด์ค๋ฉด- ์ค์๊ฐ์ผ๋ก ์นด๋ฉ๋ผ์ 3D๋ชจ์ ์ ์ฐ์์ ์ผ๋ก ์ถ์ ํ๋๋ฐ ์ด์ ์ด ๋ง์ถฐ์ ธ์๋ค.
๋น์ฃผ์ผ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ฐจ๋์ ์๊ณ ๋ชจ์ ์ ์ถ์ ํ๋ ๋ฌธ์ ๋ ์ผ์ฐ์ด 1980๋ ๋์ ๋ค๋ค์ก๋ค. [5] ํฅ๋ฏธ๋กญ๊ฒ๋ VO์ ์ด๊ธฐ ์ฐ๊ตฌ ([5] ~ [9]) ๋๋ถ๋ถ์ด NASA ํ์ฑ ํ์ฌ ํ๋ก๊ทธ๋จ์ ์ฃผ๋ก ์ธํ๋ถํํ๊ณ ๊ฑฐ์น ์งํ์์ ๋ฐํด์ ๋ฏธ๋๋ฌ์ง์ด ์์ ๋ ํ์ฌ์ ์ 6์์ ๋ ๋์์ ์ธก์ ํ ์ ์๋ ๊ธฐ๋ฅ์ ์ ๊ณตํ๊ธฐ ์ํ ๋ ธ๋ ฅ์ ์ผํ์ด์๋ค.
Moravec์ ์์ ์ ์ต์ด์ ๋ชจ์ ์ถ์ ํ์ดํ ๋ผ์ธ(์ฃผ์ ๊ธฐ๋ฅ ๋ธ๋ก์ ์ฌ์ ํ ์ฌ์ฉ๋๊ณ ์์)์ ์ ์ ํ ๊ฒ ๋ฟ๋ง ์๋๋ผ ์ต์ด์ ์ฝ๋ ๊ฒ์ถ๊ธฐ ์ค ํ๋๋ฅผ ์ค๋ช ํ๋๋ฐ๋ ์ค์ํ๋ค. (Hanna๊ฐ 1974๋ ์ ์ ์ํ ์ฒซ ๋ฒ์งธ ๊ฒ ์ดํ[10]) Moravec ์ฝ๋ ๊ฒ์ถ๊ธฐ๋ Forstner ์ฝ๋ ๊ฒ์ถ๊ธฐ[12]์ Harris-Stephens ์ฝ๋ ๊ฒ์ถ๊ธฐ[3], [82]์ ์ ์ ์ด๋ค.
Moravec์ ๋ณธ์ธ์ด Slider stereo(a single camera sliding on a rail)๋ผ๊ณ ํํํ ์นด๋ฉ๋ผ๊ฐ ์ฅ์ฐฉ๋ ํ์ฌ์ ์ผ๋ก ๊ทธ์ ์์ ์ ํ ์คํธํ๋ค. ๊ทธ๋ฆฌ๊ณ ์๊ธฐ ์ฅ์น๋ stop-and-go ๋ฐฉ์์ผ๋ก ์์ง์๊ณ , ๋ชจ๋ ์์น์์ ์ด๋ฏธ์ง ๋์งํธํ ๋ฐ ๋ถ์์ ์งํํ๋ค. ๊ฐ๊ฐ์ stopํฌ์ธํธ์์ ์นด๋ฉ๋ผ๋ ์ํ์ผ๋ก ์ฌ๋ผ์ด๋ํ๋ฉด์ ์ผ์ ํ ๊ฑฐ๋ฆฌ์์ ์ด 9๋ฒ์ผ๋ก ๋๋์ด ์ด๋ฏธ์ง๋ฅผ ์ป๋๋ค. Moravec์ด ๋ง๋ ํน์ง์ ๊ฒ์ถ๊ธฐ๋ฅผ ์ด์ฉํด ํ ์ด๋ฏธ์ง์์ ์ฝ๋๋ฅผ ์ฐพ์๋ด๊ณ Normalized cross correlation์ ์ด์ฉํ์ฌ ๋๋จธ์ง 8๊ฐ ์ด๋ฏธ์ง์ epipolar line์ ์ผ์น์์ผฐ๋ค.
epiporal?
Normalized cross correlation
๋ค์ ๋ก๋ด ์์น์์ ์์๋๋ ์ผ์น๋ ํฐ ๊ท๋ชจ์ ๋ณํ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํด Coarse to fine strategy๋ฅผ ์ฌ์ฉํ ์๊ด ๊ด๊ณ์ ์ํด ๊ตฌํด์ง๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ํ์ 8๊ฐ์ ์คํ ๋ ์ค ์์ ์ด์ฉํด ๊น์ด ๋ถ์ผ์น๋ฅผ ๊ณ ๋ คํ์ฌ ์ด์๊ฐ(Outliers)๋ฅผ ์ ๊ฑฐํ๋ค. ๋ง์ง๋ง์ผ๋ก ๋ ๊ฐ์ ์ฐ์๋ ๋ก๋ด ์์น์์ ๋ณด์ด๋ ์ผ๊ฐ ์ธก๋๋ 3D ํฌ์ธํธ๋ฅผ ์ ๋ ฌํ๊ธฐ ์ํด, ๋ชจ์ ์ ๊ฐ์ฒด ๋ณํ์ผ๋ก ๊ณ์ฐ๋์๋ค.
rigid body transformation
Triangulation
์์ ๊ฐ์ค ์ต์ ์ ๊ณฑ์ ํตํด ํด๊ฒฐ๋์๋ค. (๊ฐ์ค์น๊ฐ 3์ฐจ์์ ์ ์ผ๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋น๋กํ๋)
๋ฐฉ์ ์ ์์คํ ์ ๊ฐ์ค์น๊ฐ 3 ์ฐจ์ ์ ์ผ๋ก๋ถํฐ์ ๊ฑฐ๋ฆฌ์ ๋ฐ๋น๋กํ๋ ๊ฐ์ค ์ต์ ์ ๊ณฑ์ ํตํด ํด๊ฒฐ๋์์ต๋๋ค.
weighted least square
๋น๋ก Moravec์ด ๋จ์์ ์ฌ๋ผ์ด๋ฉ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ์ง๋ง, ๊ทธ์ ์์ ๋ค์ ์คํ ๋ ์ค VO ์๊ณ ๋ฆฌ์ฆ์ ์ํ๋ค. ์ด ์ฉ์ด๋ ํผ์ฒ์ ์๋์ ์ธ 3D ์์น๊ฐ ํญ์ ์ผ๊ฐ ์ธก๋์ ์ํด ์ธก์ ๋๊ณ ์๋ ๋์ ์ ์ ๋ํ๋๋ฐ ์ฌ์ฉ๋๋ค๋ ๋ง์ด๋ค. Trinocular ๋ฐฉ๋ฒ๋ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ์ข ๋ฅ์ ์ํ๋ค. ์คํ ๋ ์ค ๋ฐฉ์์ ๋์์ ๋จ์ ์นด๋ฉ๋ผ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ์ด ๊ฒฝ์ฐ, ๋ฐฉ์ ์ ๋ณด๋ง ์ฌ์ฉํ ์ ์๋ค. ๋จ์ ์ ๋ชจ์ ์ด scale factor๋งํผ๋ง ๋ณต๊ตฌ๋ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ ๋์ ์ธ ํฌ๊ธฐ๋ ๋ชจ์ ์ ์ฝ, IMU, ๊ธฐ์ ๋ฐ ๋ฒ์ ์ผ์์ ๊ฐ์ ๋ค๋ฅธ ์ผ์์์ ํตํฉ ๋ฑ ์ง์ ์ธก์ ๋ฐฉ์์ ์ํด ๊ตฌํ ์ ์๋ค. (e.g. ์ฅ๋ฉด์ ์์ ์ธก์ )
๋จ์ ๋ฐฉ๋ฒ์์ ์ฃผ๋ชฉํ ์ ์ ๊ฑฐ๋ฆฌ๊ฐ ์คํ ๋ ์ค ๊ธฐ์ค์ (i.e. ๋ ์นด๋ฉ๋ผ ์ฌ์ด์ ๊ฑฐ๋ฆฌ)๋ณด๋ค ํจ์ฌ ํด ๋ ์คํ ๋ ์ค VO๊ฐ ๋จ์ ์ผ์ด์ค๋ก ํดํ ๋ ์ ์๋ค๋ ์ ์ด๋ค.
Stereo baseline
์ด ๊ฒฝ์ฐ ์คํ ๋ ์ค ๋ฐฉ์์ ํจ๊ณผ๊ฐ ๋จ์ด์ง๋ฏ๋ก, ๋จ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉ ํด์ผ ํ๋ค. ์๋ ์ ๊ฑธ์ณ ๋จ์ VO์ ์คํ ๋ ์ค VO๋ ๋ ๋ฆฝ์ ์ผ๋ก ๋ฐ์ ํด์๋ค. ์ด ์น์ ์ ๋๋จธ์ง ๋ถ์ผ์์๋ ์ด ๋ถ๋ถ์ ๊ดํด ๋ค๋ฃจ๊ฒ ๋ค.
1-1. Stereo VO
VO์ ๋ํ ๋๋ถ๋ถ์ ์ฐ๊ตฌ๋ ์คํ ๋ ์ค ์นด๋ฉ๋ผ๋ฅผ ์ด์ฉํด ์ด๋ฃจ์ด์ก๋ค. Moravec์ ์์ ์ ๊ธฐ๋ฐ์ผ๋ก, Matthies์ Shafer [6], [7] ์ ์คํ ๋ ์ค ์์คํ ๊ณผ Moravec์ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ฝ๋ detecting๊ณผ tracking์ ์ํํ๋ค.
Moravec์ ์์ ์ ๊ธฐ๋ฐ์ผ๋ก Matthies์ Shafer [6], [7]์ ์์ ์์คํ ๊ณผ Moravec์ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ์๋ฆฌ๋ฅผ ๊ฐ์งํ๊ณ ์ถ์ ํ์ต๋๋ค. ์ด๋ค์ Moravec์ด ๋ถํ์ค์ฑ์ ์ค์นผ๋ผ ํํ์ ์ฌ์ฉํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, Triangulated ํผ์ณ์ error covariance matrix๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฅผ ๋ชจ์ ์ถ์ ๋จ๊ณ์ ํตํฉํ๋ค. ํ์ฌ์ ๊ถค๋ ํ๋ณต์์ Moravec์ ๋นํด 5.5m ๊ฒฝ๋ก์์ 2%์ ์๋ ์ค์ฐจ๋ก ๋ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. Olson [9], [13] ๋ฑ์ ์ ๋ ๋ฐฉํฅ ์ผ์ (e.g. compass, omnidirectional camera)๋ฅผ ๋์ ํ๊ณ Forstner ์ฝ๋ Detector์ ์ฌ์ฉํด Moravec์ operator๋ณด๋ค ํจ์ฌ ๋น ๋ฅด๊ฒ ๊ณ์ฐํ๋ ๊ฑธ ๋ณด์๋ค. ๊ทธ๋ค์ egomotion ์ถ์ ๊ฐ๋ง ์ฌ์ฉํ๋ฉด ์ด๋ ๊ฑฐ๋ฆฌ์ superlinear growth์ ๋์ ์ค๋ฅ๊ฐ ๋ฐ์ํ์ฌ ๋ฐฉํฅ ์ค๋ฅ๊ฐ ์ฆ๊ฐํจ์ ๋ณด์๋ค. ๋ฐ๋๋ก, ์ ๋ ๋ฐฉํฅ ์ผ์๊ฐ ํตํฉ๋๋ฉด ์ค์ฐจ ์ฆ๊ฐ๋ ์ด๋ ๊ฑฐ๋ฆฌ์ ์ ํ ํจ์ ํํ๋ก ์ค์ด๋ค ์ ์๋ค. ์ด๋ก ์ธํด 20m ๊ฒฝ๋ก์์ 1.2%์ ์๋ ์์น ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ค.
Triangulated feature
error covariance matrix
Forstner corner detector
Lacroix ๋ฑ ์ ์์ ์ค๋ช ํ ๊ฒ๊ณผ ์ ์ฌํ ํ์ฑ ํ์ฌ์ ์ฉ ์คํ ๋ ์ค Visual Odometry ์ ๊ทผ ๋ฐฉ์์ ๊ตฌํํ๋ค. ์ฐจ์ด์ ์ key point๋ฅผ ์ก๋ ๋ฐฉ๋ฒ์ ์๋๋ฐ Forstner detector๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , dense stereo๋ฅผ ์ฌ์ฉํ ๋ค์, peaks ์ฃผ๋ณ์ correlation function์ ๋ถ์ํ์ฌ key point ํ๋ณด๋ฅผ ์ ํํ์๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋์ค์ [14], [15] ์ ๋ค๋ฅธ ์์ ๋ค์์๋ ์ฐ์๋ค. ์ด ๋ฐฉ๋ฒ์ correlation curve์ ํํ์ ํ์คํธ์ฐจ ์ฌ์ด์ ๊ฐํ ์๊ด ๊ด๊ณ๊ฐ ์๋ค๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
correlation function
correlation curve
Cheng ๋ฑ ์ Olson ๋ฐฉ์์์ ๋ ๊ฐ์ง๋ฅผ ๊ฐ์ ํ์๋ค. ์ฐ์ Harris Corner Detector๋ฅผ ์ฌ์ฉํ ํ, (Lacroix ๋ฑ์ด ์ ์ํ) Feature ์ฃผ๋ณ์ correlation function์ curvature์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ํฌ์ธํธ์ error covariance matrix๋ฅผ ์ ์ํ๋ค. ๋ ๋ฒ์งธ๋, Nister๊ฐ ๊ทธ๋ฌ๋ฏ outlier rejection์ ์ํด์ ์ต์ ์์น ๋ชจ์ ์ถ์ ๋จ๊ณ (least-squares motion estimation step)์์ RANSAC์ ์ฌ์ฉํ๋ค.
๋ค๋ชฉ์ ํ์ฌ ์ฐจ๋์ ์ํ motion estimation์ outlier removal์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ์ผ๋ก๋ Milella์ Siegwart์ ๋ฐฉ๋ฒ์ด ์๋ค. ์ด๋ค์ Shi-Tomasi Detector๋ฅผ ์ฌ์ฉํ๊ณ (Lacroix์ ๋น์ทํ๊ฒ) stereo disparity map์ ๊ฐํ ์ ๋ขฐ๋ฅผ ๋ฐํ์ผ๋ก ์์ ํ์ต๋๋ค. ์ด์ ์ ๋ฐฉ๋ฒ์ฒ๋ผ ์ต์ ์์น์ ์ฌ์ฉํ์ฌ Motion estimation๋ฌธ์ ๋ฅผ ํ๊ณ ICP(Iterative Near Point) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ Pose refinement๋ฅผ ํด๊ฒฐํ๋ค. ๊ทธ๋ฆฌ๊ณ robustness๋ฅผ ์ํด์ outlier removal ๋จ๊ณ๋ฅผ ICP์ ํตํฉ์์ผฐ๋ค.
์ง๊ธ๊น์ง ์ธ๊ธํ ์์ ๋ค์ ๋ชจ๋ ์คํ ๋ ์ค ์์ ๋ํด์ triangulation์ ํตํด 3D ํฌ์ธํธ๋ฅผ ์ก๊ณ relative motion์ 3D to 3D point registration ๋ฌธ์ ๋ก ํ์ด๋ด๋ ๋ฐฉ์์ด๋ผ๋ ๊ณตํต์ ์ด ์๋ค. Nister์ ์ํด 2004๋ ์ ์์ ํ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ด ์ ์๋์๋๋ฐ, ์ด๋ค์ VO๋ผ๋ ์ฉ์ด๋ฅผ ์ฒ์ ๋ง๋ค์๊ณ ๊ฐ๋ ฅํ outlier rejection ์ฒด๊ณ๋ฅผ ์ค์๊ฐ์์ long-run ํ๊ฒ ๊ตฌํํด๋๋ค.
Nister et al.์ ์ํด 2004 ๋ ์ ์์ ํ ๋ค๋ฅธ ์ ๊ทผ๋ฒ์ด ์ ์๋์์ต๋๋ค. ๊ทธ๋ค์ ๋ ผ๋ฌธ์ VO๋ผ๋ ์ฉ์ด๋ฅผ ๋ง๋ค์์๋ฟ๋ง ์๋๋ผ ๊ฐ๋ ฅํ ์ด์์น ์ ๊ฑฐ ์ฒด๊ณ๋ฅผ ๊ฐ์ถ ์ต์ด์ ์ค์๊ฐ ์ฅ๊ธฐ ๊ตฌํ์ ์ ๊ณตํ๋ ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ๋ํ ์ฌ๋ฌ ๋ฉด์์ ์ด์ ์ด๋ก ๋ค์ ๊ฐ์ ํด๋๋๋ฐ, ์ฒซ์งธ๋ก, ์ด์ ์ด๋ก ๋ค๊ณผ ๋ค๋ฅด๊ฒ ํ๋ ์๊ฐ Feature๋ค์ ์ถ์ ํ์ง ์์๋ค. ๋์ Harris corner detector๋ฅผ ์ด์ฉํด ๋ ๋ฆฝ์ ์ผ๋ก ์ฐพ์ Feature๋ค์ ๋งค์นํ์๋ค.
๊ธฐ์กด ๋ฐฉ์๊ณผ ์ฐจ์ด๋ ๋ญ๊ณ ๋ญ๊ฐ ์ง๊ธ์ ๋์ธ์ธ์ง?
์ด๋ฌํ ๋ฐฉ์์ cross-correlation-based tracking์์ drift๋ฅผ ํผํ๋ ์ฅ์ ์ด ์๋ค. ๋์งธ๋ก, relative motion์ 3D to 3D ๋ฐฉ์์ผ๋ก ๊ณ์ฐํ์ง ์๊ณ 3D to 2D ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ ๋ฌธ์ ๋ก ํ์๋ค. (์ด ๋ถ๋ถ์ Motion Estimation์์ ์์ธํ ๊ธฐ์ ํ๋ค.) ๋ง์ง๋ง์ผ๋ก, RANSAC outlier rejection์ motion estimation ๋จ๊ณ์ ํตํฉํ๋ค.
Comport ๋ฑ์ ๋ค๋ฅธ ๋ชจ์ ์ถ์ ๋ฐฉ์์ ๋์ ํ๋ค. 3D to 3D point registration ์ด๋ 3D to 2D camera pose estimation ๊ธฐ์ ์ ์ฐ์ง ์๊ณ , 3D ํฌ์ธํธ๋ฅผ triangulationํ ํ์ ์์ด 2D to 2D ์ด๋ฏธ์ง์์ ๋ชจ์ ์ ๊ณ์ฐ ํ ์ ์๋๋กํ๋ quadrifocal tensor๋ฅผ ์ฌ์ฉํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ด๋ค ์คํ ๋ ์ค ์์์๋ 3D Point๋ฅผ triangulation ํ์ง ์๊ณ 2D to 2D ์ด๋ฏธ์ง ๋งค์น๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
quadrifocal tensor
3D to 3D, 3D to 2D, 2D to 2D
1-2. Monocular VO
monocular VO๊ฐ ์คํ ๋ ์ค ๋ฐฉ์๊ณผ ๋ค๋ฅธ ์ ์ 3D structure๋ ์ ๋ถ 2D ๋ฐฉ์ ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ณ์ฐ๋์ด์ผ ํ๋ค. ์ ๋์ ํฌ๊ธฐ๋ฅผ ์ ๋ ์ ์ ์๊ธฐ ๋๋ฌธ์ ์ฒซ ๋ ํ๋ ์์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ ๋ณดํต 1๋ก ์ค์ ๋๋ค. ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ผ๋ฉด ์ฒซ ๋ ํ๋ ์์ ๋ํ ์๋์ ์ธ ์ค์ผ์ผ๊ณผ ์นด๋ฉ๋ผ ํฌ์ฆ๋ 3D structure์ ๋ํ ์ ๋ณด๋ trifocal tensor๋ฅผ ์ฌ์ฉํ์ฌ ๊ฒฐ์ ํ๋ค.
trifocal tensor, ORB SLAM์์ ๋ชจ๋ ธ ์ค์ผ์ผ์ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ
perspective camera์ omnidirectional ์นด๋ฉ๋ผ ๋ชจ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ง๋ 10๋ ๊ฐ ๋จ์ผ ์นด๋ฉ๋ผ๋ก ์ฅ๊ฑฐ๋ฆฌ(๊ธธ๊ฒ๋ ์ ํฌ๋ก๋ฏธํฐ)์์ ๊ด์ฐฎ์ ์ฑ๋ฅ์ ๋ด์๋ค.
์๊ทผ ๋ฐ ์ ๋ฐฉํฅ ์นด๋ฉ๋ผ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์ฌ ์ง๋ 10 ๋ ๋์ ์ฅ๊ฑฐ๋ฆฌ (์ต๋ ์ ํฌ๋ก๋ฏธํฐ)์์ ๋จ์ผ ์นด๋ฉ๋ผ๋ก ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค. ๊ด๋ จ ์์ ์ feature-based ๋ฐฉ๋ฒ, appearance-based ๋ฐฉ๋ฒ, hybrid ๋ฐฉ๋ฒ์ผ๋ก ๋๋ ์ ์๋ค. Feature-based ๋ฐฉ๋ฒ์ ๊ฐ์ (silent)๊ณผ ๋ฐ๋ณต๋๋ ํผ์ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. appearance-based ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง ๋๋ ํ์ ์์ญ์ ์๋ ๋ชจ๋ ํฝ์ ์ intensity ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ๋ฆฌ๊ณ hybrid ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํฉ์น ๊ฒ์ด๋ค.
Feature-based ๋ฐฉ๋ฒ์ [1], [24], [25], [27], [30]~[32] ์ ๋ฐฉ๋ฒ์ด๋ค. ๋จ์ผ ์นด๋ฉ๋ผ์ ๋ํ ์ต์ด์ ์ค์๊ฐ VO๋ Nister์ ๊ฒ์ด์๊ณ , ๊ทธ๋ค์ outlier rejection์ผ๋ก RABSAC์ ์ฌ์ฉํ๊ณ ์๋ก์ด ์นด๋ฉ๋ผ์ ํฌ์ฆ๋ฅผ ๊ณ์ฐํ๋๋ฐ 3D to 2D ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ ์ ์ฌ์ฉํ๋ค. ๋ ผ๋ฌธ์ ์ฃผ ๋ด์ฉ์ RANSAC์์ ์ด๋ ๊ฐ์ค์ ๊ณ์ฐํ๊ธฐ ์ํด five-point minimal solver๋ฅผ ์ฌ์ฉํ๋ค. ์ดํ five-point RANSAC์ VO์์ ๋์ธ๊ฐ ๋์์. Corke [24]๋ catadioptric ์นด๋ฉ๋ผ๋ฅผ ์ด์ฉํด ์ป์ omnidirectional ์ด๋ฏธ์ง์ optical flow๋ฅผ ์ด์ฉํ mono VO์ ๋ํ ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ๋ค. Eng Lhuillier [25] ๋ฐ Mouragnon [30]์ ๋ชจ์ ๊ณผ 3D ๋งต์ ๋ชจ๋ ๋ณต๊ตฌํ๊ธฐ ์ํด Local windowed-bundle adjustment์ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ฐฉ์์ ์ ์ํ๋ค. (์ด๋ Bundle adjustment๊ฐ ๋ง์ง๋ง m ํ๋ ์์ ์๋์ฐ์์ ์ํ๋จ์ ์๋ฏธํจ.) ๋ค์, ๊ทธ๋ค์ outlier ์ ๊ฑฐ ๋ฐฉ๋ฒ์ผ๋ก five-point RANSAC์ ์ฌ์ฉํ๋ค.
Five-point RANSAC
windowed-bundle adjustment
Tardif [27]๋ Bundle adjustment ์์ด ์ฅ๊ฑฐ๋ฆฌ(2.5km)์์ VO๋ฅผ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ด์ ์์ ๋ค๊ณผ๋ ๋ฌ๋ฆฌ Rotation๊ณผ translation ์ถ์ ์ ๋ถ๋ฆฌํ๋ค. Rotation์ ๋ฌดํ๋์ ์ ๊ณผ ๋ณต๊ตฌ๋ 3D ์ง๋์ translation์ ์ด์ฉํ์ฌ ์ถ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ five-point RANSAC์ ์ฌ์ฉํ์๋ค.
Appearance-based ์ hybrid ๋ฐฉ๋ฒ์ผ๋ก๋ [26], [28], [29] ๊ฐ ์๋ค. Goecke [26]์ Fourier-Mellin transform์ ์ด์ฉํด ์ฐจ๋์์ ์ฐ์ ์ง๋ฉด์ ์๊ทผ ์ด๋ฏธ์ง๋ฅผ registeringํ๊ณ , Milford์ Wyeth[28]์ ์ฐจ๋์ ์ฅ์ฐฉ๋ single perspective ์นด๋ฉ๋ผ์์ ๋๋ต์ ์ธ Rotation ๋ฐ translational velocity ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์ ์ ํ์ผ๋ฉฐ ์ด๊ฑธ RatSLAM์ ์ฌ์ฉํ๋ค. ๊ทธ๋ค ๋ฐฉ์์ ์ฅ๋ฉด ์ค์์ Templete tracking ๋ฐฉ๋ฒ์ ์ผ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฃผ์ ๋จ์ ์ occlussion์ robustํ์ง ์๋ค๋ ์ ์ด๋ค. ์ด๋ฌํ ์ด์ ๋ก Scaramuzza์ Siegwart[29]๋ translation๊ณผ absolute scale์ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉ๋๋ ์๋์ฐจ์ ํ์ ๊ณผ ์ง๋ฉด์ผ๋ก ๋ถํฐ์ ํน์ง์ ์ถ์ ํ๊ธฐ ์ํด์ ์ด๋ฏธ์ง ๋ชจ์์ ์ฌ์ฉํ๋ค. Feature ๊ธฐ๋ฐ์ ๋ฐฉ์์ appearance ๋ฐฉ์์ ๋จ์ ์ ๋ณด์ํ๋๋ฐ ์ฌ์ฉํ๋ค.
์ธ ์ ๊ทผ๋ฒ ์ค ์ด๋ค ์ ๊ทผ๋ฒ์ด ๋์ธ ์ธ์ง
์์ ์ธ๊ธํ ๋ชจ๋ ๋ฐฉ์์ 6 DoF์์์ unconstrained motion์ ์ํด ์ค๊ณ๋์๋ค. ํ์ง๋ง, ๋ช๊ฐ์ง VO ์์ ์ motion constraint๊ฐ ์๋ ์ฐจ๋์ ์ํด ์ค๊ณ๋์๋ค. ์ฅ์ ์ ์ฐ์ฐ ์๊ฐ์ด ๋จ์ถ๋๊ณ ๋ชจ์ ์ ํ๋๊ฐ ํฅ์๋๋ค๋ ๊ฒ์ด๋ค. ์๋ฅผ ๋ค์ด Liang and Pears [35], Ke and Kanade [36], Wang et al. [37] ๋ฐ Guerrero et al. [38]๋ dominant ๊ทธ๋ผ์ด๋ ๋ฉด์์์ egomotion์ ์ถ์ ํ๊ธฐ ์ํด homographies๋ฅผ ์ฌ์ฉํ๋ค. Scaramuzza et al. [31], [39] ๋ egomotion ์ถ์ ์๋๋ฅผ 400Hz๋ก ๋์ด๊ธฐ ์ํด vehicle nonholonomic constraint๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ one-point RANSAC outlier rejection์ ๋์ ํ๋ค. ํ์ ์์ ์์ ๊ทธ๋ค์ nonholonomic constraint๊ฐ ์ฐจ๋์ด ํ์ ํ ๋๋ง๋ค mono camera์์ absolute scale์ ๋ณต๊ตฌ ํ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค[40]. ๊ทธ ์์ ์ ์ด์ด feature tracking ํฅ์์ ์ํด Pretto et al. ์ ์ํด ์ฐจ๋ nonholonomic constraint๋ ์ฌ์ฉ๋์๋ค. Fraundorfer et al. [41]๋ windowed bundle adjustment๋ฅผ ์ํด nonholonomic constraint๋ฅผ ์ฌ์ฉํ์๋ค. (๋ค์ ์น์ ์ฐธ์กฐ)
nonholonomic constraint
unconstrained motion
6 DoF ๋น์ฃผ์ผ ์ค๋๋ฉํธ๋ฆฌ์์ DoF ์๋ฏธ
1-3. Reducing the Drift
VO๋ ์นด๋ฉ๋ผ ๊ฒฝ๋ก๋ฅผ ์ ์ง์ ์ผ๋ก ๊ณ์ฐํ๋ ๋ฐฉ์์ด๋ฏ๋ก (ํฌ์ฆ์ ๊ทธ ๋ค์ ํฌ์ฆ) ๊ฐ๊ฐ์ ์๋ก์ด ํ๋ ์ ๊ฐ ๋ชจ์ ์ผ๋ก ์ธํด ๋ฐ์ํ๋ ์ค๋ฅ๋ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋์ ๋๋ค. ์ด๊ฒ์ ์ค์ ๊ฒฝ๋ก์์ ์ถ์ ๋ ๊ถค์ ์ผ๋ก drift๋ฅผ ์์ฑํ๋ค. ์ผ๋ถ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฒฝ์ฐ drift๋ฅผ ๊ฐ๋ฅํ ์๊ฒ ์ ์งํ๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด๋ ๋ง์ง๋ง์์ ๋ถํฐ m๊ฐ์ ์นด๋ฉ๋ผ ํฌ์ฆ์ ๋ํ local optimization์ ํตํด ์ํ ํ ์ ์๋ค.
local optimization
sliding window bundle adjustment ๋๋ windowed bundle adjustment๋ผ๊ณ ํ๋ ์ด ๋ฐฉ์์ [41]-[44] ์ ๊ฐ์ ์ฌ๋ฌ ์์ ์์ ์ฐ์๋ค. ํนํ Konolige et al. [43]์ 10km VO ์คํ์์ window bundle adjustment์ด ์ต์ข ์์น ์ค๋ฅ๋ฅผ 2~5๋ฐฐ ๊ฐ์์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค. ๋ช ๋ฐฑํ, VO drift๋ GPS๋ ๋ ์ด์ ์ ๊ฐ์ ๋ค๋ฅธ ์ผ์์ ๊ฒฐํฉํ๊ฑฐ๋ IMU๋ง ์ฌ์ฉํ์ฌ๋ ์ค์ผ ์ ์๋ค. [43], [45], [46].
1-4. V-SLAM
์ด ํํ ๋ฆฌ์ผ์ VO ์ค์ฌ์ ๋ด์ฉ์ด์ง๋ง VSLAM์ ์ํด ์ํ๋๋ parallel line์ ๋ํด ์ธ๊ธํด์ผํ๋ค. SLAM ๋ฌธ์ ์ ๋ํ ์ฌ๋ ์๋ ์ฐ๊ตฌ๋ฅผ ์ํด ๋ ์๋ Durrant-Whyte์ Bailey [47], [48]์ ๊ธ์ ์ฐธ์กฐํ๋ค. ๋ ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ด VSLAM ์์ ๋์ธ๊ฐ ๋์๋ค. 1)ํํฐ๋ง ๋ฐฉ๋ฒ์ ๋ชจ๋ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ํ๋ฅ ๋ถํฌ(probability distribution)๊ณผ ์ตํฉํ๊ณ [49] 2) ํค ํ๋ ์ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ๋ ํ๋ ๋น ํํฐ๋ง ๋ฐฉ๋ฒ์ ์ ํํ ํคํ๋ ์์ ๋ํ global bundle adjustment ๋ฅผ ์ ์งํ๋ค. ๋ ์ ๊ทผ๋ฒ์ ์ฃผ์ ์ฅ์ ์ [51]์ ํ๊ฐ๋๊ณ ์์ฝ ๋์ด์๋ค.
[51] ์์ฝ ์ฝ์ด๋ณด๊ธฐ
์ง๋ ๋ช ๋ ๋์ mono์ stereo camera ๋ชจ๋ ์ฌ์ฉํ์ฌ ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. [49], [52]-[62]. ์ด๋ฌํ ์ฐ๊ตฌ์ ๋๋ถ๋ถ์ ์์ ์ค๋ด ์์ ๊ณต๊ฐ์ผ๋ก ์ ํ๋์ด ์์ผ๋ฉฐ ์ต๊ทผํด ํฐ ๊ณต๊ฐ์ ์ํด ์ค๊ณ๋ ์ฐ๊ตฌ๋ ๊ทน์์์ ๋ถ๊ณผํ๋ค. [54], [60], [62].
54 60 62 ์ฝ์ด๋ณด๊ธฐ
์ค์๊ฐ VSLAM์ ์ด๊ธฐ์๋ค ์ค ์ผ๋ถ์ธ Chiuso et al. [52], Deans [53], Davison [49]๋ full-covariance Kalman ๋ฐฉ์์ ์ฌ์ฉํ๋ค. Davison[49] ์ฐ๊ตฌ์ ์ด์ ์ ์์์ ์๊ฐ ํ์ ๋ฐ๋ณต ๊ฐ๋ฅํ localization์ ์ค๋ช ํ ๊ฒ์ด๋ค. ๋์ค์ Handa et al. [59]๊ฐ probabilistic framework์ ๊ธฐ๋ฐ์ผ๋ก ํ active matching ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๊ทธ ์์ ์ ๊ฐ์ ํ๋ค.
Civera et al. [60] ๋ RANSAC model-hypothesis ๋จ๊ณ์์ ํํฐ์์ ์ ์ฉํ ์ฌ์ ํ๋ฅ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ Kalman filter ๋ด์์ one-point RANSAC์ ์กฐํฉ์ ์ ์ํ๋ ๋ฐฉ์์ผ๋ก ๊ตฌํํ์๋ค. ๋ง์ง๋ง์ผ๋ก Strasdat et al. [61]์ SLAM์ ํน์ ํน์ฑ์ ๊ณ ๋ คํ๋ฉด์ ํค ํ๋ ์ optimization ์ ๊ทผ๋ฒ [50]์ ํ์ฉํ๋ ์ค์ธ VSLAM์ ์ํ ์๋ก์ด ํ๋ ์ ์ํฌ๋ฅผ ์ ์ํ์๋ค.
RANSAC model-hypothesis ๋จ๊ณ
ํน์ ํน์ฑ (special character) ๋?
1-5. VO versus VSLAM
์ด ์น์ ์์๋ VO์ VSLAM์ ๊ด๊ณ๋ฅผ ๋ถ์ํ๋ค. ์ผ๋ฐ์ ์ผ๋ก VSLAM์ ๋ชฉํ๋ ๋ก๋ด ๊ฒฝ๋ก์ ์ ์ฒด์ ์ด๊ณ ์ผ๊ด๋ ์ถ์ ์น๋ฅผ ์ป๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ ๋ก๋ด์ด ์ด์ ์ ๋ฐฉ๋ฌธํ ์ง์ญ์ผ๋ก ๋์์ฌ ๋๋ฅผ ์ธ์ํ๋๋ฐ ํ์ํ๊ธฐ ๋๋ฌธ์ ์ ์ ํ๊ฒฝ์ ์ง๋๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค. (์ด๋ฅผ Loop closing ์ด๋ผ๊ณ ํ๋ค. Loop closing์ด ๊ฐ์ง๋๋ฉด ์ด ์ ๋ณด๋ค์ ์ง๋์ ์นด๋ฉ๋ผ ๊ฒฝ๋ก ๋ชจ๋์์ drift๋ฅผ ์ค์ด๋ ๋ฐ ์ฌ์ฉ๋๋ค. 1) Loop closing ์ด ๋ฐ์ํ๋ ์๊ธฐ๋ฅผ ์ดํดํ๊ณ 2) ์ด ์๋ก์ด constraint์ ํ์ฌ ๋งต์ ํจ์จ์ ์ผ๋ก ํตํฉํ๋ ๊ฒ์ด SLAM์ ๋ ๊ฐ์ง ์ฃผ์ ๋ฌธ์ ์ด๋ค.) ๋ฐ๋๋ก, VO๋ Path๋ฅผ ํฌ์ฆ๋ง๋ค ์ ์ง์ ์ผ๋ก ๋ณต๊ตฌ ํ๋ ๊ฒ๊ณผ ์ ์ฌ์ ์ผ๋ก ๋ง์ง๋ง์์ ๋ถํฐ n๊ฐ์ ํฌ์ฆ์ ๋ํด์ ์ต์ ํ๋ฅผ ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. (์ด๊ฒ์ Windowed bundle adjustment๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ค.) sliding window optimization์ SLAM์์ ๋ก์ปฌ ๋งต์ ๊ตฌ์ถํ๋ ๊ฒ๊ณผ ๋์ผํ๋ค๊ณ ๊ฐ์ฃผํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์ฒ ํ(;๋ณธ์ง)์ ๋ค๋ฅด๋ค. VO์์๋ trajectory์ local consistency์๋ง ๊ด์ฌ์ด ์๊ณ , ๋ก์ปฌ ๋งต์ local trajectory์ ์ ํํ ์ถ์ (e.g. bundle adjustment) ์๋ง ์ฌ์ฉ๋๋ค. ๋ฐ๋ฉด์ VSLAM์ global map consistency์ ๋ณด๋ค ๊ด์ฌ์ด ์๋ค.
loop closing
global map consistency
VO๋ ์์ ํ SLAM ์๊ณ ๋ฆฌ์ฆ์ building block์ผ๋ก ์ฌ์ฉ๋์ด ์นด๋ฉ๋ผ์ incremental motion์ ๋ณต๊ตฌ ํ ์ ์๋ค. ๊ทธ๋ฌ๋ ์์ ํ SLAM ๋ฐฉ๋ฒ์ ๋ง๋๋ ค๋ฉด Loop closing์ ๊ฐ์งํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฐ๋ฅํ global optimization ๋จ๊ณ๋ฅผ ์ถ๊ฐํ์ฌ metricallyํ๊ฒ ์ผ๊ด๋ ๋งต์ ๊ฐ์ ธ์์ผ ํ๋ค. (์ด ๋จ๊ณ๊ฐ ์์ด๋ ๋งต์ ์ฌ์ ํ topologicallyํ๊ฒ ์ผ์ ํ๋ค.)
incremental motion
๋ง์ฝ ์ฌ์ฉ์๊ฐ ์ ์ฒด ๋งต์ด ์๋ ์นด๋ฉ๋ผ ๊ฒฝ๋ก์๋ง ๊ด์ฌ์ด ์๋ ๊ฒฝ์ฐ ์ด ํํ ์ด์ผ์์ ์ค๋ช ํ๋ VO ๊ธฐ์ ๋์ ์์ ํ VSLAM ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ์ ์๋ค. VSLAM ๋ฐฉ์์ ๊ฒฝ๋ก์ ๋ ๋ง์ ์ ์ฝ์ ์ ์ฉํ์ง๋ง ๋ฐ๋์ ๋ ๊ฐ๋ ฅํ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์ ์ ์ฌ์ ์ผ๋ก ํจ์ฌ ๋ ์ ํํ๋ค. (e.g. loop closing์ outlier๋ค์ map consistency์ ์ฌ๊ฐํ ์ํฅ์ ์ค ์ ์์.) ๋ํ ๋ ๋ณต์กํ๊ณ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค.
๊ฒฐ๊ตญ VO์ VSLAM ์ค ์ ํํ๋ ๊ฒ์ ์ฑ๋ฅ๊ณผ ์ผ๊ด์ฑ ์ฌ์ด์ ๊ท ํ๊ณผ ๊ตฌํ์ ๋จ์์ฑ์ ๋ฌ๋ ค ์๋ค. ์นด๋ฉ๋ผ ๊ฒฝ๋ก์ ์ ์ฒด์ ์ธ ์ผ๊ด์ฑ์ด ์ค์ํ๊ธด ํ์ง๋ง VO๋ ์นด๋ฉ๋ผ์ ์ด์ ๊ธฐ๋ก์ ์ถ์ ํ ํ์ ์์ด ์ค์๊ฐ ์ฑ๋ฅ๊ณผ ์ผ๊ด์ฑ์ ์ ์ถฉํ๋ค.
2. Formulation of the VO problem
agent๊ฐ ์ ์ฒด ํ๊ฒฝ์ ์ด๋ํ๋ฉฐ ๊ณ ์ ๋ ์นด๋ฉ๋ผ ์์คํ ์ผ๋ก ์ด์ฐ ์๊ฐ k์ ์ด๋ฏธ์ง๋ฅผ ์ดฌ์ํ๋ค. mono ์์คํ ์ ๊ฒฝ์ฐ k ์๊ฐ์ ์ดฌ์๋ ์ด๋ฏธ์ง ์ธํธ๋ I0:n = {I0, ... , In} ๊ผด๋ก ๋ํ๋ผ ์ ์๋ค. Stereo ์์คํ ์ ๊ฒฝ์ฐ๋ ๋งค ์๊ฐ ์ผ์ชฝ ์ค๋ฅธ์ชฝ ์ด๋ฏธ์ง๊ฐ ์๋๋ฐ y Il, 0:n ยผ fIl, 0, ... , Il, ng and Ir, 0:n ยผ fIr, 0, ... , Ir, ng . ์ด๋ Figure 1 ์ ๊ทธ๋ฆผ์ด ์ด๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.

๋จ์ํ๋ฅผ ์ํด, camera coordinate frame์ agent's coordinate frame์ผ๋ก ๊ฐ์ ํ๋ค. Stereo ์์คํ ์ ๊ฒฝ์ฐ ์ผ๋ฐ์ฑ์ ์์ง ์๊ณ ์ผ์ชฝ ์นด๋ฉ๋ผ์ ์ขํ๊ณ๋ฅผ ์์ ์ผ๋ก ์ฌ์ฉ ํ ์ ์๋ค.
์ธ์ ํ ์์ k1 ๋ฐ k์์ ๋ ๊ฐ์ ์นด๋ฉ๋ผ ์์น๋ ๋ค์ ํ์์ rigid body transformation T_k,k-1 E R ^4x4 of the following form:

Rigid body transform
์ฌ๊ธฐ์ Rk,k-1 E SO(3) ๋ rotation ํ๋ ฌ์ด๊ณ , tk,k-1 E R^3x1 ๋ translation ๋ฒกํฐ์ด๋ค. T1:n = {T1,0,,,, , Tn,n-1} ์ธํธ์๋ ๋ชจ๋ ํ์ ๋์์ด ํฌํจ๋๋ค. ๋จ์ํ๊ฒ ํ๊ธฐํ๊ธฐ ์ํด ์ง๊ธ๋ถํฐ tk,k-1 ๋์ ์ Tk๋ก ํ๊ธฐํ๋ค. ๋ง์ง๋ง์ผ๋ก ์นด๋ฉ๋ผ ํฌ์ฆ ์ธํธ C0:n = {C0, ... , Cn}๋ k=0์ธ ์ด๊ธฐ ์ขํ ํ๋ ์์ ๋ํ ์นด๋ฉ๋ผ์ ๋ณํ์ด ํฌํจ๋๋ค. ํ์ฌ ํฌ์ฆ Cn์ ๋ชจ๋ ๋ณํ Tk(k=1,,,n)์ ์ฐ๊ฒฐํด์ ๊ตฌํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฌ๋ฏ๋ก Cn = Cn-1Tn, ์ฆ, C0์ ์ฌ์ฉ์๊ฐ ์์๋ก ์ค์ ํ k=0 ์๊ฐ์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ผ๊ณ ํ ์ ์๋ค.
VO์ ์ฃผ์ ์์ ์ ์ด๋ฏธ์ง Ik ์ Ik-1์์ relative transformation Tk๋ฅผ ๊ณ์ฐํ ๋ค์ transformation๋ค์ ์ฐ๊ฒฐํ์ฌ ์นด๋ฉ๋ผ์ ์ ์ฒด ๊ถค์ C0:n์ ๋ณต๊ตฌํ๋ ๊ฒ์ด๋ค. ์ด๊ฒ์ VO๊ฐ ํฌ์ฆ๋ง๋ค ๊ฒฝ๋ก๋ฅผ ์ ์ง์ ์ผ๋ก ๋ณต๊ตฌํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด ๋จ๊ณ ํ์ ๋ง์ง๋ง m๊ฐ์ ํฌ์ฆ์ ๋ํ ๋ฐ๋ณต์ ์ธ ๋ฏธ์ธ ์กฐ์ ์ ์ํํ์ฌ local trajectory๋ฅผ ๋ณด๋ค ์ ํํ๊ฒ ์ถ์ ํ ์ ์๋ค. ์ด ๋ฐ๋ณต์ ์ธ ๊ฐ์ ์ ๋ง์ง๋ง m๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด ์ฌ๊ตฌ์ฑ ๋ 3D ํฌ์ธํธ (์ฆ, 3D ๋งต)์ squared reprojection error์ ํฉ์ ์ต์ํํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค. (mํ๋ ์์ window์์ ์ํ๋๊ธฐ ๋๋ฌธ์ windowed-bundle adjustment๋ผ๊ณ ํจ, Bundle adjustment๋ Part 2์์ ์์ธํ ๋ค๋ฃฌ๋ค.) 3D ํฌ์ธํธ๋ ์ด๋ฏธ์ง ํฌ์ธํธ๋ฅผ Triangulationํ์ฌ ์ป๋๋ค. (Triangulation๊ณผ Keyframe Selection ๋ถ๋ถ ์ฐธ๊ณ )
"Monocular VO" ์์ ์ธ๊ธํ๋ฏ์ด ์๋ ๋ชจ์ Tk๋ฅผ ๊ณ์ฐํ๋ ๋ ๊ฐ์ง ์ฃผ์ ๋ฐฉ์์ด ์๋ค. ๋ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์๋ ๋ชจ๋ ํฝ์ ์ intensity ์ ๋ณด๋ฅผ ์ด์ฉํ๋ appearance-based ๋ฐฉ๋ฒ๊ณผ salient์ ๋ฐ๋ณต๋๋ feature๋ฅผ ๋ฝ์์ ์ฌ์ฉํ๋(trackํ๋) feature-based ๋ฐฉ๋ฒ์ด ์๋ค.
salient
appearance-based ๋ฐฉ๋ฒ์ feature-based ๋ฐฉ๋ฒ์ ๋นํด ์ ํ๋๊ฐ ๋จ์ด์ง๊ณ ์ฐ์ฐ๋์ด ๋ ๋ง๋ค. (์์ "History of VO"์์ ์ดํด๋ดค๋ฏ์ด Stereo์ ๊ฒฝ์ฐ๋ณด๋ค ๊ตฌํ์ด ์ฌ์ด ๊ด๊ณ๋ก ๋๋ถ๋ถ์ appearance-based ๋ฐฉ์์ monocular VO์ ์ฐ์๋ค. ) Feature-based ๋ฐฉ์์ ์ฌ์ฉํ๋ ค๋ฉด ํ๋ ์ ์ ์ฒด์์ feature๋ค์ robustํ๊ฒ ๋งค์นํ๋ ๊ธฐ๋ฅ์ด ํ์ํ์ง๋ง appearance-based ๋ฐฉ์๋ณด๋ค ๋น ๋ฅด๊ณ ์ ํํ๋ค. ๊ทธ๋ฌํ ์ด์ ๋ก, ๋๋ถ๋ถ์ VO ๊ตฌํ์ Feature-based ๋ฐฉ์์ด๋ค.
VO์ ํ์ดํ๋ผ์ธ์ Figure 2์ ์์ฝ๋์ด ์๋ค. ๋ชจ๋ ์ ์ด๋ฏธ์ง Ik(์คํ ๋ ์ค ์นด๋ฉ๋ผ์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง ์) ์ ๋ํด ์ฒ์ ๋ ๋จ๊ณ๋ 2D Feature๋ฅผ ๊ฐ์งํ๊ณ ์ด์ ํ๋ ์์ Feature์ ์ผ์น์ํค๋ ๊ฒ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ์๋ก ๋ค๋ฅธ ํ๋ ์์์ ๋์ผํ 3D ๊ธฐ๋ฅ์ reprojectionํ๋ 2D ๊ธฐ๋ฅ์ image correspondences ๋ผ๊ณ ํ๋ค. ( Part2 ์์ ๋ค์ ์ค๋ช ํ๊ฒ ์ง๋ง, ์ฐ๋ฆฌ๋ feature matching๊ณผ feature tracking์ ๊ตฌ๋ณํ๋ค. ์ฒซ ๋ฒ์งธ๋ก ๋ชจ๋ ์ด๋ฏธ์ง์์ ๋ ๋ฆฝ์ ์ผ๋ก feature๋ฅผ ๊ฐ์งํ ๋ค์ ๋ช ๊ฐ์ง similarity metrics๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋งค์นญํ๋ ๊ฒ์ผ๋ก ๊ตฌ์ฑ๋๊ณ , ๋ ๋ฒ์งธ๋ก ํ๋์ ์ด๋ฏธ์ง์์ feature๋ฅผ ์ฐพ๊ณ , ๋ค์ ์ด๋ฏธ์ง์์ correlation๊ณผ ๊ฐ์ local search technique์ ์ฌ์ฉํ์ฌ tracking ํ๋ ๊ฒ์ผ๋ก ๊ตฌ์ฑ๋๋ค. )

์ธ ๋ฒ์งธ ๋จ๊ณ๋ k 1 ์๊ฐ๊ณผ k ์๊ฐ ์ฌ์ด์ ์๋ ์ด๋ Tk๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ผ๋ก ๊ตฌ์ฑ๋ค. ๋์์ด 3 ์ฐจ์ ๋๋ 2 ์ฐจ์์ผ๋ก ์ง์ ๋์๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ธ ๊ฐ์ง ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ด ์๋ค. (โMotion Estimationโ์น์ ์ฐธ์กฐ). ์นด๋ฉ๋ผ ํฌ์ฆ Ck๋ Tk๋ฅผ ์ด์ ํฌ์ฆ์ ์ฐ๊ฒฐํ์ฌ ๊ณ์ฐ๋๋ค. ๋ง์ง๋ง์ผ๋ก, Local trajectory์ ๋ํ ๋ณด๋ค ์ ํํ ์ถ์ ์ ์ป๊ธฐ ์ํด ๋ง์ง๋ง m ํ๋ ์์ ๋ํด ๋ฐ๋ณต์ ์ธ iterative refinement (bundle adjustment)์ ์คํํ ์ ์๋ค.
Motion estimation์ ์ด ํํ ๋ฆฌ์ผ์ ์ค๋ช ๋์ด์๋ค. ("motion estimation" ์น์ ์ฐธ๊ณ ) Feature detection๊ณผ matching, bundle adjustment๋ Part2์์ ์ค๋ช ํ๋ค. ๋ํ, ์ ํํ ๋ชจ์ ๊ณ์ฐ์ ์ํด feature correspondences ๋ outlier (wrong data associations๋ผ๊ณ ๋ ํ๋) ๋ฅผ ํฌํจํ๊ณ ์์ด์๋ ์๋๋ค. outlier๊ฐ ์๋ ์ํ์์ ์ ํํ ๋ชจ์ ์ถ์ ์ ๋ณด์ฅํ๋ ๊ฒ์ robust estimation์ ์์ ์ด๋ฉฐ ์ด๋ Part2์์ ์ค๋ช ํ๋๋ก ํ๋ค. ๋๋ถ๋ถ์ VO ๊ตฌํ์์๋ ์นด๋ฉ๋ฝ ๋ณด์ ๋์๋ค๊ณ ๊ฐ์ ํ๋ค. ์ด๋ฅผ ์ํด ๋ค์ ์น์ ์์๋ perspective camera์ omnidirectional camera์ ํ์ค ๋ชจ๋ธ๊ณผ ๋ณด์ ์ ์ฐจ๋ฅผ ์์๋ณธ๋ค.
2-1. Perspective Camera model
perspective ์นด๋ฉ๋ผ์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ํ์ค ๋ชจ๋ธ์ pinhole projection ์์คํ ์ ๊ฐ์ ํ๋ค. ์ด๋ฏธ์ง๋ ์ด์ ๋ฉด๊ณผ ๋ ์ฆ ์ค์(ํฌ์ ์ค์ฌ)์ ํตํด ๋ฌผ์ฒด์์ ๋์ค๋ ๊ด์ ์ ๊ต์ฐจ๋ก ํ์ฑ๋๋ค. Figure 3. (a) ์ฐธ๊ณ .

X= [x,y,z]^t๋ฅผ ์นด๋ฉ๋ผ reference frame์ scene point๋ผ๊ณ ํ๊ณ , p=[u,v]^t๋ ํฝ์ ๋จ์๋ก ์ธก์ ๋ ์ด๋ฏธ์ง ๋ฉด์ผ๋ก์ ํฌ์์ด๋ผ๊ณ ๊ฐ์ ํ๋ค. 3D์์ 2D๋ก์ ๋งคํ์ perspective projection equation์ผ๋ก ์ ๊ณต๋๋ค.

์ฌ๊ธฐ์ ๋๋ค๋ depth factor, a_u ๋ฐ a_v๋ ์ด์ ๊ฑฐ๋ฆฌ, u_0, v_0๋ ํฌ์ ์ค์ฌ์ ์ด๋ฏธ์ง ์ขํ์ด๋ค. ์ด๋ฌํ parameter๋ฅผ intrincsic parameter๋ผ๊ณ ํ๋ค. ์นด๋ฉ๋ผ์ ์์ผ๊ฐ 45๋๋ณด๋ค ํฌ๋ฉด ๋ฐฉ์ฌํ ์๊ณก์ ํจ๊ณผ๊ฐ ํ์ ๋ ์ ์์ผ๋ฉฐ, 2์ฐจ(๋๋ ๊ทธ ์ด์) ๋คํญ์์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ง ํ ์ ์๋ค. ์์ ๋ชจ๋ธ์ ํ์ํ์ [22]๋ [63]์ ๊ฐ์ ์ปดํจํฐ ๋น์ ๊ต๊ณผ์์์ ์ฐพ์ ์ ์๋ค. p ~= [u, v,1]^T = k^-1[u,v,1]^T๋ฅผ ์ ๊ทํ๋ ์ด๋ฏธ์ง ์ขํ(Nomalized image coordinates)๋ผ๊ณ ํ๋ค. ์ด ์ขํ๋ ๋ค์ ์น์
์ ์ฒด์์ ์ฌ์ฉ๋๋ค.
omnidirectional camera, spherical camera ์๋ต
2-2. Camera Calibration
Calibration์ ๋ชฉํ๋ ์นด๋ฉ๋ผ ์์คํ ์ intrinsic ๋ฐ extrinsic parameter๋ฅผ ์ ํํ๊ฒ ์ธก์ ํ๋ ๊ฒ์ด๋ค. ๋ค์ ์นด๋ฉ๋ผ ์์คํ ์์ extrinsic parameter๋ ์นด๋ฉ๋ผ ๊ฐ ์ํธ ์์น์ ๋ฐฉํฅ์ ๊ฐ์ง๊ณ ์๋ค. ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ planar checkerboard-like pattern์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ๋ณด๋์ ์ฌ๊ฐํ์ ์์น๋ ์๊ณ ์์ด์ผ ํ๋ฉฐ, calibration parameter๋ฅผ ์ ํํ๊ฒ ๊ณ์ฐํ๊ธฐ ์ํด ์นด๋ฉ๋ผ์ ํ๊ฐ์ ์ต๋ํ ์ฑ์์ ธ ์๊ณ ๋ค์ํ ์์น์ ๋ฐฉํฅ์์ ์ฐํ ์ฌ๋ฌ์ฅ์ ๋ณด๋ ์ฌ์ง์ ์ดฌ์ํด์ผ ํ๋ค. ๊ทธ๋ฐ least-square minimization method๋ฅผ ์ด์ฉํ์ฌ intrinsic ํ๋ผ๋ฏธํฐ์ extrinsic ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌํด๋ธ๋ค. ์ ๋ ฅ ๋ฐ์ดํฐ๋ ๋ณด๋ ์ฌ๊ฐํ ๋ชจ์๋ฆฌ์ 2D ์์น์ ์ฝ๋์ ํด๋น ํฝ์ ์ขํ์ด๋ค.
๋ง์ ์นด๋ฉ๋ผ Calibration ํด๋ฐ์ค๊ฐ MATLAB ๋ฐ C ์ฉ์ผ๋ก ๊ณ ์๋์๋ค ์ต์ ๋ชฉ๋ก์ [68]์์ ์ฐพ์ ์ ์๋ค. ์ด ์ค ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ MATLAB์ perspective camera์ omnidirectional ์นด๋ฉ๋ผ์ ๋ํด์ [69]์ [70]~[72]์ ๋์ ์๋ค. perspective ์นด๋ฉ๋ผ์ ๋ํ ์นด๋ฉ๋ผ Calibration์ C๊ตฌํ์ OpenCV [73]์์ ์ฐพ์ ์ ์๋ค.
2-3. Motion Estimation
Motion Estimation์ ๋ชจ๋ ์ด๋ฏธ์ง์ ๋ํด ์ํ๋๋ VO ์์คํ ์ ํต์ฌ ๋จ๊ณ์ด๋ค. ๋ณด๋ค ์ ํํ๊ฒ๋ Motion Estimation ๋จ๊ณ์์ ํ์ฌ ์ด๋ฏธ์ง์ ์ด์ ์ด๋ฏธ์ง ์ฌ์ด์ ์นด๋ฉ๋ผ ๋ชจ์ ์ด ๊ณ์ฐ๋๋ค. ์ด๋ฌํ ๋ชจ๋ single ์์ง์์ ์ฐ๊ฒฐํ์ฌ ์นด๋ฉ๋ผ์ agent์ full trajectory(์นด๋ฉ๋ผ๊ฐ ๋จ๋จํ ์ฅ์ฐฉ๋์ด ์๋ค๊ณ ๊ฐ์ )์ ๋ณต๊ตฌ ํ ์ ์๋ค. ์ด ์น์ ์์๋ ๋ ์ด๋ฏธ์ง Ik-1๊ณผ Ik ๊ฐ์ ๋ณํ T_k๊ฐ ๊ฐ ๊ฐ๊ฐ ์๊ฐ k-1๊ณผ k์์ ๋ ์ธํธ์ ํด๋น corresponding feature , ์์ ๊ณ์ฐ ๋ ์ ์๋ ๋ฐฉ๋ฒ์ ์ค๋ช ํ๋ค. feature correspondence๊ฐ 2D๋ก ๋ช ์๋์๋์ง, 3D๋ก ๋ช ์๋์๋์ง์ ๋ฐ๋ผ ์ธ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋๋๋ค.
2D to 2D: ์ด ๊ฒฝ์ฐ ๊ณผ ๋ ๋ชจ๋ 2D ์ด๋ฏธ์ง ์ขํ๋ก ์ง์ .
3D to 3D: ์ด ๊ฒฝ์ฐ ๊ณผ ๋ ๋ชจ๋ 3D ์ด๋ฏธ์ง ์ขํ๋ก ์ง์ . ์ด ๋ฐฉ์์ Stereo ์นด๋ฉ๋ผ ์์คํ ๊ฐ์ ๊ฑธ ์ด์ฉํ ๋งค ์๊ฐ ๋ง๋ค 3D point๋ฅผ triangulation ํด์ผํ๋ค.
3D to 2D: ์ด ๊ฒฝ์ฐ ๋ 3D๋ก ์ง์ ๋๊ณ ๊ณผ ๋ ์ด๋ฏธ์ง ์ ๋ํ 2D reprojection์ด๋ค. monocular์ ๊ฒฝ์ฐ 3D ๊ตฌ์กฐ๋ฌผ์ ์ธ์ ํ ๋ ๊ฐ์ ์นด๋ฉ๋ผ ์์ ์ ์ํด triangulation๋ ๊ฒ์ด๋ค. ๊ทธ๋ฐ ๋ค์์ ์ธ ๋ฒ์งธ ๋ทฐ์ 2D ์ด๋ฏธ์ง feature์ ์ผ์นํด์ผํ๋ค. monocular ๋ฐฉ์์์๋ ์ ์ด๋ ์ธ ๊ฐ์ view๊ฐ ์ผ์นํด์ผ ํ๋ค.
Feature๋ ์ ๋๋ ์ ์ด ๋ ์ ์๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ตฌ์กฐํ๋์ง ์์(unstructured) ์ฅ๋ฉด์์๋ ์ ์ด ์๊ธฐ ๋๋ฌธ์ VO์์ ํฌ์ธํธ feature๋ฅผ ์ฌ์ฉํ๋ค. ํฌ์ธํธfeature์ ๋ผ์ธ feature์ ๋ํ ์ธ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ธต ๋ถ์์ [74]์์ ์ฐพ์ ์ ์๋ค. ๋ณธ ํํ ๋ฆฌ์ผ์์๋ point feature๋ง ๋ค๋ฃฌ๋ค.
2-4. 2D to 2D: Motion from Image Feature Correspondences
Estimating the Essential Matrix
๋ณด์ ๋ ์นด๋ฉ๋ผ์ ๋ ์ด๋ฏธ์ง ์ ์ฌ์ด์ ๊ธฐํํ์ ๊ด๊ณ๋ ์์ ์์ผ์ ํ๋ ฌ E๋ก ์ค๋ช ๋๋ค. E์๋ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ๋ณํ์ ๋ํด ์๋ ค์ง์ง ์๋ ๋ฐฐ์จ๊น์ง ์นด๋ฉ๋ผ ๋ชจ์ parameter๋ก ํฌํจ๋๋ค.

tk = [tx, ty, tz]^T ์

๋ฌผ๊ฒฐ ๊ธฐํธ๋ ๊ณฑ์ ์ค์นผ๋ผ๊น์ง ๋ฑํธ๊ฐ ์ ํจํจ์ ํ์ํ๋๋ฐ ์ฌ์ฉ๋๋ค.

์์ผ์
ํ๋ ฌ์ 2D to 2D feature correspondence๋ก ๋ถํฐ ๊ณ์ฐํ ์ ์์ผ๋ฉฐ rotation๊ณผ translation์ E์์ ์ง์ ์ถ์ถํ ์ ์๋ค. 2D to 2D ๊ธฐ๋ฐ Motion estimation์ ์ฃผ์ ์์ฑ์ epipolar constraint ์ด๋ค. ์ด๋ p์ ํด๋น ํน์ง์ p'~๊ฐ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ์๋ ์ ์ ๊ฒฐ์ ํ๋ค. ์ด constraint๋

๋ก ๊ณต์ํ ๋ ์ ์๋ค. ์ฌ๊ธฐ์ p'~๋ Ik์ ๊ฐ์ ํ ์ด๋ฏธ์ง์์์ feature ์์น์ด๊ณ p~๋ ๋ค๋ฅธ ์ด๋ฏธ์ง์ ํด๋น Feature ์์น ์ด๋ค. ~p ๋ฐ ~p'๋ nomalize๋ ์ด๋ฏธ์ง์ ์ขํ์ด๋ค.
p~ ๋ฐ p0~์ ์ ๊ทํ ๋ ์ด๋ฏธ์ง ์ขํ์
๋๋ค. ๋จ์ํ๋ฅผ ์ํด ๋ค์ ์น์
์ ์ฒด์์

ํ์์ ์ ๊ทํ ๋ ์ขํ๊ฐ ์ฌ์ฉ๋๋ค. (์๊ทผ ์นด๋ฉ๋ผ ๋ชจ๋ธ ์น์ ์ฐธ์กฐ).
Last updated
Was this helpful?