Index
Vision-Language Navigation
3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.
マルチモーダルの中でも、Vision Language のタスク.
- マルチモーダル #まとめ編
- Vision Language について
- yhayato1320.hatenablog.com
アルゴリズム
OVRL-V2 / 2023
- OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav
- [2023]
- arxiv.org
テクニック・工夫
EnvEdit / 2022
Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.
- EnvEdit
参考
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
- [2017]
- arxiv.org
Vision-Language Navigation: A Survey and Taxonomy
- [2021]
- arxiv.org
Web サイト
- paperswithcode.com
- paper with code の task のページ