オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Vision-Language Navigation

データサイエンスデータサイエンス-マルチモーダル

Index

Index
Vision-Language Navigation
アルゴリズム
- OVRL-V2 / 2023
テクニック・工夫
- EnvEdit / 2022
参考
- Web サイト

3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.

マルチモーダルの中でも、Vision Language のタスク.

マルチモーダル #まとめ編
- Vision Language について
- yhayato1320.hatenablog.com

アルゴリズム

OVRL-V2 / 2023

OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav
- [2023]
- arxiv.org

テクニック・工夫

EnvEdit / 2022

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.

EnvEdit
- yhayato1320.hatenablog.com

参考

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
- [2017]
- arxiv.org
Vision-Language Navigation: A Survey and Taxonomy
- [2021]
- arxiv.org

Web サイト

paperswithcode.com
- paper with code の task のページ