オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Vision-Language Navigation

Index

Vision-Language Navigation

3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク.

マルチモーダルの中でも、Vision Language のタスク.

アルゴリズム

OVRL-V2 / 2023

  • OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav

テクニック・工夫

EnvEdit / 2022

Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.

参考

  • Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

  • Vision-Language Navigation: A Survey and Taxonomy

Web サイト