Index
3D CNN
- CNN #まとめ編
基本手法
- 3D Convolutional Neural Networks for Human Action Recognition
応用手法
C3D / 2014
- Learning Spatiotemporal Features with 3D Convolutional Networks
- [2014]
- arxiv.org
I3D / 2017
参考
- 3D CNN まとめ
Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.
Vision-Language Navigation
Data Augmentation
マルチモーダル #まとめ編
タスク一覧
Point-E: A System for Generating 3D Point Clouds from Complex Prompts
OpenAI、テキストから3Dモデルを高速生成するAI「Point-E」をリリース
DreamFusion: Text-to-3D using 2D Diffusion
【AI論文解説】世界初!Diffusion modelを使ってテキストから3D生成: DreamFusionを解説
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization
チャート要約のための大規模ベンチマーク、Chart-to-textが登場!
ドキュメントの見た目の情報と文字の情報から内容を解析する.
画像における Data Augmentation のひとつ.
データ拡張 / Data Augmentation とは、機械学習において、
学習用のデータに対して「変換」を施すことでデータを水増しする手法.
ここでは、マルチモーダルデータにおける Data Augmentation について、記す.
ペアの画像とテキストを合成する手法.
Vision-Language Navigationに利用するために、Style Transfer を利用した Data Augmentation.
CutMix を Cross Modal (Multimodal) に対応させた.
Unpaired な Vision Language Pre-training に用いられる.