オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

データサイエンス-マルチモーダル

【深層学習】BLIP

Index Index BLIP 応用 InstructBLIP / 2023 参考 動画 BLIP 応用 InstructBLIP / 2023 InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning [2023] arxiv.org 参考 BLIP: Bootstrapping Language-Image Pre-training fo…

【深層学習】CLIP #まとめ編

Index Index CLIP / 2021 アルゴリズム 実装について モデル 応用 Style CLIP / 2021 DALL-E / 2021 - GLIP / 2021 CLOOB / 2021 SLIP / 2021 CLIP-Lite / 2021 CLIPDraw / 2021 BLIP / 2022 BLIP-2 X-CLIP / 2022 FLIP / 2022 FedCLIP / 2023 HiCLIP / 2023…

【深層学習】Style CLIP #アルゴリズム編

Index Index Style CLIP Text Driven Manipulation Latent Optimization Latent Mapper Latent Optimizer の欠点 Global Direction Latent Mapper の欠点 Prompt Engineering 潜在変数の各チャネルとの関連性 参考 Web サイト Style CLIP Text Driven の画像…

【マルチモーダル】ICMLM

Index Index ICMLM 参考 ICMLM 画像系のタスクでの事前学習の研究. Pre Training yhayato1320.hatenablog.com Masked Language Model に視覚情報を追加した. Natural Language Supervision yhayato1320.hatenablog.com Image-Conditioned Masked Language Mo…

【マルチモーダル】VirTex

Index Index VirTex 参考 Web サイト VirTex 深層学習を用いた画像系のタスクへの事前学習の研究. 事前学習 yhayato1320.hatenablog.com 事前学習したモデルをダウンストリーム (下流) のタスクで、ファインチューニングし、精度を向上させる. また、自然言…

【マルチモーダル】Visual N-Grams

Visual N-Grams 画像分類 / 物体認識の手法. 人の手でアノテーションされたラベルを使わずに、画像に関連する文章を使って学習する. Natural Language Supervision yhayato1320.hatenablog.com 画像に関する文章のどこに注目したのかを、表現できる N-Gram …

【マルチモーダル】Visual Question Answering / VQA

Index Index Visual Question Answering / VQA アルゴリズム Dual Attention Networks / DANs / 2016 MMBT / 2019 Visual Reasoning ALOE / attention over learned object embeddings / 2020 参考 Web サイト Visual Question Answering / VQA 画像 (Visual…

【データセット】WebImageText

yhayato1320.hatenablog.com Index Index WebImageText 特徴 データの取得 参考 WebImageText CLIP というアルゴリズムが紹介された論文にて、作成されたデータセット. CLIP yhayato1320.hatenablog.com 特徴 4 億の画像とテキストのペアのデータセット. イ…

【マルチモーダル】Natural Language Supervision #まとめ編

Index Index Natural Language Supervision 従来の画像分類 自然言語を教師データに 利点 アルゴリズム Visual N-Grams / 2016 VirTex / 2020 ICMLM / 2020 ConVIRT CLIP / 2021 参考 Natural Language Supervision ラベルのついた教師データではなく、生の…

【マルチモーダル】分野一覧 #まとめ編

#まとめ編 一覧 yhayato1320.hatenablog.com Index Index アルゴリズム Text-to-Table / 2021 Gato / 2022 SpeechPainter / 2022 IM2WAV / 2022 SadTalker / 2022 Make A Vide 3D / MAV3 / 2023 ConceptFusion / 2023 MINOTAUR / 2023 Video Localized Narra…