オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

データサイエンス-マルチモーダル

【マルチモーダル】Text to Image

Index Index Text to Image アルゴリズム Deep Recurrent Attention Writer / DRAW / 2015 OSCAR / 2020 Dream Fields / 2021 Style CLIP / 2021 DALL-E / 2021 参考 Text to Image Text から Image を生成するマルチモーダルなタスク. マルチモーダル #まと…

【マルチモーダル】DALL-E-2

Index Index 参考 Web サイト 参考 Hierarchical Text-Conditional Image Generation with CLIP Latents [2022 OpenAI] 発表論文 arxiv.org A very preliminary analysis of DALL-E 2 [2022] arxiv.org Web サイト 【論文メモ】DALL·E 2 zenn.dev

【マルチモーダル】DALL-E #アルゴリズム編

Index Index DALL-E VAE Transformer 変数定義 目的 2 段階の学習 1 Step Encoder Decoder 最適化 2 Step Text Image Text と Image の結合 損失 学習における工夫 Mixed-Precision Training Distributed Optimization 画像の生成 参考 Web サイト DALL-E Te…

【マルチモーダル】DALL-E #まとめ編

Index Index DALL-E / 2021 DALL-E- 2 / 2022 参考 書籍 DALL-E / 2021 DALL-E #アルゴリズム編 yhayato1320.hatenablog.com DALL-E- 2 / 2022 DALL-E-2 yhayato1320.hatenablog.com 参考 Zero-Shot Text-to-Image Generation [2021] DALL-E -1 arxiv.org Hi…

【深層学習】BLIP

Index Index BLIP 参考 動画 BLIP 参考 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation [2022] arxiv.org 動画 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language…

【深層学習】CLIP #まとめ編

Index Index CLIP / 2021 アルゴリズムについて 実装について 応用 Style CLIP / 2021 DALL-E / 2021 - GLIP / 2021 CLOOB / 2021 SLIP / 2021 BLIP / 2022 CLIP / 2021 テキストと画像のモーダル間の表現空間を調整することで、 異なるモーダル間の表現を、…

【深層学習】Style CLIP #アルゴリズム編

Index Index Style CLIP Text Driven Manipulation Latent Optimization Latent Mapper Latent Optimizer の欠点 Global Direction Latent Mapper の欠点 Prompt Engineering 潜在変数の各チャネルとの関連性 参考 Web サイト Style CLIP Text Driven の画像…

【マルチモーダル】ICMLM

Index Index ICMLM 参考 ICMLM 画像系のタスクでの事前学習の研究. Pre Training yhayato1320.hatenablog.com Masked Language Model に視覚情報を追加した. Natural Language Supervision yhayato1320.hatenablog.com Image-Conditioned Masked Language Mo…

【マルチモーダル】VirTex

Index Index VirTex 参考 Web サイト VirTex 深層学習を用いた画像系のタスクへの事前学習の研究. 事前学習 yhayato1320.hatenablog.com 事前学習したモデルをダウンストリーム (下流) のタスクで、ファインチューニングし、精度を向上させる. また、自然言…

【マルチモーダル】Visual N-Grams

Visual N-Grams 画像分類 / 物体認識の手法. 人の手でアノテーションされたラベルを使わずに、画像に関連する文章を使って学習する. Natural Language Supervision yhayato1320.hatenablog.com 画像に関する文章のどこに注目したのかを、表現できる N-Gram …

【マルチモーダル】Visual Question Answering / VQA

Index Index Visual Question Answering / VQA アルゴリズム MMBT 参考 Visual Question Answering / VQA マルチモーダル yhayato1320.hatenablog.com アルゴリズム MMBT Supervised Multimodal Bitransformers for Classifying Images and Text [2019] arxi…

【データセット】WebImageText

yhayato1320.hatenablog.com Index Index WebImageText 特徴 データの取得 参考 WebImageText CLIP というアルゴリズムが紹介された論文にて、作成されたデータセット. CLIP yhayato1320.hatenablog.com 特徴 4 億の画像とテキストのペアのデータセット. イ…

【マルチモーダル】Natural Language Supervision #まとめ編

Index Index Natural Language Supervision 従来の画像分類 自然言語を教師データに 利点 アルゴリズム Visual N-Grams / 2016 VirTex / 2020 ICMLM / 2020 ConVIRT CLIP / 2021 参考 Natural Language Supervision ラベルのついた教師データではなく、生の…

【マルチモーダル】分野一覧 #まとめ編

#まとめ編 一覧 yhayato1320.hatenablog.com Index Index タスク Text to Image Image Caption Visual Question Answering / VQA 工夫・テクニック Natural Language Supervision 研究分野 対象のデータ 参考 タスク Text to Image Text to Image yhayato132…