オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

データサイエンス-マルチモーダル

【深層学習】Generative Adversarial Network / GAN #まとめ編 #04

Index Index Multimodal データにおける GAN の利用 Stack GAN / 2016 Attn GAN / Attentional GAN / 2017 Style CLIP / 2021 CLIP GAN / 2022 Multimodal データにおける GAN の利用 GAN を用いた異なるモーダル間 (Multimodal) の変換. GAN #まとめ編 yhay…

【マルチモーダル】Dual Attention Networks / DANs

Index Index Dual Attention Networks / DANs 参考 Dual Attention Networks / DANs VQA yhayato1320.hatenablog.com 参考 Dual Attention Networks for Multimodal Reasoning and Matching [2016] arxiv.org

【マルチモーダル】Order Embedding

Index Index Order Embedding 参考 Web サイト Order Embedding VSE #まとめ編 yhayato1320.hatenablog.com 参考 Order-Embeddings of Images and Language [2015] arxiv.org Web サイト 論文読み.2 Order-Embeddings of Images And Language (ICLR 2016) qi…

【マルチモーダル】Image Caption

Index Index Image Caption アルゴリズム 参考 Web サイト Image Caption 画像を入力とし、画像を説明するテキストを出力する. マルチモーダル #まとめ編 Vision-Language yhayato1320.hatenablog.com アルゴリズム Deep Visual-Semantic Alignments for Gen…

【マルチモーダル】VSE++

Index Index VSE++ 損失関数 工夫 ソースコード 参考 Web サイト VSE++ VSE は、Image Caption と Visual Question Answering などで利用される考え. VSE #まとめ編 yhayato1320.hatenablog.com Image Caption yhayato1320.hatenablog.com VQA yhayato1320.h…

【マルチモーダル】Vision-Language Navigation

Index Index Vision-Language Navigation 参考 Web サイト Vision-Language Navigation 3D 環境内のエージェントに対して、テキストで指示をすることで、行動させるマルチモーダルなタスク. マルチモーダルの中でも、Vision Language のタスク. マルチモーダ…

【マルチモーダル】Vision-Language #まとめ編

Index Index Vision-Language 一方向型と双方向型 アルゴリズム Unified-IO / 2022 Parti / 2022 タスク Text to Image Image to Text Image Caption Optical Character Recognition / OCR Visual Question Answering / VQA Image Text Retrieval / ITR Imag…

【マルチモーダル】Image Text Similarity

Index Index Image Text Similarity 表現学習 / Representation Learning Metric Learning / Distance Learning アルゴリズム Embedding and Similarity Networks / 2017 CLIP / 2021 CLOOB / 2021 工夫・テクニック Visual Semantic Embedding / VSE 実装 …

【マルチモーダル】Optical Character Recognition / OCR

Index Index Optical Character Recognition / OCR アルゴリズムの構造 Text Detection TextSnake / 2018 Pixel Aggregation Network / PANet / 2019 Progressive Scale Expansion Network / PSENet / 2019 Differentiable Binarization Net / DBNet / 2019 …

【マルチモーダル】Text to Image

Index Index Text to Image アルゴリズム Deep Recurrent Attention Writer / DRAW / 2015 OSCAR / 2020 Dream Fields / 2021 Style CLIP / 2021 DALL-E / 2021 参考 Text to Image Text から Image を生成する Vision-Language のマルチモーダルなタスク. …

【マルチモーダル】DALL-E-2

Index Index 参考 Web サイト 参考 Hierarchical Text-Conditional Image Generation with CLIP Latents [2022 OpenAI] 発表論文 arxiv.org A very preliminary analysis of DALL-E 2 [2022] arxiv.org Web サイト 【論文メモ】DALL·E 2 zenn.dev オープンAI…

【マルチモーダル】DALL-E #アルゴリズム編

Index Index DALL-E VAE Transformer 変数定義 目的 2 段階の学習 1 Step Encoder Decoder 最適化 2 Step Text Image Text と Image の結合 損失 学習における工夫 Mixed-Precision Training Distributed Optimization 画像の生成 参考 Web サイト DALL-E Te…

【マルチモーダル】DALL-E #まとめ編

Index Index DALL-E / 2021 DALL-E- 2 / 2022 参考 書籍 DALL-E / 2021 DALL-E #アルゴリズム編 yhayato1320.hatenablog.com DALL-E- 2 / 2022 DALL-E-2 yhayato1320.hatenablog.com 参考 Zero-Shot Text-to-Image Generation [2021] DALL-E -1 arxiv.org Hi…

【深層学習】BLIP

Index Index BLIP 参考 動画 BLIP 参考 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation [2022] arxiv.org 動画 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language…

【深層学習】CLIP #まとめ編

Index Index CLIP / 2021 アルゴリズムについて 実装について 応用 Style CLIP / 2021 DALL-E / 2021 - GLIP / 2021 CLOOB / 2021 SLIP / 2021 CLIP-Lite / 2021 BLIP / 2022 CLIP / 2021 テキストと画像のモーダル間の表現空間を調整することで、 異なるモ…

【深層学習】Style CLIP #アルゴリズム編

Index Index Style CLIP Text Driven Manipulation Latent Optimization Latent Mapper Latent Optimizer の欠点 Global Direction Latent Mapper の欠点 Prompt Engineering 潜在変数の各チャネルとの関連性 参考 Web サイト Style CLIP Text Driven の画像…

【マルチモーダル】ICMLM

Index Index ICMLM 参考 ICMLM 画像系のタスクでの事前学習の研究. Pre Training yhayato1320.hatenablog.com Masked Language Model に視覚情報を追加した. Natural Language Supervision yhayato1320.hatenablog.com Image-Conditioned Masked Language Mo…

【マルチモーダル】VirTex

Index Index VirTex 参考 Web サイト VirTex 深層学習を用いた画像系のタスクへの事前学習の研究. 事前学習 yhayato1320.hatenablog.com 事前学習したモデルをダウンストリーム (下流) のタスクで、ファインチューニングし、精度を向上させる. また、自然言…

【マルチモーダル】Visual N-Grams

Visual N-Grams 画像分類 / 物体認識の手法. 人の手でアノテーションされたラベルを使わずに、画像に関連する文章を使って学習する. Natural Language Supervision yhayato1320.hatenablog.com 画像に関する文章のどこに注目したのかを、表現できる N-Gram …

【マルチモーダル】Visual Question Answering / VQA

Index Index Visual Question Answering / VQA アルゴリズム Dual Attention Networks / DANs / 2016 MMBT / 2019 参考 Visual Question Answering / VQA マルチモーダル #まとめ編 Vision-Language yhayato1320.hatenablog.com アルゴリズム Ask Your Neuro…

【データセット】WebImageText

yhayato1320.hatenablog.com Index Index WebImageText 特徴 データの取得 参考 WebImageText CLIP というアルゴリズムが紹介された論文にて、作成されたデータセット. CLIP yhayato1320.hatenablog.com 特徴 4 億の画像とテキストのペアのデータセット. イ…

【マルチモーダル】Natural Language Supervision #まとめ編

Index Index Natural Language Supervision 従来の画像分類 自然言語を教師データに 利点 アルゴリズム Visual N-Grams / 2016 VirTex / 2020 ICMLM / 2020 ConVIRT CLIP / 2021 参考 Natural Language Supervision ラベルのついた教師データではなく、生の…

【マルチモーダル】分野一覧 #まとめ編

#まとめ編 一覧 yhayato1320.hatenablog.com Index Index タスク Vision Language 工夫・テクニック Natural Language Supervision GAN 研究分野 対象のデータ 参考 タスク Vision Language Vision Language yhayato1320.hatenablog.com 工夫・テクニック Na…