オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【マルチモーダル】Text to Image #まとめ編 #00

Index

Text to Image

Text から Image を生成する Vision-Language のマルチモーダルなタスク.

アルゴリズム

Deep Recurrent Attention Writer / DRAW / 2015

  • Generating Images from Captions with Attention

OSCAR / 2020

Dream Fields / 2021

Style CLIP / 2021

DALL-E / 2021

GLIDE / 2021

CLIPDraw / 2021

Imagen / 2022

Parti / 2022

Make-A-Scene / 2022

  • Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

Textual Inversion / 2022

  • An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

eDiff-I / 2022

ANNA / 2023

  • ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions

GLIGEN / 2023

Attend-and-Excite / 2023

Encoder for Tuning / E4T / 2023

  • Designing an Encoder for Fast Personalization of Text-to-Image Models

  • Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models

    • 論文タイトル変更

  • E4T-diffusion

CoBIT / 2023

  • CoBIT: A Contrastive Bi-directional Image-Text Generation Model

GlyphDraw / 2023

漢字などの複雑な象形に挑戦.

  • GlyphDraw: Learning to Draw Chinese Characters in Image Synthesis Models Coherently

テクニック・工夫

GAN

GAN-INT-CLS / 2016

Stack GAN / 2016

Attn GAN / Attentional GAN / 2017

Giga GAN / 2023

  • Scaling up GANs for Text-to-Image Synthesis

Diffusion Model

ImageReward / 2023

  • ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

タスク

Image Editing

アプリケーション

Midjourney

テキストの説明文から画像を作成する独自の人工知能プログラムであり、また同プログラムを開発している独立した研究所の名称.

参考

書籍

Web サイト

  • paperswithcode.com

    • paper with code のタスクのページ

  • 最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【後編】

    • 4 テキストからの画像生成
      • 4.2 GANによる画像生成
        • 4.2.1 GAN-INT-CLS(2016年)
        • 4.2.2 StackGAN(2017年)
        • 4.2.3 AttnGAN(2017年)
      • 4.3 OpenAIのDALL-EからDALL-E 2まで
        • 4.3.1 DALL-E(2021年1月)
        • 4.3.2 CLIP(2021年1月)
        • 4.3.3 GLIDE(2021年12月)
        • 4.3.4 DALL-E 2(2022年4月)
      • 4.4 GoogleのImagenとParti
        • 4.3.1 Imagen(2022年5月)
        • 4.3.2 Parti(2022年6月)
    • note.com

  • 最近気になってるText-to-Imageを応用したNeRF論文の解説