Index

Index
アルゴリズム
テクニック・工夫
- Trace Manipulate / 2023
- Tuned Lens / 2023
タスク
- ChatBot
参考
- 書籍
- Web サイト

アルゴリズム

自然言語処理で利用される Transformer のアルゴリズムをまとめる.

自然現処理 #まとめ編
- 深層学習を利用したアルゴリズム
- yhayato1320.hatenablog.com
Transformer #まとめ編
- yhayato1320.hatenablog.com

BERT / 2018 - ★

Transformer Encoder を利用.

BERT #まとめ編
- yhayato1320.hatenablog.com

GPT / 2018 - ★

Transformer Decoder を利用.

GPT #まとめ編
- yhayato1320.hatenablog.com

Memory Compressed Transformer / 2018

ドキュメントの要約 / Summarize のタスクにおける手法.

Memory Compressed Attention を導入.

Memory Compressed Transformer
- yhayato1320.hatenablog.com

Transformer-XL / 2019

Transformer-XL
- [2019]
- Transformer Extra Large
- yhayato1320.hatenablog.com

Multi-Task Deep Neural Network / MT-DNN / 2019

Microsoftが、自社で開発していた言語モデルとBERTの技術を組み合わせた MT-DNN を発表.

Natural Language Understanding / NLU task を解く.

Multi-Task Deep Neural Networks for Natural Language Understanding
- [2019 Microsoft]
- arxiv.org

XLNet / 2019

GoogleがTransformer-XLを導入して、BERTより長い文章を扱えるようにした XLNet を発表.

XLNet
- yhayato1320.hatenablog.com

ERNIE / 2019

Baiduが、BERTが中国語を扱う上での問題点を解決した ERNIE を発表.

ERNIE
- yhayato1320.hatenablog.com

Sparse Transformer / 2019

Attentionを向ける先を限定して、長いシーケンスを扱えるようにした.

Sparse Transformer
- [2019]
- Attention を Sparse (疎) にして、計算を軽量化する研究.
- yhayato1320.hatenablog.com

Compressive Transformers / 2019

Long Range に対応するための研究.

Compressive Transformers for Long-Range Sequence Modelling
- [2019]
- arxiv.org

Megatron-LM / 2019

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- [2019]
- 3 Model Parallel Transformers
- arxiv.org

XLM / 2019 - ★

XLM #まとめ編
- yhayato1320.hatenablog.com

T5 / 2020 ★

Googleは、Transformerのエンコーダーとデコーダーの両方を使用し、入力と出力の両方を文字情報に統一して転移学習を行う T5 (Text-to-Text Transfer Transformer) を発表.

T5
- [2020 Google]
- yhayato1320.hatenablog.com

ELECTRA / 2020

Googleは、GAN の手法を取り入れて BERT の事前学習手法を改良し、より少ない学習データで効率的な事前学習ができるようにした ELECTRA を発表.

ELECTRA
- [2020 Google]
- yhayato1320.hatenablog.com

Turing-NLG / 2020

17 B の大規模 LLM.

Turing-NLG
- yhayato1320.hatenablog.com

Reformer / 2020

100 万ワードの文章をわずか 16G Bのメモリーで処理できるようにメモリー効率を改善し、小説一冊を丸ごと読み込めるようにした.

Reformer
- yhayato1320.hatenablog.com

LongFormer / 2020

重要な単語から重要な単語へのみ注意を向けるようにAttentionを工夫した.

LongFormer
- 長い系列データに対する、 Attention の計算コストを削減する Attention の工夫.
- yhayato1320.hatenablog.com

Big Bird / 2020

これまでの最大 8 倍の 1 セグメント当たり 4096 項目のシーケンス長を処理できる.

Big Bird
- yhayato1320.hatenablog.com

Extended Transformer Construction / ETC / 2020

ETC: Encoding Long and Structured Inputs in Transformers
- [2020]
- arxiv.org

Routing Transformer / 2020

Efficient Content-Based Sparse Attention with Routing Transformers
- [2020]
- v5
- arxiv.org

Sinkhorn Transformer / 2020

Sparse Sinkhorn Attention
- [2020]
- arxiv.org

Linformer / 2020

Linformer: Self-Attention with Linear Complexity
- [2020]
- arxiv.org

Synthesizer / 2020

Synthesizer: Rethinking Self-Attention in Transformer Models
- [2020]
- arxiv.org

Performer / 2020

Rethinking Attention with Performers
- [2020]
- arxiv.org

Linear Transformer / 2020

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
- [2020]
- arxiv.org

GShard / 2020

Googleが6,000億のパラメーターを持つ GShard を発表.

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
- [2020]
- arxiv.org

LUKE / 2020

LUKE
- yhayato1320.hatenablog.com

HyperCLOVA / 2021

2021年5月、韓国で検索エンジン事業などを運営する Naver は、韓国語データでトレーニングした 2,040 億のパラメーターを持つ「HyperCLOVA」を発表.

What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers
- [2021]
- arxiv.org

Jurassic-1 / 2021

2021年8月、イスラエルのスタートアップ企業である AI21 Labs は最大 1,780 億のパラメーターを持つ Jurassic-1 を発表.

JURASSIC-1: TECHNICAL DETAILS AND EVALUATION
- [2021]
- https://uploads-ssl.webflow.com/60fd4503684b466578c0d307/61138924626a6981ee09caf6_jurassic_tech_paper.pdf

Switch Transformer / 2021

Googleは、2021年1月に、最大1兆6,000億のパラメーターを持つ Switch Transformer をオープンソース化した.

MoE（Mixture-of-Experts）という仕組みを導入することにより、パラメーター数を大幅に増やしつつ計算量を抑制し、自然言語処理のベンチマークテストでT5を超える性能を出しながら、学習時間を大幅に短縮することに成功.

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- [2021]
- arxiv.org

Gopher / 2021

GoogleのDeepMindは、2800億のパラメーターを持つ Gopher を発表.

MassiveText と呼ばれる10.5テラバイトの英語テキストデータを、テキスト品質や重複排除などの観点からフィルタリングしてできたデータセットを使ってトレーニングを行い、 124 種類の評価タスクの内の100のタスクで現在の最高記録を凌駕.

Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- [2021]
- arxiv.org

GLM / 2021

GLM
- yhayato1320.hatenablog.com

MT-NLG / 2022

GPT-3の登場以前に、Microsoft は172億のパラメーターを持つ Turing NLG、 NVIDIA は83億のパラメーターを持つ Megatron-LM という言語モデルを発表しており、MT-NLGは、これらの言語モデルの後継モデル.

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
- [2022]
- arxiv.org

Chinchilla / 2022

2022年4月にDeepMindは、700億のパラメーターを持つ新しい言語モデルの Chinchilla を発表.

Chinchillaは、言語モデルのパラメーターのサイズとトレーニングに使用されるデータ量のバランスを見直すことによって、幅広い個別評価タスクで、Chinchillaよりも多くのパラメーターを持つGPT-3、Gopher及びMT-NLGの性能を上回った.

Chinchilla
- yhayato1320.hatenablog.com

FLAN-T5 / 2022

Scaling Instruction-Finetuned Language Models
- [2022 / Google]
- arxiv.org
Google AIの新しい言語モデル Flan-T5 を試す
- note.com
Flan-T5
- github.com

Flan-UL2 / 2022

UL2: Unifying Language Learning Paradigms
- [2022]
- arxiv.org
- www.yitay.net

Pathways Language Model / PaLM / 2022

2022年4月にGoogleは、自然言語処理に関する複数種類のタスクを処理できる 5400 億のパラメーターを持つ PaLM (Pathways Language Model) を発表.

1つの機械学習モデルで最大数百万種類のタスクに対応できるという万能の人工知能で、 Googleは今回、Pathwaysシステムを使って、自然言語による質問応答や文章生成などができる言語モデルのPaLMを実装.

PaLM
- yhayato1320.hatenablog.com

OPT / 2022

2022年5月に Meta が GPT-3 に匹敵する 1,750 億のパラメーターを持つ OPT-175B (Open Pretrained Transformer 175B) を公開した.

OPT-175B は、人間の指示に従って文章を作成したり、数学の問題を解いたり、会話したりすることができる.

Open Pre-trained Transformer / OPT
- yhayato1320.hatenablog.com

NLLB-200 / 2022

2022年7月にMetaは、200種類もの言語翻訳が可能な NLLB-200 (No Language Left Behind 200 を発表.

Meta では、学習済みのモデル本体以外に、評価データセットの FLORES-200 やモデル学習コードもオープンソースにした.

NLLP-200の翻訳精度 (BLEUスコア) は、従来の最高水準を平均44%上回り、アフリカやインドの一部の言語については、70%以上高い精度を記録した.

Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model
- [2022]
- arxiv.org

LaMDA / 2022

Googleの対話型人工知能.

LaMDA
- yhayato1320.hatenablog.com

Galactica / 2022

Galactica: A Large Language Model for Science
- [2022]
- arxiv.org

BLOOM / 2022

BLOOM
- yhayato1320.hatenablog.com

Lightweight-Clinical-Transformers / 2023

Lightweight Transformers for Clinical Natural Language Processing
- [2023]
- arxiv.org
github.com
- github
huggingface.co
- huggingface

Toolformer / 2023

大規模言語モデルが必要に応じて必要な外部 API を呼び出し利用する仕組み.

LLM 自身の文脈理解能力を利用して，データセットを自己教師的にアノテーションし，それによって LLM を fine tune することによって実現.

Toolformer: Language Models Can Teach Themselves to Use Tools
- [2023]
- arxiv.org
Toolformer: Language Models Can Teach Themselves to Use Tools
- 【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools from Deep Learning JP
  www.slideshare.net

Describe Explain Plan and Select / DEPS / 2023

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
- [2023]
- arxiv.org

Big Little Decoder / BiLD / 2023

Big Little Transformer Decoder
- [2023]
- arxiv.org

Optical Transformers / 2023

Optical Transformers
- [2023]
- arxiv.org

LLaMA / 2023

LLaMa
- yhayato1320.hatenablog.com

PanGu-Σ / 2023

HUAWEI (ファーウェイ) が1.085兆パラメータの言語モデル「PanGu-Σ」を発表.

ゼロショットの設定で様々な中国語タスクで最高性能.

現在、1兆パラメータを超えるモデル（疎なモデル）はSwitch-C、GLaM、 MoE-1.1T、悟道 2.0、M6-10Tなどがある.

PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing
- [2023]
- arxiv.org

CoLT5 / 2023

CoLT5: Faster Long-Range Transformers with Conditional Computation
- [2023]
- arxiv.org

Scaling Transformer / 2023

GPT系は最大3万トークン入力で, 本手法は200万トークンが可能.

Scaling Transformer
- yhayato1320.hatenablog.com

Pythia / 2023

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling
- [2023]
- arxiv.org
- github.com

MPT-7B / 2023

1兆トークンのテキストとコードで学習された67億パラメータ言語モデル「MPT(MosaicML Pretrained Transformer)」が発表.

6万5000トークン使用可能(GPT-4の2倍)

商用利用可能.

日本語を扱える.

Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
- www.mosaicml.com
Hugging Face
- https://huggingface.co/spaces/mosaicml/mpt-7b-chathuggingface.co
Google Colab で MPT-7B を試す
- note.com

Unlimiformer / 2023

Unlimiformer: Long-Range Transformers with Unlimited Length Input
- [2023]
- arxiv.org

Falcon / 2023

Introducing Falcon LLM
- falconllm.tii.ae
オープンソースで商用利用可能な大規模言語モデル「Falcon」が登場、オープンソースモデルの中では最高の性能に
- gigazine.net
Google Colab + trl で Falcon-7B のQLoRAファインチューニングを試す
- note.com

phi-1 / 2023

Textbooks Are All You Need
- [2023]
- arxiv.org
マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表
- ascii.jp

テクニック・工夫

Trace Manipulate / 2023

言語モデルにおける Transformer への入力値とその中間値の情報の相関を PCA を利用して、測定する.

Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers
- [2023]
- arxiv.org

Tuned Lens / 2023

Eliciting Latent Predictions from Transformers with the Tuned Lens
- [2023]
- arxiv.org
- github.com

タスク

ChatBot

ChatBot
- yhayato1320.hatenablog.com

参考

書籍

深層学習による自然言語処理
- 2 ニューラルネットの基礎
  - 2.6 再帰ニューラルネット
  - 2.7 ゲート付再帰ニューラルネット
  - 2.8 木構造再帰ニューラルネット
  - 2.9 畳み込みニューラルネット
- 4 言語処理特有の深層学習の発展
  - 4.1 注意機構
  - 4.2 記憶ネットワーク
- 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)
  - 作者:坪井祐太,海野裕也,鈴木潤
  - 講談社
  Amazon
ゼロから作るDeep Learning 2
- 1 ニューラルネットワークの復習
- 2 自然言語処理と単語の分散表現
- 3 word2vec
- 4 word2vec の高速化
- 5 リカレントニューラルネットワーク (RNN)
- 6 ゲート付き RNN
- 7 RNN による文章生成
- 8 Attention
- ゼロから作るDeep Learning ❷ ―自然言語処理編
  - 作者:斎藤康毅
  - オライリー・ジャパン
  Amazon
生成 Deep Learning
- 6 書く
  - 6.2 LSTM ネットワーク
  - 6.5 RNN の拡張
    - 6.5.2 GRU
    - 6.5.3 双方向セル
  - 6.6 エンコーダ - デコーダモデル
- 9 生成モデリングの未来
  - 9.2 トランスフォーマ
    - 9.2.5 BERT
    - 9.2.6 GPT-2
- 11 GPT-3
- 生成 Deep Learning ―絵を描き、物語や音楽を作り、ゲームをプレイする
  - 作者:David Foster
  - オライリー・ジャパン
  Amazon
BERTによる自然言語処理入門
- 2 ニューラルネットワークを用いた自然言語処理
  - 2.1 トークン化と前処理
  - 2.2 ニューラル言語モデル
  - 2.3 Word2Vec
  - 2.4 ELMo
  - 2.2 ニューラル言語モデル
- 3 BERT
- BERTによる自然言語処理入門 ―Transformersを使った実践プログラミング―
  - 作者:近江崇宏,金田健太郎,森長誠,江間見亜利
  - オーム社
  Amazon
コンピュータービジョン最前線 Winter 2021
- 5 ニュウモン Vision and Language
  - 5.3 V&L を支える基礎技術
    - 5.3.2 V&L のための自然言語処理手法
- コンピュータビジョン最前線 Winter 2021
  - 作者:井尻善久,牛久祥孝,片岡裕雄,藤吉弘亘
  - 共立出版
  Amazon

Web サイト

最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【前編】
- note.com
最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【中編】
- 3 大規模言語モデルの開発
  - 3.1 言語モデルBERTの改良
    - MT-DNN
    - XLNet
    - RoBERTa
    - ALBERT
    - T5
    - ELECTRA
    - ERNIE
  - 3.2 Transformerの改良
    - 3.2.1 Efficient Transformers
      - XLNet
      - Sparse Transformer
      - Reformer
      - LongFormer
      - BigBird
      - Memory Compressed Transformer
      - Image Transformer
      - Set Transformer
      - Axial Transformer
      - ETC
      - Routing Transformer
      - Sinkhorn Transformer
      - Linformer
      - Synthesizer
      - Performer
      - Linear Transformer
      - Compressive Transformer
      - Perceiver
    - 3.2.2 Attentionは不要？
      - ViT
      - MLP-Mixer
      - PoolFormer
  - 3.3 GPT
  - 3.4 大規模言語モデルの開発競争
    - 3.4.1 GoogleのSwitch Transformerなど
      - GShard
      - Switch Transformer
    - 3.4.2 中国の悟道2.0とM6
      - WuDao2.0
      - M6
    - 3.4.2 MicrosoftとNVIDIAのMT-NLG
      - MT-NLG
    - 3.4.3 DeepMindのChinchillaなど
      - Gopher
      - Chinchilla
    - 3.4.4 GoogleのPaLM
    - 3.4.5 MetaのNLLB-200など
      - OPT-175B
      - NLLB-200
    - 3.4.6 その他の大規模言語モデル
      - HyperCLOVA
      - Jurassic-1
  - 3.5 大規模言語モデルの課題
    - 3.5.1 常識推論能力
      - LaMDA
- note.com

Index

Index
Deformable DETR
Deformable Attention Module
- Multi-scale Deformable Attention Module
その他の工夫
- Iterative Bounding Box Refinement
参考
- Web サイト

Deformable DETR

DETR の改善手法.

DETR
- yhayato1320.hatenablog.com

Deformable Attention Module

Deformable Attention Module の提案.

Deformable CNN から着想.

Deformable CNN
- yhayato1320.hatenablog.com

Attention Module が、重点的に注意を払うポイントは、入力される Feature Map のサイズに関わらず、基準点の周辺となる.

Deformable Attention Transformer との関連は？

Deformable Attention Transformer / DAT

yhayato1320.hatenablog.com

Multi-scale Deformable Attention Module

その他の工夫

Raft: Recurrent all-pairs field transforms for optical flow.
- [2020]
- arxiv.org

参考

Deformable DETR: Deformable Transformers for End-to-End Object Detection
- [2020 SenseTime Research]
- v4
- 2 RELATED WORK
  - Efficient Attention Mechanism
  - Multi-scale Feature Representation for Object Detection
- 3 REVISITING TRANSFORMERS AND DETR
  - Multi-Head Attention in Transformers
  - DETR
- 4 METHOD
  - 4.1 DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
    - Deformable Attention Module
    - Multi-scale Deformable Attention Module
    - Deformable Transformer Encoder
    - Deformable Transformer Decoder
  - 4.2 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR
    - Iterative Bounding Box Refinement
    - Two-Stage Deformable DETR
- arxiv.org

Web サイト

Swin Transformerを超える最先端画像認識モデルDeformable Attention Transformerを詳細解説！
- deepsquare.jp
[DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT）
- [DL輪読会]Vision Transformer with Deformable Attention （Deformable Attention Transformer：DAT） from Deep Learning JP
  www.slideshare.net

Index

BERT / 2018 - ★

GPT / 2018 - ★

Memory Compressed Transformer / 2018

Transformer-XL / 2019

Multi-Task Deep Neural Network / MT-DNN / 2019

XLNet / 2019

ERNIE / 2019

Sparse Transformer / 2019

Compressive Transformers / 2019

Megatron-LM / 2019

XLM / 2019 - ★

T5 / 2020 ★

ELECTRA / 2020

Turing-NLG / 2020

Reformer / 2020

LongFormer / 2020

Big Bird / 2020

Extended Transformer Construction / ETC / 2020

Routing Transformer / 2020

Sinkhorn Transformer / 2020

Linformer / 2020

Synthesizer / 2020

Performer / 2020

Linear Transformer / 2020

GShard / 2020

LUKE / 2020

HyperCLOVA / 2021

Jurassic-1 / 2021

Switch Transformer / 2021

Gopher / 2021

GLM / 2021

MT-NLG / 2022

Chinchilla / 2022

FLAN-T5 / 2022

Flan-UL2 / 2022

Pathways Language Model / PaLM / 2022

OPT / 2022

NLLB-200 / 2022

LaMDA / 2022

Galactica / 2022

BLOOM / 2022

Lightweight-Clinical-Transformers / 2023

Toolformer / 2023

Describe Explain Plan and Select / DEPS / 2023

Big Little Decoder / BiLD / 2023

Optical Transformers / 2023

LLaMA / 2023

PanGu-Σ / 2023

CoLT5 / 2023

Scaling Transformer / 2023

Pythia / 2023

MPT-7B / 2023

Unlimiformer / 2023

Falcon / 2023

phi-1 / 2023

テクニック・工夫

Trace Manipulate / 2023

Tuned Lens / 2023

タスク

ChatBot

参考

書籍

Web サイト

Index

Deformable Attention Transformer / DAT

参考

Web サイト

Index

MOTR / Multiple-Object Tracking with Transformer

実装

処理の実行

Index

動画への応用

VisTR / 2020

ViViT / 2021

Memory-efficient Bidirectional Transformer / MeBT / 2023

Video Taskformer / 2023

Streaming Vision Transformer / S-ViT / 2023

SVT / 2023