オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【自然言語処理】Transformer #まとめ編

Index

アルゴリズム

自然言語処理で利用される Transformer のアルゴリズムをまとめる.

BERT / 2018 - ★

Transformer Encoder を利用.

GPT / 2018 - ★

Transformer Decoder を利用.

Memory Compressed Transformer / 2018

ドキュメントの要約 / Summarize のタスクにおける手法.

Memory Compressed Attention を導入.



Transformer-XL / 2019

Multi-Task Deep Neural Network / MT-DNN / 2019

Microsoftが、自社で開発していた言語モデルとBERTの技術を組み合わせた MT-DNN を発表.

Natural Language Understanding / NLU task を解く.

  • Multi-Task Deep Neural Networks for Natural Language Understanding

XLNet / 2019

GoogleがTransformer-XLを導入して、BERTより長い文章を扱えるようにした XLNet を発表.

ERNIE / 2019

Baiduが、BERTが中国語を扱う上での問題点を解決した ERNIE を発表.



Sparse Transformer / 2019

Attentionを向ける先を限定して、長いシーケンスを扱えるようにした.

Compressive Transformers / 2019

Long Range に対応するための研究.

  • Compressive Transformers for Long-Range Sequence Modelling

Megatron-LM / 2019

  • Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
    • [2019]
    • 3 Model Parallel Transformers
    • arxiv.org

XLM / 2019 - ★

T5 / 2020 ★

Googleは、Transformerのエンコーダーデコーダーの両方を使用し、 入力と出力の両方を文字情報に統一して転移学習を行う T5 (Text-to-Text Transfer Transformer) を発表.

ELECTRA / 2020

Googleは、GAN の手法を取り入れて BERT の事前学習手法を改良し、 より少ない学習データで効率的な事前学習ができるようにした ELECTRA を発表.

Turing-NLG / 2020

17 B の大規模 LLM.

Reformer / 2020

100 万ワードの文章をわずか 16G Bのメモリーで処理できるように メモリー効率を改善し、小説一冊を丸ごと読み込めるようにした.

LongFormer / 2020

重要な単語から重要な単語へのみ注意を向けるようにAttentionを工夫した.

  • LongFormer
    • 長い系列データに対する、 Attention の計算コストを削減する Attention の工夫.
    • yhayato1320.hatenablog.com

Big Bird / 2020

これまでの最大 8 倍の 1 セグメント当たり 4096 項目のシーケンス長を処理できる.

Extended Transformer Construction / ETC / 2020

  • ETC: Encoding Long and Structured Inputs in Transformers

Routing Transformer / 2020

  • Efficient Content-Based Sparse Attention with Routing Transformers

Sinkhorn Transformer / 2020

Linformer / 2020

  • Linformer: Self-Attention with Linear Complexity

Synthesizer / 2020

  • Synthesizer: Rethinking Self-Attention in Transformer Models

Performer / 2020

  • Rethinking Attention with Performers

Linear Transformer / 2020

  • Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

GShard / 2020

Googleが6,000億のパラメーターを持つ GShard を発表.

  • GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

LUKE / 2020

HyperCLOVA / 2021

2021年5月、韓国で検索エンジン事業などを運営する Naver は、韓国語データでトレーニングした 2,040 億のパラメーターを持つ「HyperCLOVA」を発表.

  • What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers

Jurassic-1 / 2021

2021年8月、イスラエルのスタートアップ企業である AI21 Labs は最大 1,780 億のパラメーターを持つ Jurassic-1 を発表.

Switch Transformer / 2021

Googleは、2021年1月に、最大1兆6,000億のパラメーターを持つ Switch Transformer をオープンソース化した.

MoE(Mixture-of-Experts)という仕組みを導入することにより、パラメーター数を大幅に増やしつつ計算量を抑制し、 自然言語処理ベンチマークテストでT5を超える性能を出しながら、学習時間を大幅に短縮することに成功.

  • Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Gopher / 2021

GoogleDeepMindは、2800億のパラメーターを持つ Gopher を発表.

MassiveText と呼ばれる10.5テラバイトの英語テキストデータを、 テキスト品質や重複排除などの観点からフィルタリングしてできたデータセットを使ってトレーニングを行い、 124 種類の評価タスクの内の100のタスクで現在の最高記録を凌駕.

  • Scaling Language Models: Methods, Analysis & Insights from Training Gopher

GLM / 2021

MT-NLG / 2022

GPT-3の登場以前に、Microsoft は172億のパラメーターを持つ Turing NLG、 NVIDIA は83億のパラメーターを持つ Megatron-LM という言語モデルを発表しており、MT-NLGは、これらの言語モデルの後継モデル.

  • Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model

Chinchilla / 2022

2022年4月にDeepMindは、700億のパラメーターを持つ新しい言語モデルの Chinchilla を発表.

Chinchillaは、言語モデルのパラメーターのサイズとトレーニングに使用されるデータ量のバランスを見直すことによって、 幅広い個別評価タスクで、Chinchillaよりも多くのパラメーターを持つGPT-3、Gopher及びMT-NLGの性能を上回った.

FLAN-T5 / 2022

Flan-UL2 / 2022

Pathways Language Model / PaLM / 2022

2022年4月にGoogleは、自然言語処理に関する複数種類のタスクを処理できる 5400 億のパラメーターを持つ PaLM (Pathways Language Model) を発表.

1つの機械学習モデルで最大数百万種類のタスクに対応できるという万能の人工知能で、 Googleは今回、Pathwaysシステムを使って、自然言語による質問応答や文章生成などができる言語モデルPaLMを実装.

OPT / 2022

2022年5月に Meta が GPT-3 に匹敵する 1,750 億のパラメーターを持つ OPT-175B (Open Pretrained Transformer 175B) を公開した.

OPT-175B は、人間の指示に従って文章を作成したり、数学の問題を解いたり、会話したりすることができる.

NLLB-200 / 2022

2022年7月にMetaは、200種類もの言語翻訳が可能な NLLB-200 (No Language Left Behind 200 を発表.

Meta では、学習済みのモデル本体以外に、評価データセットの FLORES-200 やモデル学習コードもオープンソースにした.

NLLP-200の翻訳精度 (BLEUスコア) は、従来の最高水準を平均44%上回り、アフリカやインドの一部の言語については、70%以上高い精度を記録した.

  • Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

LaMDA / 2022

Googleの対話型人工知能.

Galactica / 2022

  • Galactica: A Large Language Model for Science

BLOOM / 2022

Lightweight-Clinical-Transformers / 2023

Toolformer / 2023

大規模言語モデルが必要に応じて必要な外部 API を呼び出し利用する仕組み.

LLM 自身の文脈理解能力を利用して,データセットを自己教師的にアノテーションし,それによって LLM を fine tune することによって実現.



Describe Explain Plan and Select / DEPS / 2023

  • Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents

Big Little Decoder / BiLD / 2023

  • Big Little Transformer Decoder

Optical Transformers / 2023

LLaMA / 2023

PanGu-Σ / 2023

HUAWEI (ファーウェイ) が1.085兆パラメータの言語モデル「PanGu-Σ」を発表.

ゼロショットの設定で様々な中国語タスクで最高性能.

現在、1兆パラメータを超えるモデル(疎なモデル)はSwitch-C、GLaM、 MoE-1.1T、悟道 2.0、M6-10Tなどがある.



  • PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

CoLT5 / 2023

  • CoLT5: Faster Long-Range Transformers with Conditional Computation

Scaling Transformer / 2023

GPT系は最大3万トークン入力で, 本手法は200万トークンが可能.



Pythia / 2023

  • Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

MPT-7B / 2023

1兆トークンのテキストとコードで学習された67億パラメータ言語モデル「MPT(MosaicML Pretrained Transformer)」が発表.

6万5000トークン使用可能(GPT-4の2倍)

商用利用可能.

日本語を扱える.



Unlimiformer / 2023

  • Unlimiformer: Long-Range Transformers with Unlimited Length Input

Falcon / 2023

phi-1 / 2023

テクニック・工夫

Trace Manipulate / 2023

言語モデルにおける Transformer への入力値とその中間値の情報の相関を PCA を利用して、測定する.

  • Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers

Tuned Lens / 2023

  • Eliciting Latent Predictions from Transformers with the Tuned Lens

タスク

ChatBot

参考

書籍

Web サイト

  • 最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【前編】

  • 最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【中編】

    • 3 大規模言語モデルの開発
      • 3.1 言語モデルBERTの改良
        • MT-DNN
        • XLNet
        • RoBERTa
        • ALBERT
        • T5
        • ELECTRA
        • ERNIE
      • 3.2 Transformerの改良
        • 3.2.1 Efficient Transformers
          • XLNet
          • Sparse Transformer
          • Reformer
          • LongFormer
          • BigBird
          • Memory Compressed Transformer
          • Image Transformer
          • Set Transformer
          • Axial Transformer
          • ETC
          • Routing Transformer
          • Sinkhorn Transformer
          • Linformer
          • Synthesizer
          • Performer
          • Linear Transformer
          • Compressive Transformer
          • Perceiver
        • 3.2.2 Attentionは不要?
          • ViT
          • MLP-Mixer
          • PoolFormer
      • 3.3 GPT
      • 3.4 大規模言語モデルの開発競争
        • 3.4.1 GoogleのSwitch Transformerなど
          • GShard
          • Switch Transformer
        • 3.4.2 中国の悟道2.0とM6
          • WuDao2.0
          • M6
        • 3.4.2 MicrosoftNVIDIAのMT-NLG
          • MT-NLG
        • 3.4.3 DeepMindのChinchillaなど
        • 3.4.4 GooglePaLM
        • 3.4.5 MetaのNLLB-200など
          • OPT-175B
          • NLLB-200
        • 3.4.6 その他の大規模言語モデル
          • HyperCLOVA
          • Jurassic-1
      • 3.5 大規模言語モデルの課題
        • 3.5.1 常識推論能力
          • LaMDA
    • note.com