Index
- Index
- アルゴリズム
- BERT / 2018 - ★
- GPT / 2018 - ★
- Memory Compressed Transformer / 2018
- Transformer-XL / 2019
- Multi-Task Deep Neural Network / MT-DNN / 2019
- XLNet / 2019
- ERNIE / 2019
- Sparse Transformer / 2019
- Compressive Transformers / 2019
- Megatron-LM / 2019
- XLM / 2019 - ★
- T5 / 2020 ★
- ELECTRA / 2020
- Turing-NLG / 2020
- Reformer / 2020
- LongFormer / 2020
- Big Bird / 2020
- Extended Transformer Construction / ETC / 2020
- Routing Transformer / 2020
- Sinkhorn Transformer / 2020
- Linformer / 2020
- Synthesizer / 2020
- Performer / 2020
- Linear Transformer / 2020
- GShard / 2020
- LUKE / 2020
- HyperCLOVA / 2021
- Jurassic-1 / 2021
- Switch Transformer / 2021
- Gopher / 2021
- GLM / 2021
- MT-NLG / 2022
- Chinchilla / 2022
- FLAN-T5 / 2022
- Pathways Language Model / PaLM / 2022
- OPT / 2022
- NLLB-200 / 2022
- LaMDA / 2022
- Galactica / 2022
- BLOOM / 2022
- Lightweight-Clinical-Transformers / 2023
- Toolformer / 2023
- Describe Explain Plan and Select / DEPS / 2023
- Big Little Decoder / BiLD / 2023
- Optical Transformers / 2023
- LLaMA / 2023
- PanGu-Σ / 2023
- CoLT5 / 2023
- Scaling Transformer / 2023
- Pythia / 2023
- MPT-7B / 2023
- Unlimiformer / 2023
- Falcon / 2023
- phi-1 / 2023
- テクニック・工夫
- タスク
- 参考
アルゴリズム
自然言語処理で利用される Transformer のアルゴリズムをまとめる.
自然現処理 #まとめ編
- 深層学習を利用したアルゴリズム
- yhayato1320.hatenablog.com
Transformer #まとめ編
BERT / 2018 - ★
Transformer Encoder を利用.
- BERT #まとめ編
GPT / 2018 - ★
Transformer Decoder を利用.
- GPT #まとめ編
Memory Compressed Transformer / 2018
ドキュメントの要約 / Summarize のタスクにおける手法.
Memory Compressed Attention を導入.
- Memory Compressed Transformer
Transformer-XL / 2019
- Transformer-XL
- [2019]
- Transformer Extra Large
- yhayato1320.hatenablog.com
Multi-Task Deep Neural Network / MT-DNN / 2019
Microsoftが、自社で開発していた言語モデルとBERTの技術を組み合わせた MT-DNN を発表.
Natural Language Understanding / NLU task を解く.
XLNet / 2019
GoogleがTransformer-XLを導入して、BERTより長い文章を扱えるようにした XLNet を発表.
ERNIE / 2019
Baiduが、BERTが中国語を扱う上での問題点を解決した ERNIE を発表.
Sparse Transformer / 2019
Attentionを向ける先を限定して、長いシーケンスを扱えるようにした.
- Sparse Transformer
- [2019]
- Attention を Sparse (疎) にして、計算を軽量化する研究.
- yhayato1320.hatenablog.com
Compressive Transformers / 2019
Long Range に対応するための研究.
- Compressive Transformers for Long-Range Sequence Modelling
- [2019]
- arxiv.org
Megatron-LM / 2019
- Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
- [2019]
- 3 Model Parallel Transformers
- arxiv.org
XLM / 2019 - ★
- XLM #まとめ編
T5 / 2020 ★
Googleは、Transformerのエンコーダーとデコーダーの両方を使用し、
入力と出力の両方を文字情報に統一して転移学習を行う T5 (Text-to-Text Transfer Transformer) を発表.
- T5
- [2020 Google]
- yhayato1320.hatenablog.com
ELECTRA / 2020
Googleは、GAN の手法を取り入れて BERT の事前学習手法を改良し、
より少ない学習データで効率的な事前学習ができるようにした ELECTRA を発表.
- ELECTRA
- [2020 Google]
- yhayato1320.hatenablog.com
Turing-NLG / 2020
17 B の大規模 LLM.
- Turing-NLG
Reformer / 2020
100 万ワードの文章をわずか 16G Bのメモリーで処理できるように
メモリー効率を改善し、小説一冊を丸ごと読み込めるようにした.
- Reformer
LongFormer / 2020
重要な単語から重要な単語へのみ注意を向けるようにAttentionを工夫した.
- LongFormer
- 長い系列データに対する、 Attention の計算コストを削減する Attention の工夫.
- yhayato1320.hatenablog.com
Big Bird / 2020
これまでの最大 8 倍の 1 セグメント当たり 4096 項目のシーケンス長を処理できる.
- Big Bird
Extended Transformer Construction / ETC / 2020
- ETC: Encoding Long and Structured Inputs in Transformers
- [2020]
- arxiv.org
Routing Transformer / 2020
- Efficient Content-Based Sparse Attention with Routing Transformers
- [2020]
- v5
- arxiv.org
Sinkhorn Transformer / 2020
- Sparse Sinkhorn Attention
- [2020]
- arxiv.org
Linformer / 2020
- Linformer: Self-Attention with Linear Complexity
- [2020]
- arxiv.org
Synthesizer / 2020
- Synthesizer: Rethinking Self-Attention in Transformer Models
- [2020]
- arxiv.org
Performer / 2020
- Rethinking Attention with Performers
- [2020]
- arxiv.org
Linear Transformer / 2020
- Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
- [2020]
- arxiv.org
GShard / 2020
Googleが6,000億のパラメーターを持つ GShard を発表.
- GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
- [2020]
- arxiv.org
LUKE / 2020
HyperCLOVA / 2021
2021年5月、韓国で検索エンジン事業などを運営する Naver は、韓国語データでトレーニングした 2,040 億のパラメーターを持つ「HyperCLOVA」を発表.
- What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers
- [2021]
- arxiv.org
Jurassic-1 / 2021
2021年8月、イスラエルのスタートアップ企業である AI21 Labs は最大 1,780 億のパラメーターを持つ Jurassic-1 を発表.
- JURASSIC-1: TECHNICAL DETAILS AND EVALUATION
Switch Transformer / 2021
Googleは、2021年1月に、最大1兆6,000億のパラメーターを持つ Switch Transformer をオープンソース化した.
MoE(Mixture-of-Experts)という仕組みを導入することにより、パラメーター数を大幅に増やしつつ計算量を抑制し、
自然言語処理のベンチマークテストでT5を超える性能を出しながら、学習時間を大幅に短縮することに成功.
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- [2021]
- arxiv.org
Gopher / 2021
GoogleのDeepMindは、2800億のパラメーターを持つ Gopher を発表.
MassiveText と呼ばれる10.5テラバイトの英語テキストデータを、
テキスト品質や重複排除などの観点からフィルタリングしてできたデータセットを使ってトレーニングを行い、
124 種類の評価タスクの内の100のタスクで現在の最高記録を凌駕.
GLM / 2021
MT-NLG / 2022
GPT-3の登場以前に、Microsoft は172億のパラメーターを持つ Turing NLG、
NVIDIA は83億のパラメーターを持つ Megatron-LM という言語モデルを発表しており、MT-NLGは、これらの言語モデルの後継モデル.
- Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
- [2022]
- arxiv.org
Chinchilla / 2022
2022年4月にDeepMindは、700億のパラメーターを持つ新しい言語モデルの Chinchilla を発表.
Chinchillaは、言語モデルのパラメーターのサイズとトレーニングに使用されるデータ量のバランスを見直すことによって、
幅広い個別評価タスクで、Chinchillaよりも多くのパラメーターを持つGPT-3、Gopher及びMT-NLGの性能を上回った.
- Chinchilla
FLAN-T5 / 2022
Scaling Instruction-Finetuned Language Models
Flan-T5
Flan-UL2 / 2022
- UL2: Unifying Language Learning Paradigms
- [2022]
- arxiv.org
- www.yitay.net
Pathways Language Model / PaLM / 2022
2022年4月にGoogleは、自然言語処理に関する複数種類のタスクを処理できる
5400 億のパラメーターを持つ PaLM (Pathways Language Model) を発表.
1つの機械学習モデルで最大数百万種類のタスクに対応できるという万能の人工知能で、
Googleは今回、Pathwaysシステムを使って、自然言語による質問応答や文章生成などができる言語モデルのPaLMを実装.
OPT / 2022
2022年5月に Meta が GPT-3 に匹敵する 1,750 億のパラメーターを持つ OPT-175B (Open Pretrained Transformer 175B) を公開した.
OPT-175B は、人間の指示に従って文章を作成したり、数学の問題を解いたり、会話したりすることができる.
- Open Pre-trained Transformer / OPT
NLLB-200 / 2022
2022年7月にMetaは、200種類もの言語翻訳が可能な NLLB-200 (No Language Left Behind 200 を発表.
Meta では、学習済みのモデル本体以外に、評価データセットの FLORES-200 やモデル学習コードもオープンソースにした.
NLLP-200の翻訳精度 (BLEUスコア) は、従来の最高水準を平均44%上回り、アフリカやインドの一部の言語については、70%以上高い精度を記録した.
- Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model
- [2022]
- arxiv.org
LaMDA / 2022
Galactica / 2022
- Galactica: A Large Language Model for Science
- [2022]
- arxiv.org
BLOOM / 2022
Lightweight-Clinical-Transformers / 2023
Lightweight Transformers for Clinical Natural Language Processing
- [2023]
- arxiv.org
-
- huggingface
Toolformer / 2023
LLM 自身の文脈理解能力を利用して,データセットを自己教師的にアノテーションし,それによって LLM を fine tune することによって実現.
Toolformer: Language Models Can Teach Themselves to Use Tools
- [2023]
- arxiv.org
Toolformer: Language Models Can Teach Themselves to Use Tools
Describe Explain Plan and Select / DEPS / 2023
- Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
- [2023]
- arxiv.org
Big Little Decoder / BiLD / 2023
- Big Little Transformer Decoder
- [2023]
- arxiv.org
Optical Transformers / 2023
- Optical Transformers
- [2023]
- arxiv.org
LLaMA / 2023
PanGu-Σ / 2023
ゼロショットの設定で様々な中国語タスクで最高性能.
現在、1兆パラメータを超えるモデル(疎なモデル)はSwitch-C、GLaM、 MoE-1.1T、悟道 2.0、M6-10Tなどがある.
- PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing
- [2023]
- arxiv.org
CoLT5 / 2023
- CoLT5: Faster Long-Range Transformers with Conditional Computation
- [2023]
- arxiv.org
Scaling Transformer / 2023
- Scaling Transformer
Pythia / 2023
- Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling
- [2023]
- arxiv.org
- github.com
MPT-7B / 2023
6万5000トークン使用可能(GPT-4の2倍)
商用利用可能.
日本語を扱える.
Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
Hugging Face
Google Colab で MPT-7B を試す
Unlimiformer / 2023
- Unlimiformer: Long-Range Transformers with Unlimited Length Input
- [2023]
- arxiv.org
Falcon / 2023
Introducing Falcon LLM
Google Colab + trl で Falcon-7B のQLoRAファインチューニングを試す
phi-1 / 2023
テクニック・工夫
Trace Manipulate / 2023
言語モデルにおける
Transformer への入力値とその中間値の情報の相関を PCA を利用して、測定する.
- Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers
- [2023]
- arxiv.org
Tuned Lens / 2023
- Eliciting Latent Predictions from Transformers with the Tuned Lens
- [2023]
- arxiv.org
- github.com
タスク
ChatBot
- ChatBot
参考
書籍
深層学習による自然言語処理
ゼロから作るDeep Learning 2
- 1 ニューラルネットワークの復習
- 2 自然言語処理と単語の分散表現
- 3 word2vec
- 4 word2vec の高速化
- 5 リカレントニューラルネットワーク (RNN)
- 6 ゲート付き RNN
- 7 RNN による文章生成
- 8 Attention
-
BERTによる自然言語処理入門
- 2 ニューラルネットワークを用いた自然言語処理
- 3 BERT
-
コンピュータービジョン最前線 Winter 2021
Web サイト
最近、人工知能による自然言語処理が爆発的に進化しているのでまとめてみた。【中編】
- 3 大規模言語モデルの開発
- 3.1 言語モデルBERTの改良
- MT-DNN
- XLNet
- RoBERTa
- ALBERT
- T5
- ELECTRA
- ERNIE
- 3.2 Transformerの改良
- 3.2.1 Efficient Transformers
- XLNet
- Sparse Transformer
- Reformer
- LongFormer
- BigBird
- Memory Compressed Transformer
- Image Transformer
- Set Transformer
- Axial Transformer
- ETC
- Routing Transformer
- Sinkhorn Transformer
- Linformer
- Synthesizer
- Performer
- Linear Transformer
- Compressive Transformer
- Perceiver
- 3.2.2 Attentionは不要?
- ViT
- MLP-Mixer
- PoolFormer
- 3.2.1 Efficient Transformers
- 3.3 GPT
- 3.4 大規模言語モデルの開発競争
- 3.5 大規模言語モデルの課題
- 3.5.1 常識推論能力
- LaMDA
- 3.5.1 常識推論能力
- 3.1 言語モデルBERTの改良
- note.com
- 3 大規模言語モデルの開発