Index
Post / Pre Normalization
機械翻訳のタスクで、Transformer の層を深くする研究にて、2 つの手法が提案されている.
- Post / Pre Normalization の適応
- Residual Combine の工夫
Transformer の元論文では、各 Encoder / Decoder Layer の内部では、以下の順に処理を行うが
Sub Layer (Attention Layer or FFN Layer) -> Layer Normalization -> Combine
Post / Pre Normalization では、Layer Normalization と Combine のタイミングを工夫する.
(Post :) Sub Layer (Attention Layer or FFN Layer) -> Combine -> Layer Normalization
(Pre :) Layer Normalization -> Sub Layer (Attention Layer or FFN Layer) -> Combine
(Pre :) Layer Normalization -> Sub Layer (Attention Layer or FFN Layer) -> Combine
利用されているアーキテクチャ
- Vision Transformer
- GPT-2
参考
- Learning Deep Transformer Models for Machine Translation
- [2019]
- 2 Post-Norm and Pre-Norm Transformer
- 2.1 Model Layou
- arxiv.org