2023-05-17 【深層学習】Scaling Transformer Transformer #まとめ編 yhayato1320.hatenablog.com Index Index Scaling Transformer Recurrent Memory 参考 Scaling Transformer GPT系は最大3万トークン入力で, 本手法は200万トークンが可能. Recurrent Memory 参考 Scaling Transformer to 1M tokens and beyond with RMT [2023] 2 Recurrent Memory Transformer arxiv.org