オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】Scaling Transformer

Index

Scaling Transformer

GPT系は最大3万トークン入力で, 本手法は200万トークンが可能.

Recurrent Memory

参考

  • Scaling Transformer to 1M tokens and beyond with RMT
    • [2023]
    • 2 Recurrent Memory Transformer
    • arxiv.org