オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

2023-05-17から1日間の記事一覧

【深層学習】Scaling Transformer

Transformer #まとめ編 yhayato1320.hatenablog.com Index Index Scaling Transformer Recurrent Memory 参考 Scaling Transformer GPT系は最大3万トークン入力で, 本手法は200万トークンが可能. Recurrent Memory 参考 Scaling Transformer to 1M tokens an…