Index
- Index
- 強化学習 / Reinforcement Learning
- アルゴリズム
- テクニック・工夫
- Dataset / Benchmark
- 研究
- 自然言語処理 / NLP への応用
- 環境・システム
- 参考
強化学習 / Reinforcement Learning
機械学習の学習方法の枠組みの中の一つ.
アルゴリズム
PEARL / 2021
強化学習における効率的な状態表現学習を実現するため、特定のドメインに依存しない学習済みエンコーダの活用を提案.
PEARLというフレームワークを構築し、大規模なデータセットで事前学習されたCLIPなどのモデルが、Atariゲームにおいて専用に訓練された最先端の手法と同等以上の性能を発揮することを実証.
検証の結果、画像を細分化して捉えるグリッドベースのパッチ処理が精度向上に最も寄与し、一方で追加の時空間アテンションやファインチューニングによる効果は限定的であることが判明.
- Pretrained Encoders are All You Need
- [2021]
- arxiv.org
Pretrained Encoders are All You Need
— AK (@_akhaliq) June 10, 2021
pdf: https://t.co/61H9Es76xA
abs: https://t.co/nORLGMoKvr
github: https://t.co/d0nQVCmwk5 pic.twitter.com/MG3gU4pdNR
Hierarchical Chunk Attention Memory / HCAM / 2021
強化学習エージェントの記憶能力を向上させる新しいアーキテクチャ、HCAM (Hierarchical Chunk Attention Memory) を提案.
従来のエージェントは時間の経過とともに詳細な記憶を失い、複雑な推論を苦手としていましたが、HCAMは過去の出来事をチャンク単位で分割して保存することでこれを解決.
検索時にはまず高レベルの要約に注目して関連するチャンクを特定し、その後に必要な情報だけを詳細に読み出す階層的な注意機構を採用.
この手法は、人間が特定の場面を追体験する「精神的なタイムトラベル」をモデル化したものであり、不要な情報の干渉を最小限に抑える.
実験の結果、HCAMを搭載したエージェントは、隠された物体の記憶や未知の街でのナビゲーション、一度聞いた言葉の長期保持において、既存のモデルを大幅に上回る性能を示した.
- Towards mental time travel: a hierarchical memory for reinforcement learning agents
- [2021]
- arxiv.org
Towards mental time travel: a hierarchical memory
— AK (@_akhaliq) June 1, 2021
for reinforcement learning agents
pdf: https://t.co/MDYmuV5uSR
abs: https://t.co/C7nh5R0cpY pic.twitter.com/xoYknkPKcr
Gato / 2022
2022年5月に DeepMind が発表したGatoは、テキストや画像などの出力だけでなく、様々なアクションまでも実行できる多機能なマルチモーダルAI.
Policy-Space Response Oracles / PSRO / 2023
- Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning
- [2023]
- arxiv.org
Controllability-aware Skill Discovery / CSD /2023
- Controllability-Aware Unsupervised Skill Discovery
- [2023]
- arxiv.org
Reusable Slotwise Mechanisms / RS / 2023
- Reusable Slotwise Mechanisms
- [2023]
- arxiv.org
Scaled Q-learning / 2023
- Pre-training generalist agents using offline reinforcement learning
Stochastic MuZero / 2023
従来のMuZeroが直面していた確率的な環境での限界を克服するために設計されており、モンテカルロ木探索と学習された確率的遷移モデルを組み合わせている. 2048パズル、バックギャモン、囲碁などの様々なゲームでテストされ、Stochastic MuZeroは確率的環境においてMuZeroを大幅に上回る性能を示し、既存の手法にも匹敵するかそれ以上の結果を出している.
Planning in Stochastic Environments with a Learned Model
Researchers from DeepMind and University College London Propose Stochastic MuZero for Stochastic Model Learning
テクニック・工夫
Imitation Learning / 模倣学習
- Imitation Learning / 模倣学習
Meta Reinforcement Learning
Adaptive Agent / AdA / 2023
- Human-Timescale Adaptation in an Open-Ended Task Space
- [2023]
- arxiv.org
Transformer
- Transormer を利用した強化学習
Curriculum Reinforcement Learning / CRL
GRADIENT / 2023
- Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation
- [2023]
- arxiv.org
ELLM / Exploring with LLMs / 2023
- Guiding Pretraining in Reinforcement Learning with Large Language Models
- [2023]
- arxiv.org
Intrinsic Performance
モデルサイズ・環境へのインタラクションについてべき乗則が見られた.
計算予算と最適なモデルサイズもべき乗則に従う.
- 【DL輪読会】Scaling laws for single-agent reinforcement learning
Offline
Cal QL / 2023
- Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
- [2023]
- arxiv.org
Synthetic Experience Replay / SynthER / 2023
- Synthetic Experience Replay
- [2023]
- arxiv.org
Dataset / Benchmark
ManiSkill2 / 2023
- ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills
- [2023]
- arxiv.org
研究
- Can Wikipedia Help Offline Reinforcement Learning?
- [2022]
- arxiv.org
- NeurIPS 2022 参加報告 後編
- 強化学習
- オフライン強化学習
- blog.recruit.co.jp
On the Effect of Pre-training for Transformer in Different Modality on Offline Reinforcement Learning
- [2022]
- arxiv.org
The Role of Baselines in Policy Gradient Optimization
- [2023]
- arxiv.org
The Phenomenon of Policy Churn
- [2022]
- arxiv.org
自然言語処理 / NLP への応用
- 自然言語処理
環境・システム
AI Economist / 2021
Salesforce AIが開発したAIエコノミストという新しい強化学習(RL)システム.
このAIシステムは、シミュレートされた経済において、生産性と平等を最適化する動的な税政策を学習することを目的としている.
従来の経済手法を上回り、AIエコノミストは、人間の意思決定を完全に置き換えるのではなく、政府関係者が有利な税政策を策定するのを支援することを意図している.
このシステムは、社会福祉の目標を達成するために政府と経済主体の行動をモデル化する2層の深いシミュレーションを採用し、人間の協力とAIのコラボレーションが将来の政策立案において重要な役割を果たすことを示唆.
The AI Economist: Optimal Economic Policy Design via Two-level Deep Reinforcement Learning
Salesforce AI Introduces ‘AI Economist’: A Reinforcement Learning (RL) System That Learns Dynamic Tax Policies To Optimize Equality Along With Productivity In Simulated Economies, Outperforming Alternative Tax Systems
Alexa Arena / 2023
- Alexa Arena: A User-Centric Interactive Platform for Embodied AI
- [2023]
- arxiv.org
- github.com
参考
Synthesizing Physical Character-Scene Interactions
- [2023]
- arxiv.org
Reinforcement Learning: An Introduction
書籍
「強化学習」を学びたい人が最初に読む本
-
強化学習(第2版)
Web サイト
- 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
CS 294: Deep Reinforcement Learning, Spring 2017
Reinforcement Learning Course: Hands-On, Step By Step, And Free
強化学習
