オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【機械学習】強化学習 / Reinforcement Learning

Index

強化学習 / Reinforcement Learning

機械学習の学習方法の枠組みの中の一つ.

アルゴリズム

Gato / 2022

2022年5月に DeepMind が発表したGatoは、テキストや画像などの出力だけでなく、様々なアクションまでも実行できる多機能なマルチモーダルAI.

Policy-Space Response Oracles / PSRO / 2023

Controllability-aware Skill Discovery / CSD /2023

  • Controllability-Aware Unsupervised Skill Discovery

Reusable Slotwise Mechanisms / RS / 2023

  • Reusable Slotwise Mechanisms

Scaled Q-learning / 2023

Stochastic MuZero / 2023

従来のMuZeroが直面していた確率的な環境での限界を克服するために設計されており、モンテカルロ木探索と学習された確率的遷移モデルを組み合わせている. 2048パズル、バックギャモン囲碁などの様々なゲームでテストされ、Stochastic MuZeroは確率的環境においてMuZeroを大幅に上回る性能を示し、既存の手法にも匹敵するかそれ以上の結果を出している.

  • Planning in Stochastic Environments with a Learned Model

  • Researchers from DeepMind and University College London Propose Stochastic MuZero for Stochastic Model Learning

テクニック・工夫

Imitation Learning / 模倣学習

Meta Reinforcement Learning

Adaptive Agent / AdA / 2023

  • Human-Timescale Adaptation in an Open-Ended Task Space

Transformer

Curriculum Reinforcement Learning / CRL

GRADIENT / 2023

ELLM / Exploring with LLMs / 2023

Intrinsic Performance

単一AgentのRLにおけるべき乗則を示すため導入.

モデルサイズ・環境へのインタラクションについてべき乗則が見られた.

計算予算と最適なモデルサイズもべき乗則に従う.



Offline

Cal QL / 2023

  • Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Synthetic Experience Replay / SynthER / 2023

  • Synthetic Experience Replay

Dataset / Benchmark

ManiSkill2 / 2023

  • ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills

研究

オフライン強化学習とTransformerにおいて、 テキストコーパスによる事前学習済みモデルが無関係な下流タスク(例:Atariのゲーム)に転移できる.



自然言語処理 / NLP への応用

環境・システム

AI Economist / 2021

Salesforce AIが開発したAIエコノミストという新しい強化学習(RL)システム. このAIシステムは、シミュレートされた経済において、生産性と平等を最適化する動的な税政策を学習することを目的としている. 従来の経済手法を上回り、AIエコノミストは、人間の意思決定を完全に置き換えるのではなく、政府関係者が有利な税政策を策定するのを支援することを意図している. このシステムは、社会福祉の目標を達成するために政府と経済主体の行動をモデル化する2層の深いシミュレーションを採用し、人間の協力とAIのコラボレーションが将来の政策立案において重要な役割を果たすことを示唆.

Alexa Arena / 2023

参考

書籍

Web サイト