備忘録的な

プログラミングや機械学習に関する備忘録

論文:Simple Nearest Neighbor Policy Method for Continuous Control Tasks

サマリー

ICLR 2018に投稿されてdouble-bline review中の論文。

  • 主張:強化学習の難しさには、タスク自体の難しさ最適化の難しさの2種類があり、これらは分けて考えるべきである
  • 提案:最近傍法に基づく最適化不要な強化学習手法
  • 考察
    • Double PendulumやCart Poleなどの有名なベンチマークテストは、学習不要な提案手法でも簡単に解くことができた。つまり、これらはタスク自体が簡単であると言える。強化学習手法の良し悪しを適切に評価するためには、難しいタスクで評価すべき
    • タスクを解くことができても、得られた方策の行動は実環境には適さないような極端なものになることがある。よって方策(行動)の質の評価も重要

Nearest Neighbor Policy Method

強化学習に最近傍法を適用した、パラメータ推定が不要な2種類の手法を提案

定式化
  •  D:トラジェクトリ(状態、行動、報酬の系列)の集合
  •  B \subseteq D:全トラジェクトリ集合のうちバッファに保存されるもの
  •  s_0:初期状態
  •  d(\cdot , \cdot ):距離関数
  •  \tau:報酬の閾値
NN-1
  • エピソード開始時に、初期状態 s_0^*の最近傍となるトラジェクトリ \hat{T}をバッファ Bから探す
  • 得られたトラジェクトリの行動 \hat{a_t}にノイズ \epsilonを加えたものを行動とする
  • テスト時にはノイズを付与しない
  • エピソード終了時、得られた報酬の和が閾値 \tauを超えていたら、そのトラジェクトリをバッファに加える
NN-2
  • NN-1と異なり、時刻tの状態と行動と累積報酬和のタプルを保存する
  • 各状態で最近傍のタプルを検索し行動を決める
  • NN-1同様、行動にはノイズを付与し、テスト時には付与しない
  • エピソード終了時、得られた報酬の和が閾値 \tauを超えていたら、すべてのタプルをバッファに加える
Trainable NN Plicy

本論文の趣旨とは異なるが、提案手法は、距離関数と閾値 \tauを学習させる余地がある。

Experiment Settings

Environments
  • タスクはSparse ReachreSparse Half-CheetahSparse Cartpole SwingupSparse Double PendulumSparse Mountain Car
  • Sparseとは、報酬を、成功したときだけ1とし、それ以外は0にするということ。タスクを難しくしている。
Evaluation Metrics
  • 評価指標はタスク成功率。さらに、アルゴリズムの効率の良さを評価するために、成功率があらかじめ定めた閾値を超えるまでの試行回数も評価する。
  • 加えて、方策(行動)の質を評価するために、行動のノルムの平均値も評価指標とする(なお、行動はすべて a\in \mathbb{R}^1
Algorithm Settings
  •  \tauは1、距離関数はユークリッド距離
  • ノイズはオルンシュタイン=ウーレンベック過程( \sigma =0.2)に従う。理由は予備実験で正規分布より良かったから
  • NN-2では過去3状態と現状態をつなげた状態を近傍探索に用いる。また、計算コスト削減のためバッファサイズを適宜決める

Results and Analysis

Performances of the NN-1 and NN-2 Policies
  • Sparse Mountain Carは全然ダメだった。これはタスクが難しいと考えられる
  • Sparse ReacherとSparse Double PendulumはNN-1,2ともに成功率9割を超えた。Sparse Cart PoleはNN-2でframe skip=4にしたら成功率ほぼ100%になった。難しいといわれるSparse Half CheetahもNN-1,2ともに成功率70%を超えた。
Perceived Quality of the Nearest Neighbor Policies
  • 最適化ありの手法では、行動の自然さを制約に加えることができるが、提案手法では難しい。そのためタスクは達成できてもおかしな挙動をする場合がある
  • 最適化ありの手法で、行動のノルムを明示的に正則項として加えた場合と比較すると、提案手法は行動のノルムが大きい(ただし比較対象はスパースではない報酬系
  • 行動の自然さを明示的に制約に加えない場合、最適化ありの手法でも提案手法でも、行動のノルムの大きさは大して変わらない

強化学習の教科書はSuttonの本や、「これからの強化学習」、「速習 強化学習」が有名ですが、私はこちらがお薦めです。説明が理解しやすく、サンプルコードはOctaveですが、別言語への再実装も容易だと思います。