論文：Reward function and initial values : Better choices for accelerated Goal-directed Reinforcement Learning

The International Conference on Artificial Neural Networks (ICANN) 2006 の論文．
hal.archives-ouvertes.fr

強化学習において，報酬と初期値の決め方大事だよね，という話．

2値報酬＆一様初期値の場合

ゴール状態 $s_g$ の報酬が $r_g$ ，それ以外の報酬が $r_\infty$ のとき，もし $r_g = r_\infty$ であれば，
\begin{align} \forall s \forall a Q^*(s,a) = Q_\infty = \frac{r_\infty}{1-\gamma} \end{align}
となりますが，これは $r_g \neq r_\infty$ でも， $s_g$ が十分遠ければ成り立ちます．
このとき， $r_g < Q_\infty$ だと学習できませんよね，とここまでは当たり前の話．

次に学習時ですが，Q値の更新式は，初期値を $Q_i$ とすると，
\begin{array}
Q Q\left(s,a\right) &\leftarrow& Q_i + \alpha[r_\infty + (\gamma - 1)Q_i]\\ &\leftarrow& Q_i + \alpha(1-\gamma)(Q_\infty - Q_i)
\end{array}
と書け，ここから，

$Q_i \geq Q_\infty$ なら，未訪状態を探索しやすくなり，学習初期の探索が進みやすい
$Q_i < Q_\infty$ だと，探索済みの状態を選びやすいため学習が進みにくく避けた方が良い

ということが分かります．
言われてみれば確かにな，という感じなのですが，特に各状態で得られる報酬のばらつきが大きく，事前にその予測が難しい場合に， $Q_i < Q_\infty$ になっていないかということは，あまり今まで気にしていなかったので勉強になりました．

実験では，Gridworldにおいて， $r_g=1, r_\infty=0$ としたときに， $Q_i=0$ とするよりも $Q_\infty < Q_i < r_g$ とした方が，学習初期の成績が良いよ，ということを言っているのですが，当然前記設定だと，いつまでも探索を続けることになり，学習後期のスコアは $Q_i=0$ のときの方が断然よく，う～んという感じ．

連続値報酬＆非一様初期値の場合

Progress estimatorという考え方が提案されていて，例えばGridworldのケースでは，状態 $s$ と $s'$ の距離を $d(s, s')$ としたときに，
\begin{align}
r(s, a, s') = -d^2(s', s_g)
\end{align}
とする方法が提案されていますが，これは袋小路から抜け出せなくなりやすいため良くない，代わりに