Alpha Go Zeroの論文の翻訳 その1

前回

Alpha Go Zeroのすごさを機械学習とか知らない人向けに説明してみる

http://summer-snow.sakura.ne.jp/wordpress/2018/06/13/alpha-go-zero%e3%81%ae%e3%81%99%e3%81%94%e3%81%95%e3%82%92%e6%a9%9f%e6%a2%b0%e5%ad%a6%e7%bf%92%e3%81%a8%e3%81%8b%e7%9f%a5%e3%82%89%e3%81%aa%e3%81%84%e4%ba%ba%e5%90%91%e3%81%91%e3%81%ab%e3%83%89/

で紹介した、下記の論文を自分の理解のために翻訳していこうと思います。

Mastering the game of Go without human knowledge

https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

 

今回から、Deep learningの知識がある方向けです。

ちなみに、英語がつらかったw

そして、私は論文を読むのに慣れてるわけでもなく、ただのプログラマーですので、間違いなどあるとは思いますが、ご容赦頂ければと思います。

間違いあれば、ぜひ指摘してください!m(_ _)m

 


 

最初の部分は、今までのAlpha Goである、Alpha Go FanとAlpha Go Lee,の説明。

 

Alpha Go Fanは2つの深層ニューラルネットワークからできていた。

一つはポリシーネットワーク。移動の確率と、バリューを生み出す。

人間のエキスパートの動作を予測して強化学習によりその値を新しくしていた。

バリューネットワークは、ポリシーネットワークで生み出されたポリシーを使って、勝者を予測する。

モンテカルロ木探索をこれらの2つのネットワークと融合。ポリシーネットワークを使ってより可能性の高い手を選択、バリューネットワークを利用して(モンテカルロ木探索のRollout(勝負を最後まで疑似的にしてみる)を利用)その手の価値を計算していた。

 

次の世代のAlphaGo LeeもほぼFanと一緒。

 

Alpha zeroはLee、Fanと違って、人間のエキスパートの動きの予測は一切しない。(ので、人間のエキスパートのデータはいらない)

インプットするのは、盤面の白い石、黒い石の位置だけ。

たった一つのニューラルネットワークを使用する。

シンプルな木探索で、モンテカルロ木探索のRolloutみたいなことがいらない。


 

あっ あっさり終わっちゃいましたね。

ま、これは冒頭部分だけですから!

次回がAlpha Go zero実装に関係ある部分ですね。(`・ω・´)