2018 年 6 月 15 日

前回

Alpha Go Zeroのすごさを機械学習とか知らない人向けに説明してみる

https://summer-snow.onlineconsultant.jp/2018/06/13/alpha-go-zero%e3%81%ae%e3%81%99%e3%81%94%e3%81%95%e3%82%92%e6%a9%9f%e6%a2%b0%e5%ad%a6%e7%bf%92%e3%81%a8%e3%81%8b%e7%9f%a5%e3%82%89%e3%81%aa%e3%81%84%e4%ba%ba%e5%90%91%e3%81%91%e3%81%ab%e3%83%89/

で紹介した、下記の論文を自分の理解のために翻訳していこうと思います。

Mastering the game of Go without human knowledge

https://www.nature.com/articles/nature24270.epdf?author_access_token=VJXbVjaSHxFoctQQ4p2k4tRgN0jAjWel9jnR3ZoTv0PVW4gB86EEpGqTRDtpIz-2rmo8-KG06gqVobU5NSCFeHILHcVFUeMsbvwS-lxjqQGg98faovwjxeTUgZAUMnRQ

今回から、Deep learningの知識がある方向けです。

ちなみに、英語がつらかったｗ

そして、私は論文を読むのに慣れてるわけでもなく、ただのプログラマーですので、間違いなどあるとは思いますが、ご容赦頂ければと思います。

間違いあれば、ぜひ指摘してください！m(_ _)m

最初の部分は、今までのAlpha Goである、Alpha Go FanとAlpha Go Lee,の説明。

Alpha Go Fanは2つの深層ニューラルネットワークからできていた。

一つはポリシーネットワーク。移動の確率と、バリューを生み出す。

人間のエキスパートの動作を予測して強化学習によりその値を新しくしていた。

バリューネットワークは、ポリシーネットワークで生み出されたポリシーを使って、勝者を予測する。

モンテカルロ木探索をこれらの2つのネットワークと融合。ポリシーネットワークを使ってより可能性の高い手を選択、バリューネットワークを利用して（モンテカルロ木探索のRollout（勝負を最後まで疑似的にしてみる）を利用）その手の価値を計算していた。

次の世代のAlphaGo LeeもほぼFanと一緒。

Alpha zeroはLee、Fanと違って、人間のエキスパートの動きの予測は一切しない。（ので、人間のエキスパートのデータはいらない）

インプットするのは、盤面の白い石、黒い石の位置だけ。

たった一つのニューラルネットワークを使用する。

シンプルな木探索で、モンテカルロ木探索のRolloutみたいなことがいらない。

あっ　あっさり終わっちゃいましたね。

ま、これは冒頭部分だけですから！

次回がAlpha Go zero実装に関係ある部分ですね。(`･ω･´)

月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

Summer Snow

横浜の配送業向けシステムの開発会社社長のブログ

Day: 2018 年 6 月 15 日

Alpha Go Zeroの論文の翻訳　その1

Alpha Go Zeroのすごさを機械学習とか知らない人向けに説明してみる

Mastering the game of Go without human knowledge