強化学習

何度目の引用になるかわからない

「人工知能はどのようにして「名人」を超えたのか?」

著者は山本一成さん

将棋ソフト「ポナンザ」が強くなる過程がとても面白い。

ポナンザの学習方法は、

「教師あり学習」と「強化学習」

最初は「教師あり学習」

教師をお手本にして学習する方法。

将棋ソフトの場合は、プロ棋士の指し手、棋譜をお手本に。

繰り返しプロの指し手を学ぶことで、

教師の指すであろう最良の手を選べるように。

次に「強化学習」

未知の局面でも、自分で何手か指してみて、

結果が良かったのか悪かったのか、勝つか負けるかを

その局面にフィードバックする。

フィードバックによって、その局面の評価を学習する。

初めて見る局面でも、いい指し手を選べるように。

※正しくは本を読んでね。

ソフトが

「その局面をいいか悪いかを評価できる」

これが強くなるために必要なこと。

まず、成長のために何が必要かを決める。

次に教師をつけて学習する。

さらに自分でやらせてみて結果の評価をフィードバックする

人間も同じじゃないかと思うのだけど、どうだろう?