何度目の引用になるかわからない
「人工知能はどのようにして「名人」を超えたのか?」
著者は山本一成さん
将棋ソフト「ポナンザ」が強くなる過程がとても面白い。
ポナンザの学習方法は、
「教師あり学習」と「強化学習」
最初は「教師あり学習」
教師をお手本にして学習する方法。
将棋ソフトの場合は、プロ棋士の指し手、棋譜をお手本に。
繰り返しプロの指し手を学ぶことで、
教師の指すであろう最良の手を選べるように。
次に「強化学習」
未知の局面でも、自分で何手か指してみて、
結果が良かったのか悪かったのか、勝つか負けるかを
その局面にフィードバックする。
フィードバックによって、その局面の評価を学習する。
初めて見る局面でも、いい指し手を選べるように。
※正しくは本を読んでね。
ソフトが
「その局面をいいか悪いかを評価できる」
これが強くなるために必要なこと。
まず、成長のために何が必要かを決める。
次に教師をつけて学習する。
さらに自分でやらせてみて結果の評価をフィードバックする
人間も同じじゃないかと思うのだけど、どうだろう?