予測ベースの報酬による強化学習でAIが高難易度の死にゲーで人間以上のハイスコアをたたき出す

2018/11/1

AIの非営利研究機関として設立されたOpenAIが開発したRandom Network Distillation(RND)は、好奇心に基づき環境を探索させることで強化学習エージェントを学習させるという、予測をベースとした方法です。OpenAIはこのRNDを用いて、ゲーム「Montezuma's Revenge」における人間の平均的なスコアを上回るスコアをたたき出すエージェントの学習に成功しています