人們常常忘記,基於策略梯度的強化學習是最不有效的訓練方式。強化基礎模型的算法將會有重大進展,可能會使用類似人工好奇心的東西()。但目前的方法還未達到那個水平。