人们常常忘记,基于策略梯度的强化学习是最数据低效的训练形式。在强化学习基础模型方面将会有重大的算法进展,可能会使用类似人工好奇心的东西()。但目前的方法还没有达到那个水平。