快上车,失败者,我们正在从零开始超规模构建RL模型