我听说强化学习只在可验证的奖励下有效?😛 恭喜!!
Alexander Wei
Alexander Wei2025年7月19日
1/N 我很高兴地与大家分享,我们最新的@OpenAI实验推理法学硕士在人工智能领域实现了一项长期存在的重大挑战:在世界上最负盛名的数学竞赛——国际数学奥林匹克竞赛(IMO)上获得金牌级的成绩。
31.75K