热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于什么是RL环境,网上有很多混淆。
它实际上只是一个基准。
- 一个环境
- 一个起始状态
- 一个验证器,用于检查最终状态是否正确或可接受
环境是一个小沙盒,给LLM提供了实际互动的机会——采取行动,查看结果,并影响它所处的世界。在TerminalBench的情况下,它只是一个模拟真实开发者终端的Docker容器,里面包含模型可以使用的文件、依赖项和系统工具。
起始状态定义了模型在任务开始时看到的内容——输入、上下文和初始条件。在编码基准中,这可能是用户首次开始工作时Git仓库的状态:文件、错误报告、失败的测试,以及用户的起始提示,告诉模型需要做什么。这是“问题设置”,在时间上被冻结,因此每个模型都从同一位置开始,结果可以公平比较。
最后,验证器是使整个过程可测量的部分。它是检查模型是否实际解决了任务的部分——将混乱的输出转化为简单分数或通过/失败信号的自动评判者。
这就是为什么你会听到实验室的人说“我们在验证器上训练”。他们在谈论有一种自动化的方式来评分模型行为。这随后成为RL的奖励函数,或基准的通过/失败信号。

热门
排行
收藏

