一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

关于什么是RL环境，网上有很多混淆。它实际上只是一个基准。 - 一个环境 - 一个起始状态 - 一个验证器，用于检查最终状态是否正确或可接受环境是一个小沙盒，给LLM提供了实际互动的机会——采取行动，查看结果，并影响它所处的世界。在TerminalBench的情况下，它只是一个模拟真实开发者终端的Docker容器，里面包含模型可以使用的文件、依赖项和系统工具。起始状态定义了模型在任务开始时看到的内容——输入、上下文和初始条件。在编码基准中，这可能是用户首次开始工作时Git仓库的状态：文件、错误报告、失败的测试，以及用户的起始提示，告诉模型需要做什么。这是“问题设置”，在时间上被冻结，因此每个模型都从同一位置开始，结果可以公平比较。最后，验证器是使整个过程可测量的部分。它是检查模型是否实际解决了任务的部分——将混乱的输出转化为简单分数或通过/失败信号的自动评判者。这就是为什么你会听到实验室的人说“我们在验证器上训练”。他们在谈论有一种自动化的方式来评分模型行为。这随后成为RL的奖励函数，或基准的通过/失败信号。