網路上對於什麼是 RL 環境存在很多混淆。 它實際上只是一個基準。 - 一個環境 - 一個起始狀態 - 一個驗證器,用來檢查最終狀態是否正確或可接受 環境是一個小沙盒,讓 LLM 有機會實際互動——採取行動、查看結果並影響它所處的世界。在 TerminalBench 的情況下,它只是一個模擬真實開發者終端的 Docker 容器,裡面有模型可以使用的文件、依賴項和系統工具。 起始狀態定義了模型在任務開始時看到的內容——輸入、上下文和初始條件。在編碼基準中,這可能是用戶首次開始工作時 Git 倉庫的狀態:文件、錯誤報告、失敗的測試,以及告訴模型需要做什麼的用戶起始提示。這是“問題設置”,凍結在時間中,因此每個模型都從相同的位置開始,結果可以公平比較。 最後,驗證器是使整個過程可測量的部分。它是檢查模型是否實際解決了任務的部分——將混亂的輸出轉換為簡單分數或通過/失敗信號的自動評判者。 這就是為什麼你會聽到實驗室的人說“我們在驗證器上進行了訓練”。他們在談論有一種自動化的方式來評分模型行為。這隨後成為 RL 的獎勵函數,或基準的通過/失敗信號。