一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

網路上對於什麼是 RL 環境存在很多混淆。它實際上只是一個基準。 - 一個環境 - 一個起始狀態 - 一個驗證器，用來檢查最終狀態是否正確或可接受環境是一個小沙盒，讓 LLM 有機會實際互動——採取行動、查看結果並影響它所處的世界。在 TerminalBench 的情況下，它只是一個模擬真實開發者終端的 Docker 容器，裡面有模型可以使用的文件、依賴項和系統工具。起始狀態定義了模型在任務開始時看到的內容——輸入、上下文和初始條件。在編碼基準中，這可能是用戶首次開始工作時 Git 倉庫的狀態：文件、錯誤報告、失敗的測試，以及告訴模型需要做什麼的用戶起始提示。這是“問題設置”，凍結在時間中，因此每個模型都從相同的位置開始，結果可以公平比較。最後，驗證器是使整個過程可測量的部分。它是檢查模型是否實際解決了任務的部分——將混亂的輸出轉換為簡單分數或通過/失敗信號的自動評判者。這就是為什麼你會聽到實驗室的人說“我們在驗證器上進行了訓練”。他們在談論有一種自動化的方式來評分模型行為。這隨後成為 RL 的獎勵函數，或基準的通過/失敗信號。