熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
網路上對於什麼是 RL 環境存在很多混淆。
它實際上只是一個基準。
- 一個環境
- 一個起始狀態
- 一個驗證器,用來檢查最終狀態是否正確或可接受
環境是一個小沙盒,讓 LLM 有機會實際互動——採取行動、查看結果並影響它所處的世界。在 TerminalBench 的情況下,它只是一個模擬真實開發者終端的 Docker 容器,裡面有模型可以使用的文件、依賴項和系統工具。
起始狀態定義了模型在任務開始時看到的內容——輸入、上下文和初始條件。在編碼基準中,這可能是用戶首次開始工作時 Git 倉庫的狀態:文件、錯誤報告、失敗的測試,以及告訴模型需要做什麼的用戶起始提示。這是“問題設置”,凍結在時間中,因此每個模型都從相同的位置開始,結果可以公平比較。
最後,驗證器是使整個過程可測量的部分。它是檢查模型是否實際解決了任務的部分——將混亂的輸出轉換為簡單分數或通過/失敗信號的自動評判者。
這就是為什麼你會聽到實驗室的人說“我們在驗證器上進行了訓練”。他們在談論有一種自動化的方式來評分模型行為。這隨後成為 RL 的獎勵函數,或基準的通過/失敗信號。

熱門
排行
收藏

