Endlich einen guten Anwendungsfall für Subagenten gefunden. Die Policymodelle intelligenter machen, indem automatisch RL-Umgebungen aus realen Aufgabendaten erstellt werden. Heilige Scheiße, es funktioniert tatsächlich!