Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Verbeeldingstraining" verwijst naar het proces waarbij het beleid van de agent volledig wordt geoptimaliseerd binnen het geleerde wereldmodel (d.w.z. in "verbeelding"), zonder verdere interactie met de echte omgeving.
Voor echte robots zou video van een fabrieksomgeving (inclusief acties en hun effecten) worden gebruikt om een realistisch wereldmodel op te bouwen, dat vervolgens wordt gebruikt om gedragsregels (beleidslijnen) voor robots te ontwikkelen via verbeeldingstraining.
"We presenteren Dreamer 4, een schaalbare agent die leert complexe controle taken op te lossen door middel van versterkend leren binnen een snel en nauwkeurig wereldmodel. De agent bestaat uit een tokenizer en een dynamisch model, zoals weergegeven in Figuur 2. De tokenizer comprimeert videokaders in continue representaties en het dynamische model voorspelt de representaties gegeven de door elkaar heen geplaatste acties, beide met behulp van dezelfde efficiënte transformerarchitectuur. De tokenizer wordt getraind met behulp van gemaskeerde auto-encoding en de dynamiek wordt getraind met behulp van een shortcut forcing-objectief om interactieve generaties mogelijk te maken met een klein aantal vooruitgangen en om te voorkomen dat fouten in de loop van de tijd zich ophopen. Zoals uiteengezet in Algoritme 1, pre-trainen we eerst de tokenizer en het wereldmodel op video's en acties, vervolgens finetunen we het beleid en het beloningsmodel in het wereldmodel door taak-embeddings door elkaar te verweven, en tenslotte post-trainen we het beleid via verbeeldingstraining."

Boven
Positie
Favorieten