Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Trénink představivosti" odkazuje na proces, při kterém je politika agenta optimalizována zcela uvnitř modelu naučeného světa (tj. v "představivosti"), bez další interakce s reálným prostředím.
U skutečných robotů by se video z továrního prostředí (včetně akcí a jejich účinků) použilo k vytvoření realistického modelu světa, který by se pak použil k vývoji pravidel chování (politik) robotů prostřednictvím tréninku představivosti.
"Představujeme Dreamer 4, škálovatelného agenta, který se učí řešit složité řídicí úlohy zpětnovazebním učením uvnitř rychlého a přesného modelu světa. Agent se skládá z tokenizátoru a dynamického modelu, jak je znázorněno na obrázku 2. Tokenizér komprimuje snímky videa do spojitých reprezentací a dynamický model předpovídá reprezentace dané prokládané akce, obojí pomocí stejné efektivní architektury transformátoru. Tokenizátor je trénován pomocí maskovaného automatického kódování a dynamika je trénována pomocí zkratky vynucující cíl, aby bylo možné interaktivní generace s malým počtem dopředných průchodů a zabránilo se hromadění chyb v průběhu času. Jak je uvedeno v algoritmu 1, nejprve předtrénujeme tokenizátor a model světa na videích a akcích, poté vyladíme model politiky a odměňování do modelu světa prokládáním vložených úkolů a nakonec politiku následně vytrénujeme prostřednictvím tréninku představivosti."

Top
Hodnocení
Oblíbené