Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vytal
Perustaja/toimitusjohtaja @liquidtf | @CTAP_GG
Johtaja @asiafortress
MSc AI @SussexUni
Tohtori AI @ -
AukyjhMSmN5VEGjQ9npeu6Eu9X21feL1qCbZSPeJpump
Hei kaikille, kiitos tähän asti kiinnostuksesta.
Tässä selitys siitä, mitä olemme tehneet
TLDR: Tämä on PPO plus elävät neuronit suljetussa silmukassa. Politiikka "puhuu" stimulaation kautta, solut "vastaavat" piikkien kautta, ja arvofunktio antaa yllättävän signaalin, että annan palautetta stimulaation kautta, jotta politiikka voi viestiä, kuinka hyvä tai huono teko oli.
Ennen DOOMia oli Pong, joka perustui käsin tehtyihin kartoituksiin. Pienessä ympäristössä voit manuaalisesti määritellä, mitä palaute tarkoittaa, ja pitää sen johdonmukaisena.
Kun ympäristö monimutkaistuu, käsintehdyt signaalit vaikeutuvat ja muuttuvat epäjohdonmukaisiksi. Niiden kontekstien määrä, joissa signaalin täytyy tarkoittaa samaa, räjähtää, ja alat keksiä invarianssia käsin uudelleen.
DOOM on 3D ja sommittelullinen. Kävely + käännös + ampuminen voi tapahtua samaan aikaan. Oikea kartoitus ei voi olla sääntökasa (kasa sääntöjä), joten tarvitsin signaaligeneraattorin, joka pysyy johdonmukaisena käyttäytymisen muuttuessa.
Siksi käytin PPO:ta. Piikit eivät ole derivoituvia, ja PPO:n arvofunktio antaa meille objektiivisen tavan määritellä yhdistetty "yllätys" politiikalle ja soluille muuttaa se verkkopalautekieleksi. Politiikka ei suoraan tuota "move forward" tai "shoot". Politiikka tuottaa elvytystä. Solut reagoivat piikkeillä. Nämä piikit valitsevat pelin toiminnan lineaarisen lukeman kautta.
Lisäksi arvofunktio antaa sinulle online-arvion tuotosta, jonka avulla voit laskea yllätyksen ennustevirheeksi. Tämän toimintayllätyksen perusteella säädämme taajuutta ja amplitudia eri palauteskeemojen mukaan. Esim. Jos toiminto oli positiivinen ja arvofunktio sanoi "korkea yllätys", vähennämme positiivisen toiminnan palautteen tiheyttä kyseiselle toiminnolle, jolloin toiminnot ovat "ennustettavampia", kuten solut suosivat.
55
Tämän päivän striimi oli loistava, ihmiset kysyivät valtavasti mahtavia kysymyksiä, ja se avasi paljon uusia tutkimusmahdollisuuksia ja kokeita. Joitakin niistä ovat:
1. Voisimmeko siirtää tiedon CL1:n aivosoluista toiseen CL1:een kielimallityylisen tislauksen avulla?
2. Voisimmeko kouluttaa pienen kielimallin johtajan CL1:llä hoitamaan jakelun ulkopuoliset tehtävät paremmin?
8
Hei kaikille, kiitos tähän asti kiinnostuksesta. Tässä selitys siitä, mitä olemme tehneet
TLDR: Tämä on PPO plus elävät neuronit suljetussa silmukassa. Politiikka "puhuu" stimulaation kautta, solut "vastaavat" piikkien kautta, ja arvofunktio antaa yllättävän signaalin, että annan palautetta stimulaation kautta, jotta politiikka voi viestiä, kuinka hyvä tai huono teko oli.
Ennen DOOMia oli Pong, joka perustui käsin tehtyihin kartoituksiin. Pienessä ympäristössä voit manuaalisesti määritellä, mitä palaute tarkoittaa, ja pitää sen johdonmukaisena.
Kun ympäristö monimutkaistuu, käsintehdyt signaalit vaikeutuvat ja muuttuvat epäjohdonmukaisiksi. Niiden kontekstien määrä, joissa signaalin täytyy tarkoittaa samaa, räjähtää, ja alat keksiä invarianssia käsin uudelleen.
DOOM on 3D ja sommittelullinen. Kävely + käännös + ampuminen voi tapahtua samaan aikaan. Oikea kartoitus ei voi olla sääntökasa (kasa sääntöjä), joten tarvitsin signaaligeneraattorin, joka pysyy johdonmukaisena käyttäytymisen muuttuessa.
Siksi käytin PPO:ta. Piikit eivät ole derivoituvia, ja PPO:n arvofunktio antaa meille objektiivisen tavan määritellä yhdistetty "yllätys" politiikalle ja soluille muuttaa se verkkopalautekieleksi.
Politiikka ei suoraan tuota "move forward" tai "shoot". Politiikka tuottaa elvytystä. Solut reagoivat piikkeillä. Nämä piikit valitsevat pelin toiminnan lineaarisen lukeman kautta.
Lisäksi arvofunktio antaa sinulle online-arvion tuotosta, jonka avulla voit laskea yllätyksen ennustevirheeksi. Tämän toimintayllätyksen perusteella säädämme taajuutta ja amplitudia eri palauteskeemojen mukaan.
Esim. Jos toiminto oli positiivinen ja arvofunktio sanoi "korkea yllätys", vähennämme positiivisen toiminnan palautteen tiheyttä kyseiselle toiminnolle, jolloin toiminnot ovat "ennustettavampia", kuten solut suosivat.
7
Johtavat
Rankkaus
Suosikit
