Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vytal
Pendiri/CEO @liquidtf | @CTAP_GG
Kepala @asiafortress
MSc AI @SussexUni
PhD AI @ -
AukyjhMSmN5VEGjQ9npeu6Eu9X21feL1qCbZSPeJpump
Hai semuanya, terima kasih atas minatnya sejauh ini.
Berikut penjelasan tentang apa yang telah kami lakukan
TLDR: Ini adalah PPO ditambah neuron hidup dalam lingkaran tertutup. Kebijakan "berbicara" melalui stimulasi, sel "membalas" melalui lonjakan, dan fungsi nilai memberikan sinyal kejutan bahwa saya memberi umpan balik melalui stimulasi sehingga kebijakan dapat mengkomunikasikan seberapa baik atau buruk suatu tindakan.
Sebelum DOOM, ada Pong, yang mengandalkan pemetaan buatan tangan. Dalam lingkungan kecil, Anda dapat secara manual menentukan apa arti umpan balik dan menjaganya tetap konsisten.
Ketika lingkungan menjadi lebih kompleks, sinyal buatan tangan menjadi lebih sulit dan menjadi tidak konsisten. Jumlah konteks di mana sinyal harus berarti hal yang sama meledak, dan Anda mulai menemukan kembali invariansi dengan tangan.
DOOM bersifat 3D dan komposisi. Berjalan + berputar + menembak dapat terjadi pada saat yang bersamaan. Pemetaan yang tepat tidak bisa menjadi tumpukan aturan, jadi saya membutuhkan generator sinyal yang tetap koheren saat perilaku berubah.
Itu sebabnya saya menggunakan PPO. Lonjakan tidak dapat dibedakan, dan fungsi nilai PPO memberi kita cara untuk secara objektif mendefinisikan "kejutan" gabungan untuk kebijakan dan sel untuk mengubahnya menjadi bahasa umpan balik online. Kebijakan tersebut tidak secara langsung mengeluarkan "bergerak maju" atau "menembak". Kebijakan menghasilkan stimulasi. Sel-sel merespons dengan paku. Paku itulah yang memilih aksi permainan, melalui pembacaan linier.
Selain itu, fungsi nilai memberi Anda perkiraan pengembalian online, yang memungkinkan Anda menghitung kejutan sebagai kesalahan prediksi. Berdasarkan kejutan tindakan ini, kami menyesuaikan frekuensi dan amplitudo sesuai untuk skema umpan balik kami yang berbeda. Misalnya Jika suatu tindakan positif dan fungsi nilai mengatakan "kejutan tinggi", maka kita mengurangi frekuensi umpan balik tindakan positif untuk tindakan itu, membuat tindakan lebih "dapat diprediksi" yang disukai sel.
54
Aliran hari ini sangat bagus, orang-orang mengajukan banyak pertanyaan luar biasa, dan itu membuka lebih banyak jalan / eksperimen penelitian potensial. Beberapa di antaranya meliputi:
1. Bisakah kita mentransfer pengetahuan dari sel-sel otak CL1 ke CL1 lain melalui distilasi gaya model bahasa?
2. Bisakah kita melatih kepala model bahasa kecil dengan CL1 untuk menangani tugas distribusi dengan lebih baik?
7
Hai semuanya, terima kasih atas minatnya sejauh ini. Berikut penjelasan tentang apa yang telah kami lakukan
TLDR: Ini adalah PPO ditambah neuron hidup dalam lingkaran tertutup. Kebijakan "berbicara" melalui stimulasi, sel "membalas" melalui lonjakan, dan fungsi nilai memberikan sinyal kejutan bahwa saya memberi umpan balik melalui stimulasi sehingga kebijakan dapat mengkomunikasikan seberapa baik atau buruk suatu tindakan.
Sebelum DOOM, ada Pong, yang mengandalkan pemetaan buatan tangan. Dalam lingkungan kecil, Anda dapat secara manual menentukan apa arti umpan balik dan menjaganya tetap konsisten.
Ketika lingkungan menjadi lebih kompleks, sinyal buatan tangan menjadi lebih sulit dan menjadi tidak konsisten. Jumlah konteks di mana sinyal harus berarti hal yang sama meledak, dan Anda mulai menemukan kembali invariansi dengan tangan.
DOOM bersifat 3D dan komposisi. Berjalan + berputar + menembak dapat terjadi pada saat yang bersamaan. Pemetaan yang tepat tidak bisa menjadi tumpukan aturan, jadi saya membutuhkan generator sinyal yang tetap koheren saat perilaku berubah.
Itu sebabnya saya menggunakan PPO. Lonjakan tidak dapat dibedakan, dan fungsi nilai PPO memberi kita cara untuk secara objektif mendefinisikan "kejutan" gabungan untuk kebijakan dan sel untuk mengubahnya menjadi bahasa umpan balik online.
Kebijakan tersebut tidak secara langsung mengeluarkan "bergerak maju" atau "menembak". Kebijakan menghasilkan stimulasi. Sel-sel merespons dengan paku. Paku itulah yang memilih aksi permainan, melalui pembacaan linier.
Selain itu, fungsi nilai memberi Anda perkiraan pengembalian online, yang memungkinkan Anda menghitung kejutan sebagai kesalahan prediksi. Berdasarkan kejutan tindakan ini, kami menyesuaikan frekuensi dan amplitudo sesuai untuk skema umpan balik kami yang berbeda.
Misalnya Jika suatu tindakan positif dan fungsi nilai mengatakan "kejutan tinggi", maka kita mengurangi frekuensi umpan balik tindakan positif untuk tindakan itu, membuat tindakan lebih "dapat diprediksi" yang disukai sel.
6
Teratas
Peringkat
Favorit
