wsiadaj przegrany, skalujemy modele RL od podstaw