"Perché dovresti mai voler suddividere un modello transformer in pezzi e addestrarlo in un gruppo di GPU consumer?"