"Por que razão quererias alguma vez dividir um modelo transformer em partes e treiná-lo numa colmeia de GPUs de consumo?"