„Warum sollte man ein Transformer-Modell jemals in Teile zerlegen und es in einem Schwarm von Consumer-GPUs trainieren?“