"Waarom zou je ooit een transformer model in stukken willen opsplitsen en het trainen in een consumenten GPU zwerm?"