“Tại sao bạn lại muốn chia nhỏ một mô hình transformer thành các phần và huấn luyện nó trong một đàn GPU tiêu dùng?”