我喜欢我们决定的多模态仅仅意味着“输入文本+图像,输出文本”,而任何其他模态组合则称为“全模态”。