我喜歡我們已經決定多模態只是指「輸入文字 + 圖像,輸出文字」,而任何其他模態組合則稱為「全方位」。