Jag gillar hur vi har bestämt att multimodal bara betyder "text + bild in, text ut" och alla andra modalitetskombinationer är "omni"