Ich mag, wie wir entschieden haben, dass multimodal einfach "Text + Bild rein, Text raus" bedeutet und jede andere Modalitätskombination "omni" ist.