mi piace come abbiamo deciso che multimodale significhi semplicemente "testo + immagine in, testo fuori" e qualsiasi altra combinazione di modalità sia "omni"