Gosto de como decidimos que multimodal significa apenas "texto + entrada de imagem, saída de texto" e qualquer outra combinação de modalidade é "omni"