me gusta cómo hemos decidido que multimodal solo significa "texto + imagen de entrada, texto de salida" y cualquier otra combinación de modalidades es "omni"