Me gusta cómo hemos decidido que multimodal solo significa "texto + imagen entrante, texto saliente" y cualquier otra combinación de modalidad es "omni"