Мне нравится, как мы решили, что мультимодальность просто означает "текст + изображение на входе, текст на выходе", а любая другая комбинация модальностей — это "омни".