Новая модель MWS AI распознаёт рукописный текст и отвечает на вопросы по изображениям

Источник фото: freepik.com
Компания MWS AL представила на форуме «Финополис-2025» свою первую мультимодальную модель Cotype VL, способную одновременно анализировать изображения и текст.
Дочерняя структура МТС Web Services представила на форуме «Финополис-2025» свою первую мультимодальную модель – Cotype VL, способную одновременно анализировать и интерпретировать изображения и текст.
Модель Cotype VL разработана для сценариев, где требуется совместная обработка визуальной и текстовой информации. Она может:
- создавать краткие и развёрнутые описания изображений;
- отвечать на сложные вопросы, требующие сравнения, рассуждений и выводов;
- учитывать визуальный контекст при переводе текста;
- распознавать смешанный (печатный и рукописный) текст в документах, чеках, медицинских анализах, чертежах и скриншотах.
Решение поддерживает развёртывание в закрытом контуре и допускает дообучение на приватных данных заказчика. Это делает его применимым в юриспруденции, финансах, инжиниринге, HR и маркетинге — везде, где используются визуальные форматы: схемы, карты, таблицы, интерфейсы ПО, сканы договоров.