OmniFusion: Российская мультимодальная языковая модель выходит в открытый доступ⁠⁠

Институт искусственного интеллекта AIRI сделал значительный шаг в развитии отечественных технологий искусственного интеллекта, представив открытую версию мультимодальной языковой модели OmniFusion 1.1. Эта инновационная разработка способна понимать и обрабатывать информацию из разных источников, включая текст и изображения, открывая широкие возможности для применения в различных сферах.

Визуальный диалог и анализ изображений: новые горизонты взаимодействия

OmniFusion 1.1 превосходит возможности традиционных языковых моделей, предоставляя пользователям возможность вести визуальный диалог. Модель способна анализировать изображения, отвечать на вопросы по картинкам, распознавать текст и даже решать задачи, представленные на изображениях.

Примеры возможностей OmniFusion 1.1:

Распознавание и описание изображений: модель может объяснить, что изображено на снимке, определить ингредиенты блюда по фотографии, проанализировать карту помещения или разобраться в схеме устройства.
Распознавание текста и решение задач: OmniFusion 1.1 способна распознавать текст на изображениях, включая математические формулы и логические задачи, предоставляя ответы в формате LaTeX.
Анализ медицинских изображений: хотя модель пока не готова ставить диагнозы, она уже может выявить потенциальные проблемы на медицинских снимках, что открывает перспективы для ее применения в здравоохранении.

Открытый код – шаг к сотрудничеству и развитию

AIRI принял решение опубликовать исходный код OmniFusion 1.1, включая веса модели и скрипты для обучения, в репозитории GitHub. Это важный шаг, который способствует развитию открытого сотрудничества в сфере искусственного интеллекта, позволяя разработчикам и исследователям со всего мира совершенствовать модель и создавать новые приложения на ее основе.

Публикуя открытый исходный код OmniFusion, включая веса модели и скрипты для обучения, мы стремимся внести вклад в сообщество исследователей искусственного интеллекта и поспособствовать дальнейшему развитию мультимодальных архитектур, созданию новых приложений на их основе.Иван Оселедец, доктор физико-математических наук, Профессор РАН, генеральный директор Института AIRI

Российский ответ зарубежным аналогам

OmniFusion 1.1 – первая российская мультимодальная языковая модель, которая составляет конкуренцию зарубежным аналогам, таким как LLaVA, Gemini, GPT4-Vision, а также китайским моделям Qwen, DeepSeek и LVIS. В отличие от некоторых из них, OmniFusion 1.1 находится в открытом доступе, что делает ее доступной для широкого круга пользователей и разработчиков.

Перспективы развития и применения

OmniFusion 1.1 открывает новые горизонты для применения искусственного интеллекта в различных областях, включая:

Образование: модель может использоваться для создания интерактивных учебных материалов, решения задач и проверки знаний.
Здравоохранение: анализ медицинских изображений и выявление потенциальных проблем.
Робототехника: распознавание объектов и навигация в пространстве.
Электронная коммерция: поиск товаров по изображениям и описание продукции.
Развлечения: создание интерактивных игр и приложений.

Открытый доступ к OmniFusion 1.1 стимулирует развитие отечественной индустрии искусственного интеллекта и способствует появлению новых инновационных решений на базе этой перспективной технологии.

AINews- Новости вдохновленные Интеллектом