OmniFusion: Российская мультимодальная языковая модель выходит в открытый доступ
Институт искусственного интеллекта AIRI сделал значительный шаг в развитии отечественных технологий искусственного интеллекта, представив открытую версию мультимодальной языковой модели OmniFusion 1.1. Эта инновационная разработка способна понимать и обрабатывать информацию из разных источников, включая текст и изображения, открывая широкие возможности для применения в различных сферах.
Визуальный диалог и анализ изображений: новые горизонты взаимодействия
OmniFusion 1.1 превосходит возможности традиционных языковых моделей, предоставляя пользователям возможность вести визуальный диалог. Модель способна анализировать изображения, отвечать на вопросы по картинкам, распознавать текст и даже решать задачи, представленные на изображениях.
Примеры возможностей OmniFusion 1.1:
Распознавание и описание изображений: модель может объяснить, что изображено на снимке, определить ингредиенты блюда по фотографии, проанализировать карту помещения или разобраться в схеме устройства.
Распознавание текста и решение задач: OmniFusion 1.1 способна распознавать текст на изображениях, включая математические формулы и логические задачи, предоставляя ответы в формате LaTeX.
Анализ медицинских изображений: хотя модель пока не готова ставить диагнозы, она уже может выявить потенциальные проблемы на медицинских снимках, что открывает перспективы для ее применения в здравоохранении.
Открытый код – шаг к сотрудничеству и развитию
AIRI принял решение опубликовать исходный код OmniFusion 1.1, включая веса модели и скрипты для обучения, в репозитории GitHub. Это важный шаг, который способствует развитию открытого сотрудничества в сфере искусственного интеллекта, позволяя разработчикам и исследователям со всего мира совершенствовать модель и создавать новые приложения на ее основе.
Публикуя открытый исходный код OmniFusion, включая веса модели и скрипты для обучения, мы стремимся внести вклад в сообщество исследователей искусственного интеллекта и поспособствовать дальнейшему развитию мультимодальных архитектур, созданию новых приложений на их основе.Иван Оселедец, доктор физико-математических наук, Профессор РАН, генеральный директор Института AIRI
Российский ответ зарубежным аналогам
OmniFusion 1.1 – первая российская мультимодальная языковая модель, которая составляет конкуренцию зарубежным аналогам, таким как LLaVA, Gemini, GPT4-Vision, а также китайским моделям Qwen, DeepSeek и LVIS. В отличие от некоторых из них, OmniFusion 1.1 находится в открытом доступе, что делает ее доступной для широкого круга пользователей и разработчиков.
Перспективы развития и применения
OmniFusion 1.1 открывает новые горизонты для применения искусственного интеллекта в различных областях, включая:
Образование: модель может использоваться для создания интерактивных учебных материалов, решения задач и проверки знаний.
Здравоохранение: анализ медицинских изображений и выявление потенциальных проблем.
Робототехника: распознавание объектов и навигация в пространстве.
Электронная коммерция: поиск товаров по изображениям и описание продукции.
Развлечения: создание интерактивных игр и приложений.
Открытый доступ к OmniFusion 1.1 стимулирует развитие отечественной индустрии искусственного интеллекта и способствует появлению новых инновационных решений на базе этой перспективной технологии.