Вдруг эта новость обошла вас стороной (мы в это слабо верим)
OpenAI представила новую модель GPT-4o, где "o" означает "omni". GPT-4o отличается способностью обрабатывать текст, речь и изображения.
Основные особенности GPT-4o:
1. Обработка изображений
GPT-4o может принимать и анализировать изображения, что открывает новые возможности для приложений, таких как автоматическая генерация подписей и детальный анализ изображений.
2. Текст в речь
Новый API позволяет преобразовывать текст в высококачественную речь, предлагая несколько голосов и моделей для различных сценариев использования. Новая версия понимает сарказм, считывает эмоции и умеет шутить.
3. Модели DALL-E 3
Разработчики могут интегрировать генерацию изображений с помощью модели DALL-E 3, которая уже используется такими компаниями, как Snap и Coca-Cola.
4. API для ассистентов
API позволяет создавать ИИ-ассистентов, способных выполнять сложные задачи, такие как интерпретация кода, обработка информации и т.д.
Обновления уже доступны для всех пользователей с платной подпиской.
На видео пример того, как GPT-4o общается в режиме реального времени, считывая картинку и звук с фронтальной камеры.