13

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

Прошло уже две недели после выхода долгожданной GPT-5, которая, как казалось, должна была стать одной из главных вех в развитии AI индустрии. Но не стала — как бы ни оценивали эту модель, пессимистично или оптимистично, остается очевидным, что принципиальной разницы между ней и o4-mini, и даже DeepSeek R1 0528, нет - если говорить о качественном кратном отличии, которое ключевым образом меняло бы приложение этого AI к реальным задачам. Поэтому и воспринята новая модель была с разочарованием.

Справедливости ради стоит отметить, что как одна из многих GPT-5 — достаточно хорошая модель, точнее, несколько моделей в составе мультиагентной системы — подробнее об этом ниже. Она успешно применяет новаторские архитектурные решения, как например роутер, позволяющий автоматом адресовать вопросы либо классической LLM, либо рассуждающей модели (GPT-5 thinking). Но благодаря хайпу, раздуваемому больше двух лет с момента выхода GPT-4, от новой главной версии ожидали намного больше, причем разные категории пользователей хотели увидеть в GPT-5 разное. Разработчики вроде меня, применяющие LLM в приложениях для разных манипуляций с данными — RAG, feature extraction и многое другое — хотели увидеть модель, которая решит наконец проблему галлюцинаций и тупости в построении нестандартных логических связей. Люди, которые верят в вероятность скорого достижения AGI — ожидали, соответственно, AGI в лице GPT-5.

Попробую объяснить, почему OpenAI не оправдали ни одного из названных ожиданий, и обратимся сначала к законам масштабирования применительно к нейросетям. Краткое напоминание формулы:

L(N,D,C)≈L∞+a⋅N−α+b⋅D−β+c⋅C−γ

где:

N — количество параметров модели,

D — объем обучающих данных,

C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),

L — ошибка,

α,β,γ — показатели убывания ошибки по мере увеличения соответствующего фактора масштабирования (N, D либо C).

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

В теории, если бесконечно увеличивать N,D,C, ошибка стремится к некоторому пределу L∞. В работах типа исследования OpenAI 2020 года Scaling Laws for Neural Language Models была показана устойчивую зависимость — ошибка модели убывает степенным образом при увеличении размера модели, количества данных и вычислительных затрат.

Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества, как в случае перехода от GPT-2 → GPT-3 → GPT-4.

Почему так произошло?

Прежде всего, свою роль сыграло достижение "потолка данных". Большие модели требуют экспоненциально больше уникальных и качественных данных. Но интернет и другие источники не предоставляют больше "новых" текстов с такой же скоростью.

GPT-3 и GPT-4 обучались на практически всех доступных корпусах человеческого текста. GPT-5, вероятно, столкнулся с ситуацией, когда рост размера модели превышает доступность свежих и разнообразных данных. В терминах scaling laws:

рост параметров N перестал давать выигрыш, так как ограничивающим фактором стал D.

Кроме того, изменилось качество самих задач, которые сейчас являются ключевыми для достижения SOTA по общепринятым критериям сравнения LLM. Scaling laws описывают в первую очередь обучение на больших данных.  Но многие задачи, где тот же GPT-4 уже достиг высокого качества, требуют не только памяти и ассоциаций, но и новых когнитивных архитектур (например, планирования, логических рассуждений, интеграции с внешними инструментами).

Для повышения качества этих и подобных способностей LLM нужны не только "большие данные", но и принципиально другое качество этих данных, что еще более повышает сложность их сбора. Архитектурно GPT-5 остаётся тем же трансформером, если OpenAI о чем-то не умолчали, конечно - по их словам это обычная LLM, чуть более сильная, чем GPT-4o.

Поэтому законы масштабирования не дают ей новых когнитивных способностей. Правда, есть отдельная GPT-5 thinking, которая обучена, скорее всего, подобно любой другой LRM типа DeepSeek R1 — с применением RL, Chain-of-Thoughts файнтюнинга и алгоритмов для поиска оптимальных решений, вроде поиска по дереву Монте-Карло. Но и для LRM, по всей видимости, рост качества застопорился после o4-mini — иначе OpenAI, с их почти неограниченными GPU-ресурсами, могли бы просто масштабировать o4-mini в разы.

Посмотрим на LLM с практической точки зрения разработчика — многие прикладные применения моделей являются очень специфическими. Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов, отчетов, спецификаций товаров и т.д. Как в моем случае, даже при большом объёме корпуса обучения модель сталкивается с задачами, где данные шумные, неоднозначные или редкие. Scaling laws предсказывают общий тренд снижения ошибки, но не гарантируют улучшение именно в узких "hard cases". Наоборот, иногда рост модели может усиливать галлюцинации, так как она становится увереннее в ложных выводах. На моих собственных рабочих бенчмарках качество GPT-5 очень близко — в пределах одного процента - соответствует качеству o4-mini для задач feature-extraction на русском языке. При этом, возможно, на менее специфических задачах новая версия лучше. Решение в таких случаях одно — файнтюнинг на своих данных.

Кроме того, законы масштабирования говорят, что у каждой архитектуры есть свой асимптотический предел точности. GPT-5, возможно, уже близка к этому пределу для чистого текстового трансформера. Дальнейшее развитие потребует новых парадигм: вероятно, в сторону мультимодальности и развития более сложных когнитивных способностей, чем просто развитая генерация текста.

Низкий успех GPT-5 — это не полный провал, но он отражает фундаментальное изменение в развитии ИИ: скейлинг трансформеров почти исчерпал себя. Законы масштабирования больше не обещают революции — только постепенные улучшения.

Чтобы сделать следующий скачок, индустрии придётся искать новые источники данных (например, симуляции, синтетические датасеты, самообучение), разрабатывать новые архитектуры, интегрировать внешние инструменты. В этом смысле GPT-5 — важный сигнал: эра "чистого скейлинга" закончилась, начинается эра архитектурных инноваций. Важны инфраструктурные улучшения, чтобы не только OpenAI, но и вообще любой AI-провайдер мог с легкостью разворачивать модели в GPU-облаке. Важно разнообразие самих моделей, и здесь эстафета переходит к опенсорсным нейронным архитектурам. У них сейчас гораздо больше разнообразия и в отношении данных, и в архитектурных паттернах, чем у пропиетарных аналогов, а значит, и больший потенциал нащупать перспективный подход, который принесет больше результатов, чем скейлинг. OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

Исследователям и разработчикам стоит сосредоточиться на децентрализации AI — снятии ограничений со стороны существующих архитектур, фреймворков, библиотек на использование разных типов нейросетей и подходов к ML. Это большое поле для разработки новых ML-инструментов с большей кросс-совместимостью и ориентацией на опенсорс, чем существующие.

Лига программистов

2.1K постов11.9K подписчиков

Правила сообщества

- Будьте взаимовежливы, аргументируйте критику

- Приветствуются любые посты по тематике программирования

- Если ваш пост содержит ссылки на внешние ресурсы - он должен быть самодостаточным. Вариации на тему "далее читайте в моей телеге" будут удаляться из сообщества

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества