Класс точности на рулетке
Если кому надо, вот на Яндекс Маркете, и похожая на Али
Подписывайтесь на наше сообщество на Пикабу Стройка. Интересные решения
Если кому надо, вот на Яндекс Маркете, и похожая на Али
Подписывайтесь на наше сообщество на Пикабу Стройка. Интересные решения
Eurocopter AS350B3 Ecureuil (фр. белка)
27 февраля 2025 года компания OpenAI представила ChatGPT 4.5, назвав её своей самой мощной и инновационной разработкой в области генеративного искусственного интеллекта. В этой статье я разберу, что именно вызывает ажиотаж, где модель спотыкается, и стоит ли она тех ожиданий, которые на неё возложили.
Бесплатный доступ к гайдам на создание ИИ Агентов и Промпт-инжиниринг в моем телеграм канале.
"Испытание GPT-4.5 стало гораздо более ярким моментом «почувствовать AGI» среди испытателей с высоким вкусом, чем я ожидал!" CEO OpenAI. Верим?
Я просмотрел десятки отзывов о GPT-4.5 на платформах X и Reddit, и впечатления пользователей оказались настоящим коктейлем из похвал и критики. С одной стороны, многие в восторге от её творческих способностей. Люди пишут, что модель выдаёт такие тексты, будто за клавиатурой сидит живой человек с чувством юмора и тонким пониманием контекста. Кто-то отметил её успехи в распознавании изображений: например, она может описать, что происходит на фото, и даже вытащить данные из таблиц. Другие хвалят её за решение головоломок — от простых логических задачек до более сложных ребусов, где нужно проявить смекалку. В программировании тоже есть прогресс: код стал чище, ошибок меньше, и модель лучше понимает, что от неё хотят.
Но не всё так радужно. Пользователи жалуются, что ChatGPT 4.5 работает медленнее, чем её предшественница GPT-4o. Один из комментаторов на X сравнил её с "черепахой, которая тащит за собой сервер". Это серьёзный минус для тех, кто привык к мгновенным ответам предыдущих моделей. Ещё одно разочарование — доступность. Модель пока открыта только для подписчиков ChatGPT Pro за $200 в месяц, и многие столкнулись с техническими сбоями: то интерфейс глючит, то доступ пропадает вовсе. На Reddit даже предположили, что OpenAI могла случайно "слишком рано" открыть доступ, а потом ограничить его из-за наплыва желающих. В целом, тестировщики видят потенциал, но пока не готовы петь оды этой версии из-за её скорости и цены.
На презентации 27 февраля OpenAI подробно рассказала о том, что делает ChatGPT 4.5 особенной. Вот основные улучшения, которые они выделили:
Распознавание контекста: Модель лучше понимает намерения пользователя, адаптируясь к стилю общения. Представьте, что вы объясняете задачу другу, а он не просто кивает, а сразу предлагает решение — вот примерно так OpenAI описывает эту фичу.
Улучшенный Advanced VoiceMode: Теперь самый мощный войсмод доступен подписчикам plus, только на базе модели 4o mini, а для подписчиков Pro за $200, доступ к расширенному моду на базе GPT 4.5
Видео с запуском нового voicemode есть на реддит: https://www.reddit.com/r/ChatGPT/comments/1izzows/advanced_v...
Снижение ошибок: Они заявляют, что "галлюцинации" — случаи, когда ИИ выдумывает факты, — сократились. В тесте SimpleQA точность выросла до 62,5% против 38,6% у GPT-4o, что звучит впечатляюще.
Креативность: Улучшены способности в генерации текстов, и пользователи это подтверждают, отмечая её эмоциональный интеллект и умение выдавать оригинальные идеи.
Безопасность: Усилены фильтры против запрещённого контента и защиты от взломов, что делает модель надёжной для корпоративного использования.
Многоязычность: В тесте MMLU (Massive Multitask Language Understanding) она обходит GPT-4o, что важно для пользователей по всему миру.
Но есть и ложка дёгтя. OpenAI признала, что в математических и научных задачах ChatGPT 4.5 уступает конкурентам, например, модели o3. Это ограничение может стать проблемой для тех, кто рассчитывает использовать её в академических или инженерных целях. Более того, акцент на безопасности и этичность делает модель чересчур осторожной — она порой избегает прямых ответов, предпочитая нейтральные формулировки, что может раздражать тех, кто хочет фактов без лишней воды.
Чтобы понять, насколько громкие слова OpenAI подтверждаются делом, я изучил первые доступные бенчмарки и тесты GPT-4.5. Эти данные основаны на официальных заявлениях компании, а также на ранних отчётах пользователей и технических обзорах.
Повседневные запросы: GPT-4.5 выигрывает в 57,02% случаев.
Профессиональные запросы: GPT-4.5 выигрывает в 63,2% случаев.
Творческий интеллект: GPT-4.5 выигрывает в 56,83% случаев.
Тест SimpleQA:
Этот бенчмарк проверяет способность модели давать точные ответы на простые фактические вопросы, такие как "Кто изобрёл телефон?" или "Сколько планет в Солнечной системе?". GPT-4.5 показала результат в 62,5% правильных ответов, что значительно выше 38,6% у GPT-4o (данные из MIT Technology Review). Это говорит о том, что модель стала лучше справляться с базовыми запросами, где важна точность, а не глубокий анализ.
Тест на галлюцинации:
Здесь измеряется, как часто модель выдаёт выдуманные факты вместо правды. У GPT-4.5 зафиксировано 37,1% галлюцинаций, что заметно лучше, чем 59,8% у GPT-4o и 80,3% у o3-mini (по данным OpenAI). Например, если спросить "Кто выиграл Олимпийские игры в 2050 году?", предыдущие модели могли придумать фантастический ответ, а GPT-4.5 с большей вероятностью скажет, что данных нет. Это делает её надёжнее для задач, где ложь недопустима.
MMLU (Massive Multitask Language Understanding):
Этот тест оценивает знания модели в разных областях и языках — от истории до биологии, от английского до испанского. OpenAI утверждает, что GPT-4.5 превосходит GPT-4o, хотя точные цифры пока не раскрыты. Если верить их словам, это означает, что модель лучше понимает сложные запросы на разных языках, что делает её полезной для международных пользователей или компаний с глобальным охватом.
Тест на убеждение (Persuasion Tests):
В этом испытании модели дают задачу убедить другую ИИ-систему выполнить действие, например, "пожертвовать" виртуальные деньги. GPT-4.5 обошла o1 и o3-mini, показав более высокую способность к манипуляции текстом (данные TechCrunch). Это может быть интересно для маркетологов или сценаристов, которым нужно создавать убедительные тексты.
Скорость и производительность:
Хотя OpenAI не публикует точных данных о времени ответа, пользователи на X и Reddit единодушно отмечают, что GPT-4.5 работает медленнее, чем GPT-4o. Это может быть связано с её увеличенным размером и сложностью обработки "цепочки проектов" — нового подхода, где модель разбивает задачи на логические кластеры вместо линейного мышления. Технически это улучшает точность, но жертвует скоростью, что подтверждают жалобы тестировщиков.
Креативность: Один пользователь на X описал, как GPT-4.5 помогла ему написать сценарий для короткометражки за 20 минут, предложив неожиданные повороты сюжета, которые он сам бы не додумал. Это подтверждает заявления OpenAI о её эстетической интуиции.
Программирование: Другой тестировщик отметил, что модель исправила баг в коде на Python, который GPT-4o пропустила, хотя процесс занял больше времени из-за медленной генерации.
Ограничения: В математических задачах, таких как решение уравнений или анализ данных, GPT-4.5 продолжает уступать o3, что делает её менее подходящей для научных расчётов.
GPT-4.5 действительно шагнула вперёд в точности, снижении галлюцинаций и креативности, что делает её сильным инструментом для текстовых задач, убеждения и базового программирования. Однако её медлительность и слабость в математике ограничивают универсальность. Для сравнения, GPT-4o была быстрее и проще в использовании, а o3-mini выигрывает в научных вычислениях. Это значит, что выбор модели зависит от ваших задач: если нужна креативность — GPT-4.5 ваш вариант, но если скорость или точные расчёты — стоит посмотреть на альтернативы.
Повышенная точность: Улучшение в SimpleQA и снижение галлюцинаций делают её надёжным помощником для фактологических задач.
Креативность: Эмоциональный интеллект и способность генерировать оригинальные идеи выделяют её среди конкурентов.
Многоязычность: Превосходство в MMLU открывает возможности для работы на разных языках.
Программирование: Меньше ошибок в коде, что полезно для разработчиков, несмотря на медлительность.
Медленная скорость: Пользователи и тесты подтверждают, что генерация ответов занимает больше времени, чем у GPT-4o.
Высокая цена: Подписка за $200 в месяц ограничивает доступ, особенно для индивидуальных пользователей.
Ограниченная доступность: Технические сбои и узкий круг тестировщиков затрудняют полную оценку.
Слабость в математике: Уступает конкурентам в точных науках, что снижает её универсальность.
Модель демонстрирует потенциал, но её успех зависит от того, сможет ли OpenAI устранить эти недостатки в ближайшем будущем.
Что ждёт ChatGPT 4.5 в будущем?
ChatGPT 4.5 — это шаг вперёд в развитии генеративного ИИ, но пока она больше похожа на многообещающий прототип, чем на готовый продукт. Её сильные стороны — креативность, точность и многоязычность — делают её ценным инструментом для писателей, маркетологов и разработчиков, которые не боятся подождать лишние секунды ради качественного результата. Однако медлительность, высокая цена и ограниченная доступность могут отпугнуть тех, кто ищет быстрый и универсальный ИИ. В ближайшие недели, когда тестирование расширится, мы получим более полное представление о её возможностях. Пока же это разработка с большим потенциалом, но требующая шлифовки.
Открытый доступ к лучшим гайдам на ИИ и Промпт-инжиниринг в моем телеграм канале.