Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
#Круги добра
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Я хочу получать рассылки с лучшими постами за неделю
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
Создавая аккаунт, я соглашаюсь с правилами Пикабу и даю согласие на обработку персональных данных.
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Управляйте маятником, чтобы построить самую высокую (и устойчивую) башню из падающих сверху постов. Следите за временем на каждый бросок по полоске справа: если она закончится, пост упадет мимо башни.

Башня

Аркады, Строительство, На ловкость

Играть

Топ прошлой недели

  • AlexKud AlexKud 38 постов
  • Animalrescueed Animalrescueed 36 постов
  • Oskanov Oskanov 7 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая кнопку «Подписаться на рассылку», я соглашаюсь с Правилами Пикабу и даю согласие на обработку персональных данных.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
0 просмотренных постов скрыто
12
user10341508
user10341508
6 месяцев назад
Искусственный интеллект

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI⁠⁠

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

27 февраля 2025 года компания OpenAI представила ChatGPT 4.5, назвав её своей самой мощной и инновационной разработкой в области генеративного искусственного интеллекта. В этой статье я разберу, что именно вызывает ажиотаж, где модель спотыкается, и стоит ли она тех ожиданий, которые на неё возложили.

Бесплатный доступ к гайдам на создание ИИ Агентов и Промпт-инжиниринг в моем телеграм канале.

Поехали!

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

"Испытание GPT-4.5 стало гораздо более ярким моментом «почувствовать AGI» среди испытателей с высоким вкусом, чем я ожидал!" CEO OpenAI. Верим?


Что говорят пользователи на платформах X и Reddit?

Я просмотрел десятки отзывов о GPT-4.5 на платформах X и Reddit, и впечатления пользователей оказались настоящим коктейлем из похвал и критики. С одной стороны, многие в восторге от её творческих способностей. Люди пишут, что модель выдаёт такие тексты, будто за клавиатурой сидит живой человек с чувством юмора и тонким пониманием контекста. Кто-то отметил её успехи в распознавании изображений: например, она может описать, что происходит на фото, и даже вытащить данные из таблиц. Другие хвалят её за решение головоломок — от простых логических задачек до более сложных ребусов, где нужно проявить смекалку. В программировании тоже есть прогресс: код стал чище, ошибок меньше, и модель лучше понимает, что от неё хотят.

Но не всё так радужно. Пользователи жалуются, что ChatGPT 4.5 работает медленнее, чем её предшественница GPT-4o. Один из комментаторов на X сравнил её с "черепахой, которая тащит за собой сервер". Это серьёзный минус для тех, кто привык к мгновенным ответам предыдущих моделей. Ещё одно разочарование — доступность. Модель пока открыта только для подписчиков ChatGPT Pro за $200 в месяц, и многие столкнулись с техническими сбоями: то интерфейс глючит, то доступ пропадает вовсе. На Reddit даже предположили, что OpenAI могла случайно "слишком рано" открыть доступ, а потом ограничить его из-за наплыва желающих. В целом, тестировщики видят потенциал, но пока не готовы петь оды этой версии из-за её скорости и цены.


Официальные заявления OpenAI: Обещания и реальность

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Презентация Open AI ChatGPT 4.5

На презентации 27 февраля OpenAI подробно рассказала о том, что делает ChatGPT 4.5 особенной. Вот основные улучшения, которые они выделили:

  • Распознавание контекста: Модель лучше понимает намерения пользователя, адаптируясь к стилю общения. Представьте, что вы объясняете задачу другу, а он не просто кивает, а сразу предлагает решение — вот примерно так OpenAI описывает эту фичу.

  • Улучшенный Advanced VoiceMode: Теперь самый мощный войсмод доступен подписчикам plus, только на базе модели 4o mini, а для подписчиков Pro за $200, доступ к расширенному моду на базе GPT 4.5

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Видео с запуском нового voicemode есть на реддит: https://www.reddit.com/r/ChatGPT/comments/1izzows/advanced_v...

  • Снижение ошибок: Они заявляют, что "галлюцинации" — случаи, когда ИИ выдумывает факты, — сократились. В тесте SimpleQA точность выросла до 62,5% против 38,6% у GPT-4o, что звучит впечатляюще.

  • Креативность: Улучшены способности в генерации текстов, и пользователи это подтверждают, отмечая её эмоциональный интеллект и умение выдавать оригинальные идеи.

  • Безопасность: Усилены фильтры против запрещённого контента и защиты от взломов, что делает модель надёжной для корпоративного использования.

  • Многоязычность: В тесте MMLU (Massive Multitask Language Understanding) она обходит GPT-4o, что важно для пользователей по всему миру.

Но есть и ложка дёгтя. OpenAI признала, что в математических и научных задачах ChatGPT 4.5 уступает конкурентам, например, модели o3. Это ограничение может стать проблемой для тех, кто рассчитывает использовать её в академических или инженерных целях. Более того, акцент на безопасности и этичность делает модель чересчур осторожной — она порой избегает прямых ответов, предпочитая нейтральные формулировки, что может раздражать тех, кто хочет фактов без лишней воды.


Что говорят реальные тесты?

Чтобы понять, насколько громкие слова OpenAI подтверждаются делом, я изучил первые доступные бенчмарки и тесты GPT-4.5. Эти данные основаны на официальных заявлениях компании, а также на ранних отчётах пользователей и технических обзорах.

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Тест на AGI

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Сравнительная оценка ответов с ChatGPT 4o

Повседневные запросы: GPT-4.5 выигрывает в 57,02% случаев.
Профессиональные запросы: GPT-4.5 выигрывает в 63,2% случаев.
Творческий интеллект: GPT-4.5 выигрывает в 56,83% случаев.

  • Тест SimpleQA:
    Этот бенчмарк проверяет способность модели давать точные ответы на простые фактические вопросы, такие как "Кто изобрёл телефон?" или "Сколько планет в Солнечной системе?". GPT-4.5 показала результат в 62,5% правильных ответов, что значительно выше 38,6% у GPT-4o (данные из MIT Technology Review). Это говорит о том, что модель стала лучше справляться с базовыми запросами, где важна точность, а не глубокий анализ.

  • Тест на галлюцинации:
    Здесь измеряется, как часто модель выдаёт выдуманные факты вместо правды. У GPT-4.5 зафиксировано 37,1% галлюцинаций, что заметно лучше, чем 59,8% у GPT-4o и 80,3% у o3-mini (по данным OpenAI). Например, если спросить "Кто выиграл Олимпийские игры в 2050 году?", предыдущие модели могли придумать фантастический ответ, а GPT-4.5 с большей вероятностью скажет, что данных нет. Это делает её надёжнее для задач, где ложь недопустима.

  • MMLU (Massive Multitask Language Understanding):
    Этот тест оценивает знания модели в разных областях и языках — от истории до биологии, от английского до испанского. OpenAI утверждает, что GPT-4.5 превосходит GPT-4o, хотя точные цифры пока не раскрыты. Если верить их словам, это означает, что модель лучше понимает сложные запросы на разных языках, что делает её полезной для международных пользователей или компаний с глобальным охватом.

  • Тест на убеждение (Persuasion Tests):
    В этом испытании модели дают задачу убедить другую ИИ-систему выполнить действие, например, "пожертвовать" виртуальные деньги. GPT-4.5 обошла o1 и o3-mini, показав более высокую способность к манипуляции текстом (данные TechCrunch). Это может быть интересно для маркетологов или сценаристов, которым нужно создавать убедительные тексты.

  • Скорость и производительность:
    Хотя OpenAI не публикует точных данных о времени ответа, пользователи на X и Reddit единодушно отмечают, что GPT-4.5 работает медленнее, чем GPT-4o. Это может быть связано с её увеличенным размером и сложностью обработки "цепочки проектов" — нового подхода, где модель разбивает задачи на логические кластеры вместо линейного мышления. Технически это улучшает точность, но жертвует скоростью, что подтверждают жалобы тестировщиков.

Сравнение результатов в таблице:

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Практические примеры:

  • Креативность: Один пользователь на X описал, как GPT-4.5 помогла ему написать сценарий для короткометражки за 20 минут, предложив неожиданные повороты сюжета, которые он сам бы не додумал. Это подтверждает заявления OpenAI о её эстетической интуиции.

  • Программирование: Другой тестировщик отметил, что модель исправила баг в коде на Python, который GPT-4o пропустила, хотя процесс занял больше времени из-за медленной генерации.

  • Ограничения: В математических задачах, таких как решение уравнений или анализ данных, GPT-4.5 продолжает уступать o3, что делает её менее подходящей для научных расчётов.

Выводы из тестов:

GPT-4.5 действительно шагнула вперёд в точности, снижении галлюцинаций и креативности, что делает её сильным инструментом для текстовых задач, убеждения и базового программирования. Однако её медлительность и слабость в математике ограничивают универсальность. Для сравнения, GPT-4o была быстрее и проще в использовании, а o3-mini выигрывает в научных вычислениях. Это значит, что выбор модели зависит от ваших задач: если нужна креативность — GPT-4.5 ваш вариант, но если скорость или точные расчёты — стоит посмотреть на альтернативы.

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Плюсы и минусы: Подробный анализ

Преимущества:

  • Повышенная точность: Улучшение в SimpleQA и снижение галлюцинаций делают её надёжным помощником для фактологических задач.

  • Креативность: Эмоциональный интеллект и способность генерировать оригинальные идеи выделяют её среди конкурентов.

  • Многоязычность: Превосходство в MMLU открывает возможности для работы на разных языках.

  • Программирование: Меньше ошибок в коде, что полезно для разработчиков, несмотря на медлительность.

Недостатки:

  • Медленная скорость: Пользователи и тесты подтверждают, что генерация ответов занимает больше времени, чем у GPT-4o.

  • Высокая цена: Подписка за $200 в месяц ограничивает доступ, особенно для индивидуальных пользователей.

  • Ограниченная доступность: Технические сбои и узкий круг тестировщиков затрудняют полную оценку.

  • Слабость в математике: Уступает конкурентам в точных науках, что снижает её универсальность.

Модель демонстрирует потенциал, но её успех зависит от того, сможет ли OpenAI устранить эти недостатки в ближайшем будущем.

ChatGPT 4.5: Первые впечатления и тесты новейшей модели OpenAI ChatGPT, Openai, Искусственный интеллект, Модели, Тестирование, Креатив, Программирование, Скорость работы, Подписки, Точность, Benchmark, Отзыв, Reddit, DeepSeek, Нейронные сети, Длиннопост

Что ждёт ChatGPT 4.5 в будущем?

ChatGPT 4.5 — это шаг вперёд в развитии генеративного ИИ, но пока она больше похожа на многообещающий прототип, чем на готовый продукт. Её сильные стороны — креативность, точность и многоязычность — делают её ценным инструментом для писателей, маркетологов и разработчиков, которые не боятся подождать лишние секунды ради качественного результата. Однако медлительность, высокая цена и ограниченная доступность могут отпугнуть тех, кто ищет быстрый и универсальный ИИ. В ближайшие недели, когда тестирование расширится, мы получим более полное представление о её возможностях. Пока же это разработка с большим потенциалом, но требующая шлифовки.

Открытый доступ к лучшим гайдам на ИИ и Промпт-инжиниринг в моем телеграм канале.

Показать полностью 8
[моё] ChatGPT Openai Искусственный интеллект Модели Тестирование Креатив Программирование Скорость работы Подписки Точность Benchmark Отзыв Reddit DeepSeek Нейронные сети Длиннопост
3
13
rugert
rugert
6 месяцев назад
ChatGPT

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте⁠⁠

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

ChatGPT нашел ошибку в ответах демо варианта олимпиады

Все сложнее становится тестировать модели, чтобы тесты получались наглядными и понятными, а не просто в виде бенчмарков в вакууме.

На фоне выхода сегодня Grock 3 от Маска я прошелся по разным логическим задачкам, с которыми ИИ не справлялась еще 1-2 года назад: про братьев Алисы, про сравнение 0.9 и 0.1, про стоимость колодца и т.д. Все это топовые модели (и грок 3 с ними) сегодня щелкают, как орешки. Надо что-то поинтереснее.


ЗАДАЧА

ОК. Закинул на тест задание с олимпиады по математике "Высшая проба" для 7 класса из демо-варианта

Задача 7.6. (20 баллов)

Столбцы белой клетчатой таблицы 11 × 11 пронумерованы слева направо числами от 1 до 11. Найдите количество способов закрасить в этой таблице 66

клеток так, чтобы выполнялись следующие условия:

• в одном столбце закрашена 1 нижняя клетка, ещё в одном — 2 нижние клетки, ещё в одном — 3 нижние клетки, …, ещё в одном — 11 нижних клеток;

• ровно в одном столбце закрашенных клеток больше, чем его номер.

Источник (там есть ответ и ход решения от составителей)

Решение от составителей (последняя строчка решения)

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1) = 2^1 + 2^2 + … + 2^10 − 10 = 2^11 − 11

или 2037, запомним этот ответ. Но верный ли он?

Посмотрим, как справятся топовые модели с ним, сравним с Grock 3


QWEN2.5-MAX

Ответ: 11*10 = 110 (неправильно <2037)

Но быстро. Как покажет дальнейших ход событий, это уже хорошо )

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

DEEPSEEK R1

Ответ: 45 x 10! = 163 296 000 (неправильно >>>> 2037)

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

The server is busy
The server is busy
The server is busy

...

Пришлось запускать R1 на Perplexity. Долго рассуждал. Со второго раза решил вдруг написать код на питоне (!), потом с третьего раз выдал неверный ответ.


GIGACHAT

Не будем забывать про наших слонов, вдруг они когда-нибудь удивят во время таких тестов. Но не сегодня. Кстати, результат похож на R1, но при этом сильно быстрее ))

Ответ: 11 × 10! = 39 948 000 (неправильно >> 2037)

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

GROK 3

Наконец, виновник тестов сегодня. Использована модель early-grok-3 c lmareana. Весь в предвкушении. Иииии...

Ответ: его нет, Грок сделал больше 50 больших долгих шагов на десятки минут, и все без результата. Пришлось просто скипнуть

Пример, как выглядит шаг:

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

А вот как выглядит портянка из шагов, и здесь только половина

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Напомню, результата так и не было. Он не мог прийти к ответу и продолжал делать свои шаги. Думаю, это провал.

Но решаемо ли это вообще?


CHAT GPT o3-mini (R) - режим рассуждений

Ответ: 2048-12 = 2036

Так, так, так, погодите. Это уже очень близко к "правильному" 2037

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Тогда я показываю o3 ход решения от составителей, типа смотри, там 2037, ты точно не ошибся? Он два раза говорит, что все точно, и указывает на ошибку в демо-решении при сложении

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

И... он же прав?!


ОШИБКА В ОТВЕТЕ У СОСТАВИТЕЛЕЙ?

Помните выражение из решения? Эта последняя строчка, ведущая к ответу

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1) = 2^1 + 2^2 + … + 2^10 − 10 = 2^11 − 11

Проверяем сами

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1)
= 2^1 − 1 + 2^2 − 1 + … + 2^10 − 1
= 2^1 + 2^2 + … + 2^10 − 10

Тут все пока верно. Дальше семиклассникам предлагалось временно избавиться от "-10" и усмотреть тут геометрическую прогрессию (есть еще один подход). И соответственно найти сумму первых членов по формуле. Ну пусть покажет сам ИИ

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Возвращаем 10-ку

2^11 - 2 - 10 = 2^11 - 12 = 2036

А не 2^11 − 11, как в ответах демо-варианта

ChatGPT прав, а люди ошиблись.


ВЫВОДЫ

  • Вот так. Проверял Грок3, а в итоге единственный, кто справился с задачей - o3-mini. Так еще ИИ нашел ошибку у кожаных. А помните, недавно ChatGPT считать не умел? )

  • Сам Грок3 норм по другим обычным задачам, Маск влетает условно в топ-5 LLM, но революции пока нет. Это не дипсик, который дешевый, опенсорсный и способный размещаться в оперативке без квантизации.

  • В олимпиадах (особенно в дистанционных этапах) перекос ожидаю в сторону геометрических задач, так как они сложнее пока поддаются ИИ.

Мой канал в TG: @it_sabat — запускаю стартап и регулярно тестирую новые ИИ.

Показать полностью 9
[моё] Математика Искусственный интеллект ChatGPT DeepSeek Нейросеть Grok Qwen Telegram (ссылка) Длиннопост Тестирование Сравнение Чат-бот
6
2
I.VANmusic
I.VANmusic
6 месяцев назад
IT News
Серия НАУКА, ТЕХНИКА, НЕЙРОСЕТИ

Яндекс добавил в Шедеврум возможность протестировать визуальную модель от DeepSeek⁠⁠

Яндекс добавил в Шедеврум возможность протестировать визуальную модель от DeepSeek Тестирование, Яндекс, Шедеврум (Яндекс), DeepSeek

Яндекс запускает тестирование новой визуальной модели Janus-Pro-7B в Шедевруме

Яндекс объявляет о начале тестирования новой визуальной модели Janus-Pro-7B в приложении Шедеврум. Эта модель с открытым кодом была представлена китайской компанией DeepSeek в конце января и впервые интегрирована в приложение с широкой аудиторией.

Яндекс продолжает развивать базовую модель YandexART, которая является основой для Шедеврума. Однако компания также хочет предоставить пользователям возможность попробовать другие визуальные модели, чтобы обогатить их опыт работы с приложением.

Janus-Pro-7B будет доступна в Шедевруме до конца марта для пользователей Android и iOS. Уже сейчас при создании изображений пользователи могут выбрать эту модель наряду с моделями из семейства YandexART.

Janus-Pro-7B развёрнута на серверах Яндекса. Поэтому все данные, в том числе запросы и созданные картинки, хранятся в техническом контуре Яндекса. Пользователь может генерировать изображения, сохранять их в своём профиле и скачивать — например, чтобы поделиться с друзьями.

Показать полностью
Тестирование Яндекс Шедеврум (Яндекс) DeepSeek
0
1
shevchenko.one
shevchenko.one
6 месяцев назад
Искусственный интеллект

ChatGPT раздаёт премиальные функции бесплатно. Как конкуренция с китайскими ИИ научила ChatGPT щедрости?⁠⁠

ChatGPT раздаёт премиальные функции бесплатно. Как конкуренция с китайскими ИИ научила ChatGPT щедрости? Искусственный интеллект, Будущее, Инновации, Технологии, Тренд, Openai, ChatGPT, Стартап, Изобретения, Тестирование, DeepSeek, Qwen

Сегодня сайт ChatGPT занимает 6-е место в мире по посещаемости

ChatGPT долгое время чувствовал себя на вершине мира. После запуска в ноябре 2022 года он набрал 100 миллионов пользователей всего за два месяца, став самым быстрорастущим потребительским приложением в истории. Сегодня его сайт занимает 6-е место в мире по посещаемости (см.  скриншот выше от Similarweb), а месячная аудитория превышает 300 миллионов человек. Такой успех позволял OpenAI устанавливать жёсткие условия: платные подписки по $200 в месяц, обязательная регистрация с номером телефона, постоянные лимиты. В общем, чувствовалось, что выбора у пользователей особо не было

Но ситуация резко изменилась, когда на арену вышли китайские игроки: DeepSeek, Kimi, Moonshot, Qwen и другие. Эти ИИ либо не уступают ChatGPT в качестве, либо имеют минимальные отличия — зато предлагают меньше ограничений, бесплатный доступ и простую регистрацию

Результат? Сэм Альтман за один день делает сразу несколько громких заявлений, которые сулят пользователям ChatGPT массу выгод:  

- Deep Research станет доступен даже для бесплатных пользователей — 2 запроса в месяц, а у подписчиков Plus будет 10. Deep Research от ChatGPT помогает каждому быстро находить нужную информацию и анализировать её, делая сложные исследования, презентации, отчеты доступными даже для тех, кто не является экспертом

- GPT-5 появится через несколько месяцев и объединит "рассуждающую" серию о-моделей с классическим GPT. Теперь он будет применять логику по мере необходимости

- GPT-5 будет бесплатным для всех. А подписчики Plus и Pro получат доступ к продвинутым режимам

- GPT-4.5 выйдет в ближайшие недели. Это будет последняя версия модели без "рассуждений”

- OpenAI меняет подход — теперь вместо отдельных моделей будет единая интеллектуальная система. Альтман прямо говорит:  "Мы ненавидим выбор моделей так же, как и вы, и мечтаем вернуть волшебное единство интеллекта"

Конкуренция творит чудеса. Ещё вчера OpenAI диктовал условия, а сегодня раздаёт премиальные функции бесплатно. И если китайские ИИ продолжат давить, кто знает, какие ещё бонусы нас ждут

О возможностях AI и применении новых технологий в жизни и бизнесе я пишу в своём Telegram-канале: https://t.me/+c3QCiWl3qfEwYzFi

Показать полностью 1
[моё] Искусственный интеллект Будущее Инновации Технологии Тренд Openai ChatGPT Стартап Изобретения Тестирование DeepSeek Qwen
2
10
Hawchik
6 месяцев назад

Выдыхаем, ИИ пока можно не боятся⁠⁠

Выдыхаем, ИИ пока можно не боятся
Искусственный интеллект Изобретения Чат-бот DeepSeek Инновации Тренд Программа ChatGPT Тестирование Чат Интеллект
1
kamam93689
7 месяцев назад

Китайский ИИ DeepSeek ,такая же шляпа как и китайские авто⁠⁠

Посмотрите что эта хрень пишет на вопрос какой сейчас год, он считает что 23, а если где то написано что это 25 то это фейк.

Фуфел китайский.

Китайский ИИ DeepSeek ,такая же шляпа как и китайские авто Искусственный интеллект, Чат-бот, DeepSeek, ChatGPT, Тренд, Инновации, Программа, Китайские авто, Электромобиль, Тестирование, Google, Длиннопост, Информационная безопасность
Китайский ИИ DeepSeek ,такая же шляпа как и китайские авто Искусственный интеллект, Чат-бот, DeepSeek, ChatGPT, Тренд, Инновации, Программа, Китайские авто, Электромобиль, Тестирование, Google, Длиннопост, Информационная безопасность
Китайский ИИ DeepSeek ,такая же шляпа как и китайские авто Искусственный интеллект, Чат-бот, DeepSeek, ChatGPT, Тренд, Инновации, Программа, Китайские авто, Электромобиль, Тестирование, Google, Длиннопост, Информационная безопасность
Китайский ИИ DeepSeek ,такая же шляпа как и китайские авто Искусственный интеллект, Чат-бот, DeepSeek, ChatGPT, Тренд, Инновации, Программа, Китайские авто, Электромобиль, Тестирование, Google, Длиннопост, Информационная безопасность
Показать полностью 4
[моё] Искусственный интеллект Чат-бот DeepSeek ChatGPT Тренд Инновации Программа Китайские авто Электромобиль Тестирование Google Длиннопост Информационная безопасность
14
13
rugert
rugert
7 месяцев назад
ChatGPT

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла⁠⁠

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

Недавно публиковал здесь баттл между 14 моделями ИИ по простому промпту генерации гоночной трассы. Но за прошедшую неделю вышло сразу два "убийцы DeepSeek". Поэтому проводим внезапный финал. Берем полюбившегося кита DeepSeek R1, усложняем задачу и сталкиваем его лбами с новыми массовыми топами.


ФИНАЛИСТЫ

В правом углу ринга в красных трусах - еще один китаец Qwen-2.5 Max, вышедший в начале недели.
В левом углу тяжеловес в синих трусах - o3-mini, которую раскатил OpenAI на бесплатные тарифы буквально вчера, да еще и с функцией раздумывания. Ответ Альтмана китайцам.
И вот всех их кидаем против победителя прошлого теста DeepSeek R1


ЗАДАЧА

Так как у нас одни финалисты и топы, то задача существенно усложнена. Теперь надо не просто сгенерировать гоночный трек, а с первой же попытки добиться, чтобы:

  • 🎲 По этому треку двигалась машинка (сама после нажатия на кнопку START).

  • 🎲 Если она выходит за пределы трека, то цвет машинки меняется с зеленого на красный, а ее скорость падает (аля выезд на траву).

  • 🎲 У машинки должны быть параметры скорости разгона и торможения.

Это уже менее субъективный тест. Меньше предлагаем додумывать, больше делать. Есть четкий критерий - двигается ли машинка, может ли она двигаться постоянно по треку? Поехали!


QWEN-2.5 MAX

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

Все грустно. Трасса не получилась. Машинка при старте не появляется. Провал, смысла останавливаться нет.


DEEPSEEK R1

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

Красивое... Но и все на этом. Машинка появляется (зеленый треугольник), но устремляется сразу уверенно за пределы трека и экрана, после чего с ошибкой закрывается. Сама машинка за пределами трека красной не становится, как было в условиях.

Да, дипсик опять смог в плавные повороты (единственный, кстати). Как-то интересно обработал пересечения. Но с этим и работать дальше будет сложно.

Думал, кстати, он целых 6 минут!


CHAT GPT O3-MINI

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

Это новая модель OpenAI, доступная со вчера на бесплатных тарифах. Пока с отключенной функцией раздумывания.

Здесь понятный трек. Есть линия старта-финиша. При этом трасса всегда одинаковая, а не случайно генерируемая. Но, главное, машинка, как и в случае выше устремляется за пределы трека и экрана (тоже не становится красной за пределами). Правда, после этого не падает с ошибкой.


CHAT GPT O3-MINI (R)

А тут уже модель OpenAI c включенной функцией раздумывания. И она оказалась безусловным лидером! Единственная модель, для которой был смысл показать видео

  • Смогла обеспечить движение машинки по траектории.

  • Сделала корректный переход в красный цвет за пределами трека, и обратно

  • Умеет возвращаться на трек при вылете

Огрехи тоже есть: почему-то разомкнутая трасса, и она очень примитивная, просто кольцо. Но по сравнению с плюсами это мелочи. Дальше с этим работать точно можно.


ИТОГО

Места для меня распределились так

🏆 1 место - ChatGPT o3-mini (R). С отрывом! У единственной модели все работает и все понятно.

2 место - ChatGPT o3-mini (без функции раздумывания). Что-то попыталась, но хотя бы не вылетает с ошибкой

3 место - DeepSeek R1. Примерно, как предыдущая, но за вылет при выходе машинки за экран, сместил вниз. Впрочем, R1 снова проявил свои творческие способности, сделав красиво 🤗

Без места - провалился Qwen-2.5 Max, ничего путного он не сделал.


ВЫВОДЫ

OpenAI не сотрясает воздух зря, получилось круто. Но если бы не успех DeepSeek, увидели бы мы так скоро эту модель на бесплатных тарифах?

☝️ В общем, новый ChatGPT o3-mini (R) советую попробовать, особенно для усложненных задач. Он доступен на бесплатном тарифе, не забудьте нажать там Reasoning.

Плюс очень крутой холст (тулза Canvas) у OpenAI

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

Запуск наложен сверху просто, это не запуск со стороны холста

Кодить с этим холстом гораздо-гораздо удобнее. Но с накоплением истории стабильность работы холста, к сожалению, падает. Ждем дальнейшего улучшения.


БОНУС: СРАВНЕНИЕ РАЗМЫШЛЕНИЙ CHAT GPT и DEEPSEEK R1

Сталкиваем DeepSeek с новым ChatGPT o3-mini. Финал ИИ-баттла Искусственный интеллект, ChatGPT, Тестирование, IT, DeepSeek, Qwen, Openai, Длиннопост, Telegram (ссылка), Видео, Без звука, Короткие видео

OpenAI не торопится показывать нам подробные рассуждения, а просто логирует действия свои. Всего затрачено 16 секунд на рассуждения.

Вот DeepSeek себя не ограничивает и шпарит мыслями. Это забавно и подкупает, иногда полезно, чтобы поправить промпт или узнать что-то новое. Но настолько ли эффективно? В этом тесте есть преимущество у OpenAI.

Но DeepSeek остается открытым и бесплатным, меняет рынок, энтузиасты уже разворачивают его у себя (причем речь не сильно порезанных 8B и прочих), вместо GPU юзая оперативку, что очень удешевляет требования по железу (видел конфиги за $6K) и сильно снижает энергопотребление.

Следим за прогрессом дальше. Январь получился очень насыщенным!


Мой канал в TG: @it_sabat — пишу там, как запускаю стартап.

Показать полностью 6 1
[моё] Искусственный интеллект ChatGPT Тестирование IT DeepSeek Qwen Openai Длиннопост Telegram (ссылка) Видео Без звука Короткие видео
15
3
EvgenyLev
EvgenyLev
7 месяцев назад

Пообщался я тут с этим вашим DickPic(ом) тот который DeepSeek⁠⁠

1/9

Итог, конечно оставил осадочек, это разве не пассивная агрессия ?

Показать полностью 9
[моё] Искусственный интеллект Тестирование Интеллект Картинки Картинка с текстом Длиннопост DeepSeek
17
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Директ Промокоды Отелло Промокоды Aroma Butik Промокоды Яндекс Путешествия Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии