В мире искусственного интеллекта каждый год появляются новые технологии, которые меняют наше представление о возможностях машин. Сегодня мы рассмотрим ведущих представителей этой сферы, их особенности и сферы применения.
Главные конкуренты
На сегодняшний день лидируют несколько языковых моделей, каждая из которых выделяется уникальными характеристиками:
ChatGPT (GPT-4) – флагманский продукт от OpenAI, известный своей высокой точностью и гибкостью.
DeepSeek – китайская разработка, специализирующаяся на обработке сложных запросов и генерации кода.
Claude 3.7 – модель от Anthropic, ориентированная на безопасное и логичное взаимодействие.
Qwen – продвинутая система от Alibaba, отлично работающая с китайским и английским языками.
Gemini – продукт Google, глубоко интегрированный в экосистему поисковых технологий.
Какой ИИ лучше?
Выбор идеального инструмента зависит от ваших задач. Рассмотрим, какие модели лучше справляются с различными сценариями:
Здесь лидерами являются ChatGPT и DeepSeek:
ChatGPT (GPT-4) – выдаёт детальные объяснения, помогает отлаживать код и поддерживает большинство популярных библиотек.
DeepSeek – особенно хорош в написании и оптимизации сложных алгоритмов.
Claude 3.7 и ChatGPT отлично справляются с этой задачей:
Claude 3.7 – показывает отличные результаты при анализе больших документов.
ChatGPT – умеет эффективно реферировать и переформулировать тексты.
Gemini и Qwen предлагают высокую скорость обработки запросов:
Gemini – быстро выдаёт ответы благодаря интеграции с Google.
Qwen – оптимизирован для скорости обработки запросов, особенно в англо-азиатском контексте.
Вывод
Выбор лучшего ИИ – это индивидуальный процесс, зависящий от ваших потребностей. Если вам нужен помощник для Python, обратите внимание на ChatGPT или DeepSeek. Для работы с длинными текстами Claude 3.7 станет вашим незаменимым союзником. А для быстрых ответов Gemini и Qwen предложат оптимальное решение.
Какой ИИ вы используете? Поделитесь своим опытом в комментариях!
Друзья, в этом видео мы проведем честное сравнение всех популярных языковых моделей на реальной задаче! Я дам им задание переписать моё React-приложение для сравнения изображений в обычный HTML+JS. Какая модель справится лучше всех?
ChatGPT нашел ошибку в ответах демо варианта олимпиады
Все сложнее становится тестировать модели, чтобы тесты получались наглядными и понятными, а не просто в виде бенчмарков в вакууме.
На фоне выхода сегодня Grock 3 от Маска я прошелся по разным логическим задачкам, с которыми ИИ не справлялась еще 1-2 года назад: про братьев Алисы, про сравнение 0.9 и 0.1, про стоимость колодца и т.д. Все это топовые модели (и грок 3 с ними) сегодня щелкают, как орешки. Надо что-то поинтереснее.
ЗАДАЧА
ОК. Закинул на тест задание с олимпиады по математике "Высшая проба" для 7 класса из демо-варианта
Задача 7.6. (20 баллов)
Столбцы белой клетчатой таблицы 11 × 11 пронумерованы слева направо числами от 1 до 11. Найдите количество способов закрасить в этой таблице 66
клеток так, чтобы выполнялись следующие условия:
• в одном столбце закрашена 1 нижняя клетка, ещё в одном — 2 нижние клетки, ещё в одном — 3 нижние клетки, …, ещё в одном — 11 нижних клеток;
• ровно в одном столбце закрашенных клеток больше, чем его номер.
Источник (там есть ответ и ход решения от составителей)
Решение от составителей (последняя строчка решения)
The server is busy The server is busy The server is busy
...
Пришлось запускать R1 на Perplexity. Долго рассуждал. Со второго раза решил вдруг написать код на питоне (!), потом с третьего раз выдал неверный ответ.
GIGACHAT
Не будем забывать про наших слонов, вдруг они когда-нибудь удивят во время таких тестов. Но не сегодня. Кстати, результат похож на R1, но при этом сильно быстрее ))
Наконец, виновник тестов сегодня. Использована модель early-grok-3 c lmareana. Весь в предвкушении. Иииии...
Ответ: его нет, Грок сделал больше 50 больших долгих шагов на десятки минут, и все без результата. Пришлось просто скипнуть
Пример, как выглядит шаг:
А вот как выглядит портянка из шагов, и здесь только половина
Напомню, результата так и не было. Он не мог прийти к ответу и продолжал делать свои шаги. Думаю, это провал.
Но решаемо ли это вообще?
CHAT GPT o3-mini (R) - режим рассуждений
Ответ: 2048-12 = 2036
Так, так, так, погодите. Это уже очень близко к "правильному" 2037
Тогда я показываю o3 ход решения от составителей, типа смотри, там 2037, ты точно не ошибся? Он два раза говорит, что все точно, и указывает на ошибку в демо-решении при сложении
И... он же прав?!
ОШИБКА В ОТВЕТЕ У СОСТАВИТЕЛЕЙ?
Помните выражение из решения? Эта последняя строчка, ведущая к ответу
Тут все пока верно. Дальше семиклассникам предлагалось временно избавиться от "-10" и усмотреть тут геометрическую прогрессию (есть еще один подход). И соответственно найти сумму первых членов по формуле. Ну пусть покажет сам ИИ
Возвращаем 10-ку
2^11 - 2 - 10 = 2^11 - 12 = 2036
А не 2^11 − 11, как в ответах демо-варианта
ChatGPT прав, а люди ошиблись.
ВЫВОДЫ
Вот так. Проверял Грок3, а в итоге единственный, кто справился с задачей - o3-mini. Так еще ИИ нашел ошибку у кожаных. А помните, недавно ChatGPT считать не умел? )
Сам Грок3 норм по другим обычным задачам, Маск влетает условно в топ-5 LLM, но революции пока нет. Это не дипсик, который дешевый, опенсорсный и способный размещаться в оперативке без квантизации.
В олимпиадах (особенно в дистанционных этапах) перекос ожидаю в сторону геометрических задач, так как они сложнее пока поддаются ИИ.
Мой канал в TG: @it_sabat — запускаю стартап и регулярно тестирую новые ИИ.
Погонял я тут несколько нейросеток плане написания рассказов.
Qwen показал себя хуже всех. Вместо самих рассказов он выдавал мне лишь сюжет для рассказа.
Хвалённый ChatGPT меня тоже разочаровал. Вот вроде бы и пишет рассказ, но блин, в нём такие глюки... " Кот первым подошёл к автомату и, внимательно его изучив, налил себе кружку кофе. Отхлебнул, покатал во рту, кивнул." О_о . Ладно, текст и сам по себе, с некоторой стороны, был немного абсурдный, но не до такого.
Claude 3.5 Sonnet а вот этот мой фаворит. Очень не плохо текстовку делает.
DeepSeek не плох. Немного глюкавит, но это можно и ручками поправить.
Ну а теперь как именно всё это использовал:
Всем нейросеткам дал один и тот же запрос на написание рассказа. И по субъективным результатам, Соннет выиграл. После чего я в нём же запросил ещё пачку рассказов продолжений. Ибо довольно интересно получилось. Когда дошёл до лимита общения в Соннете, все рассказа собрал в один вордовский документ и стал его скармливать остальным сеткам и требовать продолжения.Qwen всё так же предложил лишь темы для рассказов. ChatGPT в принципе выдал рассказ похожий на запрашиваемое, но пример того, что я от него получил я уже привёл выше. Поэтому я его забраковал. А вот Дипсик показал себя очень даже хорошо. Совсем немного не дотянул до Соннета, но тем не менее, после небольших правок, текст вполне читабельный.
Сегодня сайт ChatGPT занимает 6-е место в мире по посещаемости
ChatGPT долгое время чувствовал себя на вершине мира. После запуска в ноябре 2022 года он набрал 100 миллионов пользователей всего за два месяца, став самым быстрорастущим потребительским приложением в истории. Сегодня его сайт занимает 6-е место в мире по посещаемости (см. скриншот выше от Similarweb), а месячная аудитория превышает 300 миллионов человек. Такой успех позволял OpenAI устанавливать жёсткие условия: платные подписки по $200 в месяц, обязательная регистрация с номером телефона, постоянные лимиты. В общем, чувствовалось, что выбора у пользователей особо не было
Но ситуация резко изменилась, когда на арену вышли китайские игроки: DeepSeek, Kimi, Moonshot, Qwen и другие. Эти ИИ либо не уступают ChatGPT в качестве, либо имеют минимальные отличия — зато предлагают меньше ограничений, бесплатный доступ и простую регистрацию
Результат? Сэм Альтман за один день делает сразу несколько громких заявлений, которые сулят пользователям ChatGPT массу выгод:
- Deep Research станет доступен даже для бесплатных пользователей — 2 запроса в месяц, а у подписчиков Plus будет 10. Deep Research от ChatGPT помогает каждому быстро находить нужную информацию и анализировать её, делая сложные исследования, презентации, отчеты доступными даже для тех, кто не является экспертом
- GPT-5 появится через несколько месяцев и объединит "рассуждающую" серию о-моделей с классическим GPT. Теперь он будет применять логику по мере необходимости
- GPT-5 будет бесплатным для всех. А подписчики Plus и Pro получат доступ к продвинутым режимам
- GPT-4.5 выйдет в ближайшие недели. Это будет последняя версия модели без "рассуждений”
- OpenAI меняет подход — теперь вместо отдельных моделей будет единая интеллектуальная система. Альтман прямо говорит: "Мы ненавидим выбор моделей так же, как и вы, и мечтаем вернуть волшебное единство интеллекта"
Конкуренция творит чудеса. Ещё вчера OpenAI диктовал условия, а сегодня раздаёт премиальные функции бесплатно. И если китайские ИИ продолжат давить, кто знает, какие ещё бонусы нас ждут
О возможностях AI и применении новых технологий в жизни и бизнесе я пишу в своём Telegram-канале: https://t.me/+c3QCiWl3qfEwYzFi
Недавно публиковал здесь баттл между 14 моделями ИИ по простому промпту генерации гоночной трассы. Но за прошедшую неделю вышло сразу два "убийцы DeepSeek". Поэтому проводим внезапный финал. Берем полюбившегося кита DeepSeek R1, усложняем задачу и сталкиваем его лбами с новыми массовыми топами.
ФИНАЛИСТЫ
В правом углу ринга в красных трусах - еще один китаец Qwen-2.5 Max, вышедший в начале недели. В левом углу тяжеловес в синих трусах - o3-mini, которую раскатил OpenAI на бесплатные тарифы буквально вчера, да еще и с функцией раздумывания. Ответ Альтмана китайцам. И вот всех их кидаем против победителя прошлого теста DeepSeek R1
ЗАДАЧА
Так как у нас одни финалисты и топы, то задача существенно усложнена. Теперь надо не просто сгенерировать гоночный трек, а с первой же попытки добиться, чтобы:
🎲 По этому треку двигалась машинка (сама после нажатия на кнопку START).
🎲 Если она выходит за пределы трека, то цвет машинки меняется с зеленого на красный, а ее скорость падает (аля выезд на траву).
🎲 У машинки должны быть параметры скорости разгона и торможения.
Это уже менее субъективный тест. Меньше предлагаем додумывать, больше делать. Есть четкий критерий - двигается ли машинка, может ли она двигаться постоянно по треку? Поехали!
QWEN-2.5 MAX
Все грустно. Трасса не получилась. Машинка при старте не появляется. Провал, смысла останавливаться нет.
DEEPSEEK R1
Красивое... Но и все на этом. Машинка появляется (зеленый треугольник), но устремляется сразу уверенно за пределы трека и экрана, после чего с ошибкой закрывается. Сама машинка за пределами трека красной не становится, как было в условиях.
Да, дипсик опять смог в плавные повороты (единственный, кстати). Как-то интересно обработал пересечения. Но с этим и работать дальше будет сложно.
Думал, кстати, он целых 6 минут!
CHAT GPT O3-MINI
Это новая модель OpenAI, доступная со вчера на бесплатных тарифах. Пока с отключенной функцией раздумывания.
Здесь понятный трек. Есть линия старта-финиша. При этом трасса всегда одинаковая, а не случайно генерируемая. Но, главное, машинка, как и в случае выше устремляется за пределы трека и экрана (тоже не становится красной за пределами). Правда, после этого не падает с ошибкой.
CHAT GPT O3-MINI (R)
А тут уже модель OpenAI c включенной функцией раздумывания. И она оказалась безусловным лидером! Единственная модель, для которой был смысл показать видео
Смогла обеспечить движение машинки по траектории.
Сделала корректный переход в красный цвет за пределами трека, и обратно
Умеет возвращаться на трек при вылете
Огрехи тоже есть: почему-то разомкнутая трасса, и она очень примитивная, просто кольцо. Но по сравнению с плюсами это мелочи. Дальше с этим работать точно можно.
ИТОГО
Места для меня распределились так
🏆 1 место - ChatGPT o3-mini (R). С отрывом! У единственной модели все работает и все понятно.
2 место - ChatGPT o3-mini (без функции раздумывания). Что-то попыталась, но хотя бы не вылетает с ошибкой
3 место - DeepSeek R1. Примерно, как предыдущая, но за вылет при выходе машинки за экран, сместил вниз. Впрочем, R1 снова проявил свои творческие способности, сделав красиво 🤗
Без места - провалился Qwen-2.5 Max, ничего путного он не сделал.
ВЫВОДЫ
OpenAI не сотрясает воздух зря, получилось круто. Но если бы не успех DeepSeek, увидели бы мы так скоро эту модель на бесплатных тарифах?
☝️ В общем, новый ChatGPT o3-mini (R) советую попробовать, особенно для усложненных задач. Он доступен на бесплатном тарифе, не забудьте нажать там Reasoning.
Плюс очень крутой холст (тулза Canvas) у OpenAI
Запуск наложен сверху просто, это не запуск со стороны холста
Кодить с этим холстом гораздо-гораздо удобнее. Но с накоплением истории стабильность работы холста, к сожалению, падает. Ждем дальнейшего улучшения.
БОНУС: СРАВНЕНИЕ РАЗМЫШЛЕНИЙ CHAT GPT и DEEPSEEK R1
OpenAI не торопится показывать нам подробные рассуждения, а просто логирует действия свои. Всего затрачено 16 секунд на рассуждения.
Вот DeepSeek себя не ограничивает и шпарит мыслями. Это забавно и подкупает, иногда полезно, чтобы поправить промпт или узнать что-то новое. Но настолько ли эффективно? В этом тесте есть преимущество у OpenAI.
Но DeepSeek остается открытым и бесплатным, меняет рынок, энтузиасты уже разворачивают его у себя (причем речь не сильно порезанных 8B и прочих), вместо GPU юзая оперативку, что очень удешевляет требования по железу (видел конфиги за $6K) и сильно снижает энергопотребление.
Следим за прогрессом дальше. Январь получился очень насыщенным!
Мой канал в TG: @it_sabat — пишу там, как запускаю стартап.