Недавно публиковал здесь баттл между 14 моделями ИИ по простому промпту генерации гоночной трассы. Но за прошедшую неделю вышло сразу два "убийцы DeepSeek". Поэтому проводим внезапный финал. Берем полюбившегося кита DeepSeek R1, усложняем задачу и сталкиваем его лбами с новыми массовыми топами.
ФИНАЛИСТЫ
В правом углу ринга в красных трусах - еще один китаец Qwen-2.5 Max, вышедший в начале недели.
В левом углу тяжеловес в синих трусах - o3-mini, которую раскатил OpenAI на бесплатные тарифы буквально вчера, да еще и с функцией раздумывания. Ответ Альтмана китайцам.
И вот всех их кидаем против победителя прошлого теста DeepSeek R1
ЗАДАЧА
Так как у нас одни финалисты и топы, то задача существенно усложнена. Теперь надо не просто сгенерировать гоночный трек, а с первой же попытки добиться, чтобы:
🎲 По этому треку двигалась машинка (сама после нажатия на кнопку START).
🎲 Если она выходит за пределы трека, то цвет машинки меняется с зеленого на красный, а ее скорость падает (аля выезд на траву).
🎲 У машинки должны быть параметры скорости разгона и торможения.
Это уже менее субъективный тест. Меньше предлагаем додумывать, больше делать. Есть четкий критерий - двигается ли машинка, может ли она двигаться постоянно по треку? Поехали!
QWEN-2.5 MAX
Все грустно. Трасса не получилась. Машинка при старте не появляется. Провал, смысла останавливаться нет.
DEEPSEEK R1
Красивое... Но и все на этом. Машинка появляется (зеленый треугольник), но устремляется сразу уверенно за пределы трека и экрана, после чего с ошибкой закрывается. Сама машинка за пределами трека красной не становится, как было в условиях.
Да, дипсик опять смог в плавные повороты (единственный, кстати). Как-то интересно обработал пересечения. Но с этим и работать дальше будет сложно.
Думал, кстати, он целых 6 минут!
CHAT GPT O3-MINI
Это новая модель OpenAI, доступная со вчера на бесплатных тарифах. Пока с отключенной функцией раздумывания.
Здесь понятный трек. Есть линия старта-финиша. При этом трасса всегда одинаковая, а не случайно генерируемая. Но, главное, машинка, как и в случае выше устремляется за пределы трека и экрана (тоже не становится красной за пределами). Правда, после этого не падает с ошибкой.
CHAT GPT O3-MINI (R)
А тут уже модель OpenAI c включенной функцией раздумывания. И она оказалась безусловным лидером! Единственная модель, для которой был смысл показать видео
Смогла обеспечить движение машинки по траектории.
Сделала корректный переход в красный цвет за пределами трека, и обратно
Умеет возвращаться на трек при вылете
Огрехи тоже есть: почему-то разомкнутая трасса, и она очень примитивная, просто кольцо. Но по сравнению с плюсами это мелочи. Дальше с этим работать точно можно.
ИТОГО
Места для меня распределились так
🏆 1 место - ChatGPT o3-mini (R). С отрывом! У единственной модели все работает и все понятно.
2 место - ChatGPT o3-mini (без функции раздумывания). Что-то попыталась, но хотя бы не вылетает с ошибкой
3 место - DeepSeek R1. Примерно, как предыдущая, но за вылет при выходе машинки за экран, сместил вниз. Впрочем, R1 снова проявил свои творческие способности, сделав красиво 🤗
Без места - провалился Qwen-2.5 Max, ничего путного он не сделал.
ВЫВОДЫ
OpenAI не сотрясает воздух зря, получилось круто. Но если бы не успех DeepSeek, увидели бы мы так скоро эту модель на бесплатных тарифах?
☝️ В общем, новый ChatGPT o3-mini (R) советую попробовать, особенно для усложненных задач. Он доступен на бесплатном тарифе, не забудьте нажать там Reasoning.
Плюс очень крутой холст (тулза Canvas) у OpenAI
Запуск наложен сверху просто, это не запуск со стороны холста
Кодить с этим холстом гораздо-гораздо удобнее. Но с накоплением истории стабильность работы холста, к сожалению, падает. Ждем дальнейшего улучшения.
БОНУС: СРАВНЕНИЕ РАЗМЫШЛЕНИЙ CHAT GPT и DEEPSEEK R1
OpenAI не торопится показывать нам подробные рассуждения, а просто логирует действия свои. Всего затрачено 16 секунд на рассуждения.
Вот DeepSeek себя не ограничивает и шпарит мыслями. Это забавно и подкупает, иногда полезно, чтобы поправить промпт или узнать что-то новое. Но настолько ли эффективно? В этом тесте есть преимущество у OpenAI.
Но DeepSeek остается открытым и бесплатным, меняет рынок, энтузиасты уже разворачивают его у себя (причем речь не сильно порезанных 8B и прочих), вместо GPU юзая оперативку, что очень удешевляет требования по железу (видел конфиги за $6K) и сильно снижает энергопотребление.
Следим за прогрессом дальше. Январь получился очень насыщенным!
Мой канал в TG: @it_sabat — пишу там, как запускаю стартап.