Баттл ИИ в январе 2025 - сравниваем с новым DeepSeek R1

У меня есть простой тест, по которому оцениваю ту или иную модель для своих задач. После выхода нашумевшего R1 решил пройтись этим тестом по основным популярным моделям.

Сам тест представляет собой простой промпт:

Давай с помощью pygame создадим такую игру. Сначала пусть при открытии создается в рамках окна случайная закольцованная траектория — это будет трасса. Она должна полностью помещаться в границы экрана игры.

Критерии оценки:

Код запускается без ошибок и в окне есть попытка что-то отрисовать, это что-то вмещается на экран полностью: +2 балла (считаем, что все необходимые библиотеки установлены у нас)
Трасса похожа на закольцованную: +2 балла
Пересечений нет, при этом траектория не просто окружность: +2 балла
Повороты плавные, а не угловатые: +2 балла
Бонус (у трассы есть толщина, по трассе можно "проехать", есть неожиданные приемы реализации): + 2 балла

Итого, максимум 10 баллов. При этом можно ставить 0.5 - 1 - 1.5, если критерий выполняется только частично.

ДИСКЛЕЙМЕР: Тест субъективен, отражает только мнение автора. Не относитесь слишком серьезно. Это лишь вариант быстрой оценки и сравнения за один промпт.

Итак, поехали! Всем моделям даем одинаковый промпт и одну попытку.

______________________________________________________

LLAMA

llama-3.1-405b-instruct-bf16

Это единственная модель, которая написала имена всех переменных… на русском 😃

llama все переменные написала на русском

И этот 1С-стайл код заработал ) Правда, еще лама забыла импортировать модуль math, пришлось это сделать за нее.

Оценка: 4 из 10

______________________________________________________

MISTRAL

Mistral-large-2411

Тут по результату примерно, как и у предыдущей, но код запустился сразу без посторонней помощи.

Оценка: 4.5 из 10

______________________________________________________

QWEN

QwenMax(0919)

Тут уже интереснее... Пересечений нет, трасса не просто кольцо, хотя конфигурация и простая.

Оценка: 5.5 из 10

______________________________________________________

PERPLEXITY FREE

Perplexity FREE

Задача решена без пересечений, но очень топорно. Просто кольцо. Для NASCAR такой трек пойдет ). Отнимем за второй критерий из трех полученных.

Оценка: 5 из 10

Что там у старшего брата?

______________________________________________________

PERPLEXITY PRO

Perplexity PRO

Когда я это увидел, то посмеялся в голос 🤣 Согласитесь, неожиданный результат. Тем более, что от PRO ждешь улучшения по сравнению с младшим братом, а тут усложнение и полный уход не туда.

Оценка: 2.5 из 10

______________________________________________________

GROK-2

Grok-2-2024-08-13

Модель от Маска. Останавливаемся на первом же критерии, на экран не помещается, но попытка что-то отрисовать есть.

Оценка: 1.5 из 10 💁‍♂️

______________________________________________________

GEMINI 2.0 flash thinking

Gemini-2.0-flash-thinking-exp-01-21

Это новая думающая универсальная модель гугла, но быстрая версия. Кажется, пока flash здесь больше, чем thinking.

Оценка: 3 из 10

Посмотрим более старую их версию - не thinking, но и не flash

______________________________________________________

GEMINI

Gemini-exp-1206

видно попытку придать закольцованность, но ездить по такой трассе, пожалуй, будет хуже даже, чем по предыдущей. Однако попытка засчитана.

Оценка: 3.5 из 10

Попробуем отечественные модели. Одна из российских выдала только белый экран, хотя дал ей три попытки. Называть ее не буду (все же тест может быть не показательным), но в итоговую табличку помещу с 0.5 баллами (за белое окно с попыткой в код). Посмотрим же на ту отечественную модель, у которой что-то получилось

______________________________________________________

GIGA CHAT

Спасибо, что живой. Реально порадовался, что результат какой-то хоть есть. Я с их техлидом, кстати, пообщался на последней AIJ и даже рассказывал про свой тест. Ребята нормальные. Ждем прорывов )

Оценка: 3 из 10

Ну что, остались мэтры и высокие ожидания.

______________________________________________________

CHAT GPT 4o mini

Chat GPT 4o mini

На самом деле этот скрин не отражает реальность. ChatGPT сделал непрерывную генерацию в цикле и выглядит результат примерно так:

При этом, кстати, пересечений нет в каждой из генераций. Работать с этим точно дальше можно

Оценка: 4.5 из 10

Справится ли старший брат?

______________________________________________________

CHAT GPT 4o

ChatGPT 4o

Это пока похоже на лучший результат. Нет пересечений, конфигурация поинтереснее, чем у лидирующего до сих пор Qwen. Но плавности поворотов пока не видим.

Оценка: 6 из 10

Еще есть высокие ожидания от Claude Sonet. Смотрим

______________________________________________________

CLAUDE 3.5 SONNET

Интересный самобытный результат. Очевидно, модель попыталась сделать трассу из двух границ - внутренней и внешней. И почти получилось! Я бы здесь добавил минимум 0.5 бонусного балла по сравнению с предыдущей 4o.

Оценка: 6.5 из 10

Пришло время для темной лошадки, о которой сейчас все говорят - китайской DeepSeek. Сначала простая версия (без рассуждений)

______________________________________________________

DEEPSEEK V3

DeepSeek V3

Хорошо для полностью бесплатной. Без пересечений закольцованная трасса, правда со слишком острым одним поворотом. Но уже можно говорить, что получилось лучше, чем у бесплатного собрата ChatGPT mini (та справилась неплохо, но дала непрерывную генерацию в цикле)

Оценка: 5.5 из 10

Что же покажет думающая версия?

______________________________________________________

DEEPSEEK R1

DeepSeek R1

Та-дааааам. Единственная модель, которая попыталась сама с первого раза сделать плавные повороты. Я впечатлен. Реально DeepThink! Причем больше всех строк кода, целых 95 (против 50-60 в среднем). А еще он показывает процесс размышления, и это, кажется, будет новый тренд в ИИ-чатах

На скрине выше можно увидеть, как он вдруг пришел к плавности трассы во время рассуждений. Это все выглядит очень мило и подкупает. Да, есть артефакты на трассе. Да, конфигурация не очень сложная (за это придется сбавить). Но оно похоже на трек! Первая модель, которая захотела и смогла в плавность. Соберем оценку по критериям:

Запускается, работает, помещается в экран: +2
Закольцованная трасса: +2
Пересечений нет, но конфиг простоват: +1
Повороты плавные, но всегда есть крупный артефакт на одном повороте, что связано с методом генерации: +1.5
Попытка сделать толщину, но с артефактами: +1

Оценка: 7.5 из 10 🏆

______________________________________________________

ВЫВОДЫ И РЕЙТИНГ

На эмоциональном уровне DeepSeek R1 меня уже покорил! Хотя еще, как минимум, понравился Qwen. Говорят, опенсорсные небольшие модели для домашних стендов у них тоже радуют. Ну и выделю, что Claude Sonnet тоже хвалят не зря. Ну а отдельная номинация "Самый веселый и неожиданный результат" отходит Perplexity PRO с его вязанным клубком 😆

Итоговый рейтинг:

А какой результат понравился больше вам? Использовали уже R1?

Мой канал в TG: @it_sabat — пишу там, как запускаю стартап. Из последнего: недавно зарегистрировал компанию, сейчас (на январь 2025) прохожу акселерацию.