Поведение разных моделей при вайбкодинге⁠⁠1

Это стоит обсудить на фоне прошлого того, как Cursor попытался сделать хитрый финт, чтобы собрать кучу денег с подписчиков, но у него не получилось.
По сути, у нас не так-то много качественных вариантов.

Claude Opus 4 — это царь. Но самый дорогой. Есть вариант thinking.

• Он умеет планировать, дебажить и работать над сложными задачами.

• Ему лучше всего давать какую-то комплексную задачу или список задач.

• Стоит сразу указать файлы и папки, с которыми ему предстоит работать + добавить нужное в контекст, хотя в целом он сам неплохо ищет — просто каждый поиск стоит денег.

• Он доведёт список задач до самого конца, попытавшись максимально точно разложить задачу. Идеально — если у него ещё и таск-лист есть.

• При этом он хорошо следует инструкции и редко добавляет отсебятину.

• Контекст — до 200 тыс. токенов.

Claude Sonnet 4 — это рабочая лошадка. Недорого и всё ещё хорошо. Есть вариант thinking.

• Он умеет работать над достаточно сложными задачами, неплохо дебажит, хотя иногда не может найти первопричину.

• К нему применимы все те же советы, что и к Opus. Он также старается довести дело до конца. Просто немного поглупее. Однако это можно считать базовой моделью для любой разработки.

• Также достаточно редко добавляет отсебятину. Любит тестировать результат и очень любит создавать отчёты-гайды.

• Контекст — до 200 тыс. токенов.

GPT-o3 / o3 pro — снайпер. o3 — стал на уровне Sonnet по цене, а o3 pro — как Opus. Обе — только thinking.

• Планирует плохо. Превосходно дебажит: если Claude не справляется и ходит кругами — o3 может помочь. Создаёт новые фичи неплохо, но чересчур лаконично.

• Поставишь ему несколько задач — а он часто вместо того, чтобы выполнить их за 1 запрос, делает по 1 запросу на каждую. Это неудобно и дороже.

• Когда не нужно, чтобы модель что-то додумывала — o3 подходит идеально. Она даже рассуждения свои не показывает, только отчёт в конце.

• С её помощью всё ещё можно создавать что-то, хотя и менее эффективно. Она в среднем глупее Claude.

• Контекст — до 200 тыс. токенов.

Gemini 2.5-pro — это стратег. По цене достаточно дешёвый. Только thinking.

• Очень хорошо планирует — с ним можно обсуждать будущий функционал. Из-за того, что он графоманит, получается очень подробный план или классное многостроннее обсуждение. Он старается учесть всё. Но это и его недостаток.

• Он плохо находит реальные баги и во многих местах пытается лишний раз перестраховаться.

• При создании фичей постоянно додумывает и создаёт лишний код, который его не просили.

• Считаю его не очень эффективной моделью для написания кода, но для планирования или анализа кодовой базы — очень хорош!

• Контекст — до 1 млн токенов.

Grok-4 code — перспективный новичок. По цене как Sonnet. Thinking-модель.

• Только-только появился, показал себя только чуть лучше остальных только в кодинге 2д/3д игры

• В целом можно использовать как рабочую модель наравне с Sonnet, но на мой взгляд у него меньше системности.

Контекст - 256 тыс токенов

Я не буду говорить про DeepSeek R1/v3.1, GPT-4.1, Codestral и других — они тоже неплохие, но даже до Gemini по качеству не дотягивают. Их можно использовать только в несложных задачах.

Ещё только-только вышла Kimi-2 - вроде бы и опен-сорс, и дешёвый, но пока вокруг него не так много сложенного опыта от коммьюнити.

А какой у вас опыт в этом?

--

Мой тг-канал по ии-стартапам и вайб-коду

5.2K постов11.6K подписчика

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

1 пост-ответ

от iimmoorr

Смотреть

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества