Поведение разных моделей при вайбкодинге1
Это стоит обсудить на фоне прошлого того, как Cursor попытался сделать хитрый финт, чтобы собрать кучу денег с подписчиков, но у него не получилось.
По сути, у нас не так-то много качественных вариантов.
Claude Opus 4 — это царь. Но самый дорогой. Есть вариант thinking.
• Он умеет планировать, дебажить и работать над сложными задачами.
• Ему лучше всего давать какую-то комплексную задачу или список задач.
• Стоит сразу указать файлы и папки, с которыми ему предстоит работать + добавить нужное в контекст, хотя в целом он сам неплохо ищет — просто каждый поиск стоит денег.
• Он доведёт список задач до самого конца, попытавшись максимально точно разложить задачу. Идеально — если у него ещё и таск-лист есть.
• При этом он хорошо следует инструкции и редко добавляет отсебятину.
• Контекст — до 200 тыс. токенов.
Claude Sonnet 4 — это рабочая лошадка. Недорого и всё ещё хорошо. Есть вариант thinking.
• Он умеет работать над достаточно сложными задачами, неплохо дебажит, хотя иногда не может найти первопричину.
• К нему применимы все те же советы, что и к Opus. Он также старается довести дело до конца. Просто немного поглупее. Однако это можно считать базовой моделью для любой разработки.
• Также достаточно редко добавляет отсебятину. Любит тестировать результат и очень любит создавать отчёты-гайды.
• Контекст — до 200 тыс. токенов.
GPT-o3 / o3 pro — снайпер. o3 — стал на уровне Sonnet по цене, а o3 pro — как Opus. Обе — только thinking.
• Планирует плохо. Превосходно дебажит: если Claude не справляется и ходит кругами — o3 может помочь. Создаёт новые фичи неплохо, но чересчур лаконично.
• Поставишь ему несколько задач — а он часто вместо того, чтобы выполнить их за 1 запрос, делает по 1 запросу на каждую. Это неудобно и дороже.
• Когда не нужно, чтобы модель что-то додумывала — o3 подходит идеально. Она даже рассуждения свои не показывает, только отчёт в конце.
• С её помощью всё ещё можно создавать что-то, хотя и менее эффективно. Она в среднем глупее Claude.
• Контекст — до 200 тыс. токенов.
Gemini 2.5-pro — это стратег. По цене достаточно дешёвый. Только thinking.
• Очень хорошо планирует — с ним можно обсуждать будущий функционал. Из-за того, что он графоманит, получается очень подробный план или классное многостроннее обсуждение. Он старается учесть всё. Но это и его недостаток.
• Он плохо находит реальные баги и во многих местах пытается лишний раз перестраховаться.
• При создании фичей постоянно додумывает и создаёт лишний код, который его не просили.
• Считаю его не очень эффективной моделью для написания кода, но для планирования или анализа кодовой базы — очень хорош!
• Контекст — до 1 млн токенов.
Grok-4 code — перспективный новичок. По цене как Sonnet. Thinking-модель.
• Только-только появился, показал себя только чуть лучше остальных только в кодинге 2д/3д игры
• В целом можно использовать как рабочую модель наравне с Sonnet, но на мой взгляд у него меньше системности.
Контекст - 256 тыс токенов
Я не буду говорить про DeepSeek R1/v3.1, GPT-4.1, Codestral и других — они тоже неплохие, но даже до Gemini по качеству не дотягивают. Их можно использовать только в несложных задачах.
Ещё только-только вышла Kimi-2 - вроде бы и опен-сорс, и дешёвый, но пока вокруг него не так много сложенного опыта от коммьюнити.
А какой у вас опыт в этом?
--
Мой тг-канал по ии-стартапам и вайб-коду

Искусственный интеллект
5.2K постов11.6K подписчика
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан