nick.soloview

nick.soloview

Cоснователь Avato AI/ BeSales (стартапы такие), интересы: вайб-кодинг, ии-агенты, mindfulness Мой тг канал https://t.me/oh_my_zen
Пикабушник
Дата рождения: 28 мая
275 рейтинг 10 подписчиков 13 подписок 51 пост 3 в горячем
103

Правила генерации в Veo3 опытным и непростым путём (чтобы сделать вот такую смешинку)

Вчера я сел попробовать Veo3, самую крутую видео-нейросетку на данный момент, и сделал mindfulness-смешинку выше.

Доступ к Veo3 я получил очень просто — у меня был американский Google-аккаунт, и он разрешил оформить триал на тариф за $20.

И вот я стал счастливым обладателем 10 генераций. Кстати, интересно: когда через интерфейс Gemini я использовал все 10 кредитов, он сообщил, что новые лимиты появятся только 31 мая. Надеюсь, это не шутка.

Какие правила я выделил:

1️⃣ Даже в консоли Gemini промпт пишем на английском, но прямую речь в кавычках можно писать на русском языке. Так и пишем:

...(he/she) says in Russian: «....»

Тогда речь действительно будет на русском. Также можно добавить надпись на русском (как я сделал на видео с надписью «СССР»).

Кстати, английский язык генерируется гораздо лучше русского.

2️⃣ Помните, что видео может быть максимум 8 секунд, и с прямой речью работает только text-to-video. То есть нельзя загрузить картинку, чтобы она заговорила. А ещё, если вы захотите продолжить генерацию, то там будет уже Veo2, а не Veo3. В общем, используйте свои 8 секунд аккуратно. Если нужен тот же персонаж, точной копии не будет — придётся максимально подробно описывать его заново, чтобы хотя бы был похож.

3️⃣ Важно: если хотите прямую речь или пение, не прописывайте персонажу никаких действий кроме says или sings. Иначе он начнёт совершать действие (например, брить мужика как ниже), но не заговорит (с английской речью тут попроще).

4️⃣ Можно указать каждую деталь: музыку, шумы, акценты, эмоции. Промпт может быть большим, но учитывайте, что всё это должно уложиться в 8 секунд. А ещё имейте в виду, что не больше половины запросов генерируется без галлюцинаций. Вот пример. Просто внезапно она перевела мою русскую речь на английский.

5️⃣ Можно делать акценты! Например, на втором видео был грузин, которому я прописал русский язык с грузинским акцентом. Без аудио тоже иногда генерится, просто нет звука. И пожаловаться некому ( В общем 30% только нормального результата.

6️⃣ Пишите цифры словами для правильного произношения, а также не используйте тире — иначе ваш персонаж может случайно матюкнуться, как это произошло с моим милиционером.

Итогом, сделать видео в veo3 заняло около часа)

пожалуй всё, ещё два-три месяца, и это действительно будет уже продакшн-уровень для фильмов. Главное, чтобы цена снизилась, а то 8 секунд стоит 200-300 рублей)

== Но я не успокоился, и решил всё адаптировать под вертикальный формат.

Но как это сделать, когда у меня 16 на 9 видео?

1️⃣ Идём в RunwayML (http://runwayml.com/), выбираем "создать сессию", а затем выбираем Gen-3-Alpha-Turbo

2️⃣ В менюшке справа, которая состоит из 4 значков, выбираю последний — Expand video

3️⃣ Загружаю видео и расширяю границы куда надо — из рилса также можно сделать горизонтальный формат. А далее ввожу промт — там просто описываю, что мне надо или не надо видеть. Коротенький, типа "минималистичная улица, без надписей"

4️⃣ Чтобы совсем хорошо было, у готовой генерации снизу нажимаю 4к, и получаю видео в соотвествующем качестве! Тогда и увеличивать можно не боясь как я вот тут сделал.

Результат вот такой получается:

P.S. Звук оригинальный остаётся, можно не бояться.

P.P.S. Шутки написал не я, а Claude 4 sonnet ) Он ограниченно бесплатный с VPN)

Если будет настроение - заходите в мой тг канал, там тоже всякую практику из своей работы даю по вайбкодингу, автоматизации и вот таким вот штукам выше

Показать полностью 4
1

Veo 3.1 — Google снова вырывается вперёд

Сразу выкатили и Quality модель, и её Fast вариант. По ценам — 100 и 20 токенов за 8 секунд. При этом даже без подписки во Flow можно получить 100 токенов для теста.

Чем они отличаются от прошлой версии?

1) выше качество картинки и звучания, лучше консистентность, лучше воспринимает промпт-повествование и даёт более кинематографичную картинку, если попросить. посмотрите видео с оленем или девушкой. Это вам не кипящая Sora, это супер-детализация.

2) можно использовать 1 и последний фреймы. То есть теперь можно создать 1 кадр, изменить его в нано-банане или seedream, и всё это отдать Veo

3) если в промпт добавить слова о музыке — получается очень красивая сопутствующая мелодия

4) появился Ingredients to Video со звуком. Это про возможность добавить несколько вещей или персонажей в качестве референсов. В результате — все они на одном видео и со звуком

5) Scene extension позволяет увеличивать длительность ролика до минуты и более — именно с той же veo3.1 в той же стилистике, а не с veo2, как было раньше.

Модель уже есть в fal.ai, replicate, adobe firefly и других интеграторах. Цены в них остались почти теми же, что и при veo3

--

Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью 3
1

Вышла Character Reference функция у ideogram.ai

и это стоит отдельного поста

1) доступен ограниченно бесплатно, дают 10 раз попробовать этот новый режим. А а далее это входит в обычную подписку за 20 долларов.

2) что это вообще такое? Это фактически перенос лица, лора по 1 фото. Работает кратно лучше, чем у Midjourney или Runway. На голову выше gpt-image или flux kontext. Всё ещё уступает обычной тренировки лоры из 10+ фото (ну потому что она просто не знает вас с разных сторон), и далеко не всегда 100% похожесть (на фото 4 шея у меня длинная слишком, а на фото 5 я на себя неидеально похож, зато Никулин вышел отлично!). Но если выбрать фотографию, где лицо близко или селфи, тогда и качество переноса будет выше. Но с селфи результаты чуть хуже.

3) Лучше описать побольше информации в промпте или использовать magic prompt функцию от самого ideogram. Описывать в промпте положение тела. Иначе фото почти 1-в-1 как было до этого, только фон и одежда поменялись (вот как раз фото, где я с длинной шеей)

4) Причёску поменять сложно (так как лицо вырезается вместе с волосами), а вот выражение лица меняется хорошо, и в целом выглядит гармонично. Можно добавить улыбку, закрыть глаза и многое другое (Себе закрыл глаза, Никулину — добавил улыбку)

5) Учитывайте, что вырезается только лицо! Тело ideogram не запоминает, поэтому ему нужно подробно описать ваше телосложение, иначе он может сделать вас так, как сам считает нужным

6) Есть возможность добавить ваше лицо на референс (то есть другую фото, прям выделить голову нужно). Но тут уже будет выглядить немного курьёзно, если телосложение не ваше + это доступно только по подписке (фото 7 из видео-разбора человека, у кого есть подписка, верхняя часть в меме)

7) По API пока не доступно

В общем, советую протестировать, классный инструмент. Очередной шаг вперёд)


Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью 7
1

Итак, Qwen 3

Сперва про Qwen3-235B-A22B-Instruct-2507-FP8

Это не просто апдейт: теперь Qwen отказывается от гибридных моделей, разделяя их на отдельные линии — Instruct и Reasoning. Сегодня у нас Instruct, reasoning будет позже.

Что нового и почему стоит обратить внимание?
* Метрики отличные: по ряду тестов обходит даже Kimi K2 (qwen такая же послушная, но более креативная), на некоторых задачах превосходит Claude 4 Opus (non-thinking), а цена в десятки раз меньше
* Большой прирост на ARC-AGI, лучше понимает инструкции и умеет держать хороший контекст — до 262K токенов.
* Цена как у самых маленьких моделей: $0,12/M input, $0,59/M output (уже есть в OpenRouter)
* Креативность сохраняется даже на низкой температуре, хорошо держит промпт и не уходит “в сторону”, как это бывает у конкурентов — очень хорошо подходит для ИИ-агентов. Причём это китайская модель, и она хорошо понимает азиатские языки — лучше, чем gpt
* Прямо сейчас можно использовать через chat.qwen.ai и openrouter.ai

🟠 HuggingFace
🟠 ModelScope

---
• Qwen3-Coder — мощный конкурент Claude Code

Это полноценная open-source кодовая модель на 35B активных параметрах, с контекстом до 1M токенов (наконец-то конкурент Gemini!). Но при этом также стоит копейки — $1/M input и $5/M output, это дешевле gpt-4.1
Но пока что тоже не думающая. Ждём вариант thinking, чтобы повысить планирование и багфиксинг.
В бенчмарках — на уровне Sonnet 4, иногда даже Opus. Работает бесплатно через Qwen Chat: можно грузить кодбазу, использовать CLI, интегрировать в свои пайплайны.
— Также работает и через openrouter.ai (а значит можно использовать в Cline, Kiro, RooCode)
GitHub
HuggingFace
В целом Qwen уверенно выходит в топ-3 самых интересных open-source LLM прямо сейчас. Если нужен рабочий “мозг” для агента или автоматизации, советую не пропускать. Меня лично очень порадовало, особенно обычный qwen-3


Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью 4
1

Как мне заблокировали учётки OpenAI

В пятницу поздним вечером я общался с ChatGPT о квантовой физике, чёрных дырах, могут ли быть сознание или душа у роботов, киборгов, клонов. Очень редко так делаю, но тут целый час общался с ним по этому поводу, как-то прям увлекло после сериалов «Основание» и «Чёрная материя» (кстати, кто не смотрел — рекомендую).

Дальше ложусь спать, а утром письмо счастья — вы делали «дистилляцию», так что по нашим условиям мы блокируем ваш персональный аккаунт и заодно корпоративный (вдруг вы негодяй?).

В общем, на основе моего диалога о вечном то ли алгоритмы, то ли какой-то горе-безопасник решили, что я обучаю свою собственную модель через обычный интерфейс ChatGPT, как когда-то сделал DeepSeek.

Чат-саппорт меня отправил писать письмо на специальный email. Я это сделал, конечно, причём дважды, но вот уже почти 2 дня нет ответа. А ведь заблокировали мой корпоративный аккаунт с балансом!

Казалось бы — просто заведи ещё один, но ведь там нужно проходить верификацию, чтобы получить доступ к GPT-Image или GPT-o3, которые я использую в своих продуктах. А если у тебя только паспорт РФ или Беларуси, то ты не можешь верифицироваться. Я тут нашёл выход, помог друг, но всё же это только повезло, что в окружении есть друзья с не-РФ паспортом, которые доверяют.

Из чего я делаю выводы:

1) Персональный и корпоративный аккаунты не должны быть на одном email.

2) Желательно иметь два верифицированных корпоративных аккаунта с «раскачанными» лимитами.

3) На аккаунте не стоит хранить большой баланс (тут меня Бог уберёг).

Думаю, что это работает также в отношении Claude, Gemini, Grok.


Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью
1

Прорыв в ИИ-фотосессиях! (Ведь так?)

На прошлой неделе Higgsfield выпустили модель Soul, которая позволяет тренировать лоры (то есть донастройки модели под конкретный объект — будь то человек или стиль), и кажется, они действительно лучше лор flux, stable diffusion или hidream.

Коротко про старые варианты:

Stable Diffusion — старичок, мы его знаем ещё с 2022 года. Утратил свои позиции, хотя его лоры могут не уступать flux по качеству. По API сейчас натренировать SD-лору можно мало где, например, на replicate.

• Следом мы узнали про Flux, и возможность его тренировать появилась в августе 2024-го. Это был прорыв на тот момент, и сейчас практически во всех сервисах, что вы знаете, тренировка лоры — это про flux. К тому же недавно появился flux kontext, и он тоже позволяет создавать лоры, но тут уже фокус не на стиле или объекте (персонаже, одежде и т.д.), а на редактировании фото. Например, лора, которая делает на любом фото человека большую голову.

• В этом году, месяца 3–4 назад, появился Hidream — по качеству он обходит Flux, но ненамного, поэтому большого распространения не получил. Есть на fal.ai.

Так что, Soul лучший? Так ли это?

1) Да, потому что датасет, на котором Higgsfield сама тренировала свою модель, более стильный и современный. Во Flux, SD, Hidream одежда и образы из нулевых и 10-х (если не миксовать лоры — но это снижает точность обеих). В Higgsfield — новинки моды, классные ракурсы, необычный свет, в общем, как Midjourney завещал.

2) Да, потому что получается больше фотореалистичности + есть необычные пресеты из коробки.

3) Нет, потому что для хорошего результата нужно от 20 фото, а во Flux результат можно получить даже при 3–4 фото.

4) Нет, потому что это закрытая модель, нет возможности скачать лору, настроить её под себя, подстраховаться на случай, если Higgsfield заблокирует или внезапно поднимет цену вдвое.

Но я бы не начал этот пост, если бы не было ещё одного интересного варианта.

Модель Wan 2.1 изначально задумывалась для тренировки лоры под видео. На сервисах типа fal.ai вы Wan только в такой ипостаси и увидите.

Но на Reddit люди вдруг стали находить, что если тренировать Wan на 10 изображениях, можно получить поразительное качество и необычную детализацию. Она лучше сохраняет анатомию, и подходит в том числе для разных стилей (типа анимэ, pixar и так далее). Скорее всего, там тоже не будет одежды из 2020-х, но в балансе качество/цена/скорость Wan выигрывает у всех остальных моделей.

Пока что единственный вариант попробовать Wan — это развернуть эту модель самостоятельно через Comfy. Это уровень для продвинутых, но уверен, пройдёт ещё пара недель, и это будет возможно делать и по API.

P.S. Все фото выше — из Wan 2.1 Особенно обратите внимание на фото с рыцарями. Даже в мешанине боя нет ни одной руки, торчащей из воздуха — это очень сложная задача для других text2image моделей.


Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью 8
1

Быстрые вайб-новости

Быстрые вайб-новости

1) Вышло IDE для вайб-кодинга kiro.dev от Amazon
— временно полностью бесплатное использование claude-4-sonnet (!)
— на основе VS code, так что все настройки легко импортируются
— есть режимы планирования и кодинга
— пока только 2 модели, claude-4-sonnet и claude-3.7-sonnet
— большинство функций Cursor тут есть
В общем, пока дают claude-4-sonnet бесплатно, стоит брать

Быстрые вайб-новости

2) В roket.new теперь можно делать не только мобильные приложения, но и веб
— уровень результата похож на lovable
— пока нет ии-агента
— есть удобный вопросник, который помогает определиться с цель/дизайном/фреймворком и т.д.
— дают 1 миллион токенов бесплатно попробовать (и вообще все тарифные планы считаются не в запросах, а в токенах)
— делают CJM-упор на реализацию figma-шаблонов. И с ними действительно хорошо. Без них результат lovable мне нравится чуть больше.

Быстрые вайб-новости

3) Kimi-2 всё больше раскрывается
— пока отзывы о нём только положительные, в том плане, что он работает на уровне claude-4-sonnet
— может параллельно(!) использовать инструменты, что очень интересно с точки зрения не только вайб-кодинга, но и разработки агентских ИИ-сервисов
— работает через библиотеку OpenAI, так что встроить себе очень легко
— конкретно для разработки можно его попробовать через claude code, подменив claude на kimi, а также через Сline, но именно выбрав в качестве провайдера openrouter

--
Загляните в мой тг-канал, где я делюсь инсайтами и лайфхаками по ИИ-разработке, вайбкодингу и генеративке.

Показать полностью 3
2

Поведение разных моделей при вайбкодинге1

Поведение разных моделей при вайбкодинге

Это стоит обсудить на фоне прошлого того, как Cursor попытался сделать хитрый финт, чтобы собрать кучу денег с подписчиков, но у него не получилось.
По сути, у нас не так-то много качественных вариантов.

Claude Opus 4 — это царь. Но самый дорогой. Есть вариант thinking.

• Он умеет планировать, дебажить и работать над сложными задачами.

• Ему лучше всего давать какую-то комплексную задачу или список задач.

• Стоит сразу указать файлы и папки, с которыми ему предстоит работать + добавить нужное в контекст, хотя в целом он сам неплохо ищет — просто каждый поиск стоит денег.

• Он доведёт список задач до самого конца, попытавшись максимально точно разложить задачу. Идеально — если у него ещё и таск-лист есть.

• При этом он хорошо следует инструкции и редко добавляет отсебятину.

• Контекст — до 200 тыс. токенов.

Claude Sonnet 4 — это рабочая лошадка. Недорого и всё ещё хорошо. Есть вариант thinking.

• Он умеет работать над достаточно сложными задачами, неплохо дебажит, хотя иногда не может найти первопричину.

• К нему применимы все те же советы, что и к Opus. Он также старается довести дело до конца. Просто немного поглупее. Однако это можно считать базовой моделью для любой разработки.

• Также достаточно редко добавляет отсебятину. Любит тестировать результат и очень любит создавать отчёты-гайды.

• Контекст — до 200 тыс. токенов.

GPT-o3 / o3 pro — снайпер. o3 — стал на уровне Sonnet по цене, а o3 pro — как Opus. Обе — только thinking.

• Планирует плохо. Превосходно дебажит: если Claude не справляется и ходит кругами — o3 может помочь. Создаёт новые фичи неплохо, но чересчур лаконично.

• Поставишь ему несколько задач — а он часто вместо того, чтобы выполнить их за 1 запрос, делает по 1 запросу на каждую. Это неудобно и дороже.

• Когда не нужно, чтобы модель что-то додумывала — o3 подходит идеально. Она даже рассуждения свои не показывает, только отчёт в конце.

• С её помощью всё ещё можно создавать что-то, хотя и менее эффективно. Она в среднем глупее Claude.

• Контекст — до 200 тыс. токенов.

Gemini 2.5-pro — это стратег. По цене достаточно дешёвый. Только thinking.

• Очень хорошо планирует — с ним можно обсуждать будущий функционал. Из-за того, что он графоманит, получается очень подробный план или классное многостроннее обсуждение. Он старается учесть всё. Но это и его недостаток.

• Он плохо находит реальные баги и во многих местах пытается лишний раз перестраховаться.

• При создании фичей постоянно додумывает и создаёт лишний код, который его не просили.

• Считаю его не очень эффективной моделью для написания кода, но для планирования или анализа кодовой базы — очень хорош!

• Контекст — до 1 млн токенов.

Grok-4 code — перспективный новичок. По цене как Sonnet. Thinking-модель.

• Только-только появился, показал себя только чуть лучше остальных только в кодинге 2д/3д игры

• В целом можно использовать как рабочую модель наравне с Sonnet, но на мой взгляд у него меньше системности.

Контекст - 256 тыс токенов

Я не буду говорить про DeepSeek R1/v3.1, GPT-4.1, Codestral и других — они тоже неплохие, но даже до Gemini по качеству не дотягивают. Их можно использовать только в несложных задачах.

Ещё только-только вышла Kimi-2 - вроде бы и опен-сорс, и дешёвый, но пока вокруг него не так много сложенного опыта от коммьюнити.

А какой у вас опыт в этом?

--

Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью
7

Фишки Cursor - как сделать работу с ним дешевле и эффективнее?

Фишки Cursor - как сделать работу с ним дешевле и эффективнее?

Многие используют Cursor, не зная, на что он на самом деле способен. Будем идти от простого к сложному.

1. Самое простое, что позволит улучшить работы с Cursor — это использовать Cursor Rules

Что это даёт?

- Cursor лучше кодит, делает это по вашим правилам.

- Можно настраивать разные правила для разных файлов/директорий.

По сути это дополнение к системному промпту, где вы делаете тонкую настройку один раз.

Документация здесь.

А тут отличные заготовки для правил

2. Включайте сразу несколько ИИ-агентов

В Cursor можно открыть 3 вкладки, где параллельно будут работать 3 ИИ-агента (это максимум). Единственное что - контролируйте, чтобы они они не использовали дни и те же файлы — могут перезаписать или удалить результаты работы другого агента, так что им нужно давать изолированные задачи.

Дополнительно можно ещё использовать фонового агента, который работает на серверах Cursor, и будет выполнять задание на основании вашего кода в репозитории. А потом все его результаты можно отправить в репозиторий или локально, однако он работает за дополнительную плату (Price-based)

Можно даже открыть второй Cursor, и запустить работу ещё там (особенно если работа ведётся с кардинально разными репозиториями), но это не очень удобно с точки зрения переключения между ними.

3. Кладите связанные репозитории в 1 папку и открывайте её в Cursor

Допустим, у вас есть бэкенд, фронтенд и ещё микросервис для управления подписками. Если вы поместите их в 1 папку и откроете её в Cursor, то он сможет ходить между ними и делать согласованный код. Допустим, он может сразу сделать контроллеры на бэкенде и api для них на фротнтенде.

4. Cursor Используйте Traycer или Task-master для планирования задач

Первый работает как расширение для Cursor/Windsurf, и по нашей просьбе шерстит весь код и делает план для реализации функции. Я потом кладу это в tasks.md и прошу Cursor следовать плану и отмечать сделанное.

Второй запускается только через терминал, для него требуется готовый. PRD, однако он сразу создаёт нам Cursor Rules, документацию, и далее очень чётким хранилищем памяти по задачам. Говоришь Cursor обращаться к task-master, и далее Cursor очень и очень стабильно ходит, следуя плану. Единственный минус - не очень удобно настраивать + это больше подходит для проектов с нуля.

5. Используйте Code Web chat

Допустим, вы хотите пообсуждать какой-то модуль с Claude Opus или Gemini Pro на сайтах. Но постоянно копировать файлы — неудобно. Для этого подойдёт. Расширение Code Web chat, которое позволит выбрать файлы / папки и копировать их единым контекстом. А дальше вставить это в вебе и использовать для общения с нейроками.

6. Делайте авто-ревью кода

Во-первых, к Курсора появился Bugbot, который пока что входит в любую подписку. Во-вторых, есть ещё более крутое решение - CodeRabbit. Он работает и в Github, и как расширение Cursor. После каждого коммита он проверяет, что сделано, даёт обратную связь по багам и рефакторинг, показывает, как теперь работает код и даже даёт готовые команды для Cursor, которые правят баги. Я считаю, это must-have, если ты используешь ИИ для разработки, второе ИИ не пропустит баги.

7. Используйте MCP-сервера

Официальные от Cursor тут или большая подборка тут

Например, очень хороши Context7 (тут куча документаций) или 21st.dev (компоненты для фронтенда)

Это расширяет возможности Cursor — он обращается к ним и получает доступ актуальным документациям, которые он не знает, получает возможность управлять Figma, расширяется его память и так далее.

--

Мой тг-канал по ии-стартапам и вайб-коду

Показать полностью
Отличная работа, все прочитано!