Машинное обучение: истории из жизни, советы, новости, юмор и картинки — Все посты, страница 5

0 просмотренных постов скрыто

Avacadasoft

4 месяца назад

Внедрение ИИ в мобильное приложение:минус65% обращений в поддержку и98% точность⁠⁠

1/6

Пользователь теряет телефон дома — поддержки засыпают жалобами, а бренд тратит деньги на операторов. 65 % таких обращений можно убрать, если интегрировать офлайн‑ИИ. Ниже — пошаговый рецепт на базе кейса VegaVoice, который доказывает: голосовое управление без Интернета реально, даже в шуме и с «смятой» речью.
<cut>

Почему бизнес спешит встраивать ИИ
Шаг 1. Ищем боль пользователя
Шаг 2. Собираем стек под реальные условия
Шаг 3. Дизайн, который не бесит
Шаг 4. “Коробка” для B2B‑клиентов
Шаг 5. Метрики после релиза
Что дальше

Почему бизнес спешит встраивать ИИ

по данным Accenture, 75 % покупателей готовы сменить бренд из‑за слабого digital‑опыта.

Смартфоны, банки, умный дом — все борются за лояльность и хотят сокращать расходы на поддержку. Без мгновенного отклика сытые пользователи уходят к конкурентам, а жалобы вырастают в убытки.

Шаг 1. Ищем боль пользователя

Когда смартфон на беззвучном, вопрос «Где ж ты, родной?» всплывает у каждого. Мы опросили 1 200 человек — 82 % теряли телефон дома минимум раз в месяц.

Шаг 2. Собираем стек под реальные условия

Чтобы «Сири, где ты?» работало офлайн и в лай собаки, склеили три слоя:

VAD фильтрует фон.
STT‑модель понимает «мятавую» речь.
Левенштейн + фонетика — ловим неправильные имена.

Шаг 3. Дизайн, который не бесит

Голосовой UX должен быть интуитивным:

Назвал имя — телефон зазвонил.
Меню для кастомного имени и рингтона.
Zero‑battery‑drain: движок “спит”, пока нет речи.

Шаг 5. Метрики после релиза

После продакшна у клиента‑банка:

−65 % тикетов «Не могу найти телефон».
+18 % NPS мобильного приложения.
Снижение нагрузки на call‑центр ≈ 3 FTE.

Что дальше

Протестируй движок в метро и на кухне.
Собери фидбек первых 100 юзеров — поправь wake‑word.
Выбери модель монетизации: лицензия, подписка или white‑label.

Подписывайся и делись своими кейсами внедрения ИИ в мобайл 📲

Внедрение ИИ в мобильное приложение помогло сократить обращения в поддержку на 65 % и повысить точность до 98 % — разбор кейса VegaVoice.

Показать полностью 6

Tornadosky

5 месяцев назад

Логово Программиста

Как я прошёл путь от радиофизики, до работы AI инженером и... до попытки продать свой первый цифровой продукт⁠⁠

Когда-то давно я учился на радиофизика. Да, вот это вот всё: уравнения, матан, физика на стеро... ну вы поняли. Потом жизнь завернула довольно интересно — я переехал в Германию, выучился там на машинное обучение, поработал в нескольких крупных компаниях. Опыт набрался, в резюме всё красиво, проектов в портфолио тоже прилично. Казалось бы — живи, не тужи.

Но в какой-то момент начал замечать, что программирование само по себе — уже не "вау". Даже если ты делаешь какой-то прикольный проект, он почти всегда просто остаётся... в папке. Или на GitHub. Ну максимум — в CV. И всё.

А ведь когда-то я реально делал интересные вещи. Потенциал был, некоторые проекты могли бы перерасти в продукты. Но не перерастали. Почему? Потому что одного кода — мало.

💡 Реализация ≠ результат

Сегодня я чётко понимаю: уметь продать — это отдельный скилл, и он критически важен. Ты можешь быть каким угодно крутым технарём, но если ты не умеешь объяснить, зачем это кому-то, или не можешь хоть как-то донести ценность — твой проект так и останется лежать мёртвым грузом.

Банальный пример: сколько на GitHub лежит офигенных репозиториев, которые никто не знает, никто не использует, и они просто... всё. Есть. Где-то. В интернете.

Именно поэтому я решил поставить себе мини-челлендж: сделать максимально простой, но реально полезный продукт — и попытаться его продать.

💻 Что за идея?

Я сделал ассистента для прохождения технических интервью. Пока фокус на алгоритмических задачках, например, с LeetCode. Работает просто: кидаешь скрин задачи — получаешь помощь. Работает незаметно, даже при шаринге экрана. То есть ассистент не палится. Совсем.

Приложение собрано на Electron.js — чисто чтобы быстрее и проще было запустить. Дальше — посмотрим, как пойдут дела. Может, добавлю поддержку аудио и смогу покрыть все типы интервью — не только тех.

🎯 Почему я это делаю?

Потому что хочу наконец-то не просто сделать проект, а реально превратить его в продукт.
Хочу понять, как работает продажа. Как говорить с потенциальными пользователями. Как упаковывать. Как строить воронку. Короче, выйти из уютного мира кода — в мир живых людей.

Если интересно — могу дальше писать, как идёт путь. Это, знаете, как бизнес-дневник программиста-интроверта. Может, кому-то будет полезно или просто забавно наблюдать, как я сражаюсь с маркетингом и самим собой.

Пожелайте удачи! 🚀

Показать полностью

Стартап Программист Машинное обучение Интервью Продажа IT Разработка Саморазвитие Soft skills Проект Github Фриланс Резюме Карьерный рост

cra3y

5 месяцев назад

Когда уже прекратят представлять LLM как ИИ?⁠⁠

Когда уже прекратят представлять LLM как ИИ?

Это же просто поисковик, выдающий наиболее подходящий по статистике ответ.
Причем выдающий с примесью рандомизации().

Слова превращаются в вектор чисел, а вектор чисел - по сути то же что и изображение.
То есть задача сводится к распознаванию образа.

MNIST, классика.

Ответ всегда вектор. Выбираем N с максимальным процентом. И "бросаем кубик".

Прекратите называть LLM ИИ(Искуственным идиотом).

LLM даже до идиота далеко.

[моё] Искусственный интеллект Машинное обучение Короткопост Текст

oulenspiegel

5 месяцев назад

Охота на электроовец. Большая книга искусственного интеллекта⁠⁠

В прошлом году вышел мой двухтомник об искусственном интеллекте: «Охота на электроовец. Большая книга искусственного интеллекта» (бесплатную электронную версию можно скачать тут).

Сейчас я работаю над вторым изданием, поэтому любые идея/замечания/дополнения приветствуются — пишите в комменты.

Если вам зашла моя книга, то вот вам ещё 10, которые советую прочитать:

1. Cockshott W. P., Cockshott P., Mackenzie L. M., Michaelson G. Computation and Its Limits
2. McCorduck P. Machines who think: a personal inquiry into the history and prospects of artificial intelligence
3. Picard R. W. Affective Computing
4. Zuse K. Rechnender Raum (Calculating Space)
5. О'Нил К. Убийственные большие данные. Как математика превратилась в оружие массового поражения
6. Pasquale F. The Black Box Society
7. Бруссард М. Искусственный интеллект: Пределы возможного
8. Николенко С. И., Архангельская Е. В., Кадурин А. Глубокое обучение. Погружение в мир нейронных сетей
9. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение
10. Расселл С., Норвиг П. Искусственный интеллект. Современный подход

[моё] Искусственный интеллект Машинное обучение Книги Электронные книги Что почитать? Научпоп История науки Текст

tu3.14k

5 месяцев назад

Сказ о том, как исследование ИИ поднимает вопрос методов образования "кожаных" и их концептуальную разницу⁠⁠

Не претендую на истину в последней инстанции и сразу скажу, я не ИИ разработчик, и, даже, не айтишник, и, уж тем более, не педагог. Мне просто интересна эта тема.Наткнулся тут на занимательную статью https://habr.com/ru/articles/889742/. Для ЛЛ - в статье говорится о том, что большие и малые генеративные ИИ, вроде, как равны в своей производительности, при несоизмеримой разнице в расходах на их создание и обслуживание, но есть нюанс... А нюанс заключается в том, что применяемые методы тестирования, не позволяют определить "интеллектуальность" ИИ, именно по причине того, что это все работает в виде тестов, а не реальных ситуаций, которые, часто, и весьма сильно, отличаются от тестовых заданий. И тут у меня, в голове, щёлкнуло - "Мать моя женщина - это ж, как сравнение ЕГЭ и советской системы образования!" Где разница заключается в том, что при системе ЕГЭ тебя натаскивают на правильные ответы в рамках теста (а иногда и на угадывание правильных ответов), а советская система, учила думать и делать выводы, на основе всей информации, полученной за время не только обучения, но и жизни. Из этого следует, что "избыточная информация", про которую так сильно плачут адепты Болонской системы, противопоставляя её советской системе, позволяет, даже у ИИ, иметь более осмысленные ответы, а главное, давать ответы, которые не надо перепроверять (вот же новость...). Как-то, в комментариях, я пытался донести зуммеру, что "избыточность информации" это не зло, перегружающее его интеллект, а благо, позволяющее ему оперировать данными, которые не относятся к его нуждам, но, при этом, позволяющие подтянуть данные из смежных областей, способствующие решению поставленной задачи (спойлер - не переубедил 😁). Так что да - не бывает "избыточности информации", вся информация, поступившая в мозг (или ИИ), даёт возможность к мышлению, а исследование и развитие ИИ, только подтверждает опыт предшествующих поколений.

[моё] Образование Искусственный интеллект Люди Машинное обучение Текст

neuroAnn

5 месяцев назад

Как пять нейросетей заменяют целую студию людей⁠⁠

Всё началось с запроса от группы психологов, которые проводят тренинги по профессиональному выгоранию. Они хотели необычную визуализацию для своих корпоративных программ — что-то, что иронично показало бы офисную жизнь и проблемы выгорания.

Мой опыт в продакшене и документальном кино подсказывал, насколько трудоёмким был бы традиционный процесс создания такого видео. С нейросетями появился шанс сделать идею гораздо быстрее, хотя и со своими сложностями.

Как пять нейросетей заменяют целую студию людей Искусственный интеллект, Нейронные сети, Машинное обучение, Дизайн, Работа, Flux, Digital, Арт, Арты нейросетей, Видео, Без звука, Короткие видео, Длиннопост

Эту историю для моего блога рассказал Александр Шаляпин, журналист и медиа-дженералист.

Технологический стек проекта

Claude — для написания текста песни
ChatGPT — для генерации промптов
Suno — для создания музыки
Flux — для генерации фотореалистичных изображений
Runway (включая Act 1) — для преобразования изображений в видео с эмоциями
Minimax — для сцен разрушения офиса
After Effects — для цветокоррекции и монтажа

Работа над текстом и музыкой

Я начал с создания текста будущей песни. Для этого выбрал Claude, который лучше работает с русским языком и поэтикой. Российские нейросети (Яндекс, Сбер) оказались пока не на том уровне качества, который мне требовался.

Claude сгенерировал базовый текст, но результат требовал доработки. Нейросети часто выдают «ванильный» результат — достаточно посредственный, но приемлемый. Я вручную отредактировал текст, улучшил рифмы и смысловую нагрузку.

Получил такой результат:

[ Куплет 1 ]
Серый офис, тусклый свет.
Кофе стынет, сил больше нет.
Цифры, графики, отчет.
Время медленно идет.
[ Припев ]
Выгорание — тотальный стресс.
Где мечта? Где интерес?
Каждый день как вечный круг.
Выдыхаюсь я, мой друг!
[ Куплет 2 ]
Почта битком, дедлайн горит.
Начальник снова в уши ссыт.
Усталость в теле, внутри — пустота.
Все тише шаг, и дальше — мечта.
[ Припев ]
[ Куплет 3 ]
Каждый день здесь как война.
Я не успеваю делать нихрена.
Офисное кресло — мой вечный трон.
Мой титул — офисный планктон.
[ Припев ]
[ Куплет 4 ]
Может завтра изменится что-то вдруг.
Может я найду спасательный круг.
Вырвусь я из офисных оков.
Начну дышать свободно средь новых берегов.
[ Припев ]

После текста взялся за музыку в Suno. Процесс оказался удивительно быстрым — перебрал около 10 вариантов с различными доработками промптов. В некоторых случаях Suno неправильно ставит ударения в словах, но мне повезло избежать этой проблемы. Если бы она возникла, пришлось бы использовать «костыли» — разбивать проблемные слова на части с помощью пробелов или других символов, пока нейросеть не распознает их правильно.

Как я получал фотореалистичные кадры

Следующим шагом стало создание кадров-основ для будущего видео. Здесь я использовал Flux вместо более популярного Midjourney. Выбор был обусловлен тем, что мне требовалась максимальная фотореалистичность, а Midjourney, несмотря на все настройки фотореализма, всё равно привносит художественные элементы.

Flux работает локально на моем компьютере с видеокартой RTX 3090, и научен преимущественно на фотографиях, что давало нужный реалистичный результат. Я сгенерировал множество изображений, основываясь на сценарии, который постепенно складывался в голове.

Чтобы получить хорошее изображение, для Flux нужен детализированный промпт. Пишем не только содержание сцены, но и технические детали съемки: композицию, освещение, глубину резкости и цветовую гамму.

Например, такой промпт использовал для создания девушки с гитарой:

A cinematic mid-body shot in a dimly lit, empty office at night, filled with a cold and desolate atmosphere. The composition is carefully balanced, with the subject positioned slightly off-center. The color grading follows a desaturated, cool-toned palette with subtle blue and green hues, emphasizing the sterile, lifeless corporate environment. The depth of field is moderate, keeping the woman and the guitar in sharp focus while allowing the background to fade into a soft blur. The lighting is moody and directional, with the primary source being a lone desk lamp that casts a focused glow on the subject, creating deep shadows that accentuate the solitude and stillness of the moment. The shot is captured from a slightly low angle, reinforcing a sense of introspection and quiet rebellion. The image has a cinematic grain and a slightly underexposed look, adding to the atmospheric depth. Amidst the vacant desks and muted grey walls, a beautiful young woman sits on an office chair, her posture relaxed yet purposeful as she focuses intently on the sleek black electric guitar in her hands. Her head is tilted down, eyes tracing the movement of her fingers along the fretboard. She wears a crisp white shirt with the sleeves slightly rolled up, a loosened tie, a short skirt, and polished shoes—an intentional contrast against the rigid formality of her surroundings. The soft glow of the lamp highlights the curves of the guitar and the sharp angles of her attire, while the rest of the room dissolves into shadow, amplifying the sense of isolation and quiet defiance.

Перевод:

Кинематографическая съемка в середине тела в тускло освещенном, пустом офисе ночью, наполненном холодной и пустынной атмосферой. Композиция тщательно сбалансирована, объект съемки расположен немного не по центру. Цветокоррекция выполнена в ненасыщенной, холодной тональной палитре с едва заметными синими и зелеными оттенками, подчеркивающими стерильность и безжизненность корпоративной среды. Глубина резкости умеренная, женщина и гитара находятся в резком фокусе, а фон размыт до мягкости. Освещение - угрюмое и направленное, основной источник - одинокая настольная лампа, которая отбрасывает на объект сфокусированный свет, создавая глубокие тени, подчеркивающие одиночество и неподвижность момента. Кадр снят под небольшим углом, что усиливает ощущение самоанализа и тихого бунтарства. Изображение имеет кинематографическую зернистость и слегка недоэкспонировано, что придает ему атмосферную глубину. Среди пустых столов и приглушенных серых стен на офисном стуле сидит красивая молодая женщина, ее поза расслабленная, но целеустремленная, она сосредоточенно смотрит на гладкую черную электрогитару в своих руках. Ее голова наклонена вниз, а глаза следят за движением пальцев по грифельной доске. На ней чистая белая рубашка со слегка закатанными рукавами, ослабленный галстук, короткая юбка и начищенные туфли - намеренный контраст со строгой формальностью ее окружения. Мягкий свет лампы подчеркивает изгибы гитары и острые углы ее наряда, в то время как остальная часть комнаты растворяется в тени, усиливая ощущение изолированности и тихого неповиновения.

Результат:

А вот промпт для создания мужчины на фоне горящего офиса:

A cinematic mid-body shot of a man in a sharp yet slightly disheveled business suit standing confidently in the foreground, hands casually tucked into his pockets. The framing is tight, emphasizing his dominant presence against the backdrop of destruction. His expression is a controlled blend of calm satisfaction and subtle menace, his gaze unwavering as he observes the chaos behind him. The shot is captured from a slightly low angle, reinforcing his authority and detachment from the scene. Behind him, a massive office building is consumed by roaring flames, the fire illuminating the night sky with a dramatic, ominous orange glow. Embers drift through the air, creating a dynamic contrast between movement and his stillness. The color grading is a mix of deep, inky shadows and the intense warmth of the fire, with a cinematic balance between highlights and darkness. The depth of field is moderate—sharp focus on the man, while the inferno behind him blurs slightly, enhancing its surreal, apocalyptic presence.The lighting is high-contrast, with the flickering flames casting long, shifting shadows across his face and suit. His slightly unkempt attire—a loosened tie, an open collar, a few wrinkles in the otherwise tailored fabric—hints at a long night leading to this moment. The composition follows the rule of thirds, placing him slightly off-center to heighten the tension between his controlled demeanor and the unrestrained destruction behind him. The scene is immersive, with a fine cinematic grain adding texture, enhancing the raw, visceral atmosphere of power, detachment, and chaos.

Перевод:

Кинематографический кадр с изображением мужчины в строгом, но слегка растрепанном деловом костюме, уверенно стоящего на переднем плане, с руками, небрежно засунутыми в карманы. Кадрирование жесткое, подчеркивающее его доминирующее присутствие на фоне разрушений. Выражение его лица представляет собой контролируемую смесь спокойного удовлетворения и едва уловимой угрозы, взгляд непоколебим, когда он наблюдает за хаосом позади себя. Кадр снят с небольшого ракурса, что подчеркивает его авторитет и отстраненность от происходящего. Позади него массивное офисное здание охвачено ревущим пламенем, огонь освещает ночное небо драматическим, зловещим оранжевым свечением. В воздухе летают угольки, создавая динамичный контраст между движением и неподвижностью. Цветопередача представляет собой сочетание глубоких, чернильных теней и интенсивного тепла огня, с кинематографическим балансом между бликами и темнотой. Глубина резкости средняя - резкий фокус на мужчине, в то время как инферно позади него слегка размыто, что усиливает его сюрреалистическое, апокалиптическое присутствие. Освещение высококонтрастное, мерцающее пламя отбрасывает длинные, смещающиеся тени на его лицо и костюм. Его слегка неопрятный наряд - ослабленный галстук, расстегнутый воротник, несколько складок на ткани - намекает на долгую ночь, приведшую к этому моменту. В композиции соблюдено правило третей, он расположен немного не по центру, чтобы усилить напряжение между его контролируемым поведением и безудержным разрушением позади него. Сцена захватывает, а мелкое кинематографическое зерно добавляет текстуру, усиливая сырую, вязкую атмосферу власти, отстраненности и хаоса.

Любопытный момент: в клипе присутствует персонаж, немного похожий на меня. Это не случайность — я использовал LoRA, натренированную на моих фотографиях, с уровнем воздействия 0,7 (70%).

Сделал это скорее для забавы, чтобы посмотреть, как бы я выглядел в офисном сеттинге.

Для создания персонажа, похожего на меня, я использовал технологию LoRA (Low-rank adaptation), натренированную на собственных фотографиях. Процесс обучения модели занял около 2 часов на видеокарте RTX 3090.

Тренировка проходила с помощью FluxGym. Для качественного результата я отобрал 15 своих фотографий с разными ракурсами, позами и выражениями лица. Снимки загрузил в FluxGym, где система автоматически создала описания с помощью встроенной функции "Add AI captions".

Модель тренировалась на базе flux-dev с настройками по умолчанию. После завершения процесса я использовал полученный файл .safetensors в Forge, задавая вес воздействия LoRA на уровне 0,7 (70%). Это позволило создать персонажа с узнаваемыми чертами, но не точную копию — идеальный баланс для художественных целей клипа.

При более высоких значениях весов (0,9-1,3) сходство становилось слишком очевидным, а при меньших (0,3-0,5) — терялось среди других визуальных элементов. Эксперименты с разными значениями помогли найти оптимальный баланс между узнаваемостью и художественным замыслом.

Что потребуется для создания своей LoRA

Компьютер с видеокартой от 12 Гб VRAM
10-20 фотографий вашего лица в разных ракурсах и с разными выражениями
ПО: Pinokio, Forge и FluxGym

Как сделать

Установить Pinokio, скачать через него Forge и FluxGym
Запустить FluxGym, ввести название модели и триггер-слово
Загрузить фотографии и запустить тренировку кнопкой "Start Training"
Скопировать готовый файл .safetensors в папку models\Lora вашего Forge
В Forge добавить свою LoRA и триггер-слово в промпт

Оживление картинок и борьба с глюками

Превращение статичных изображений в видео оказалось самым трудоемким этапом. Работа строилась по принципу «картинка в видео» — подаёшь на вход изображение, и нейросеть его «оживляет». Это дает больше контроля, чем прямая генерация из текста.

Для видеогенерации я выбрал подписку Runway за 12 тысяч рублей в месяц с безлимитными генерациями. Ограниченные тарифы с видеогенераторами бесполезны — они пожирают кредиты с ужасающей скоростью из-за многочисленных перегенераций.

Здесь начались настоящие сложности. Нейросети часто галлюцинировали: персонажи с тремя руками, музыканты с лишними пальцами, парящие в воздухе части тел. На фоне офиса появлялись отдельные головы или руки, которые никому не принадлежали.

В среднем каждый 10-секундный фрагмент требовал около 5 перегенераций, чтобы получить приемлемый результат без явных глюков. Иногда приходилось менять исходное изображение или промпты.

Для автоматизации создания промптов я использовал ChatGPT. Загрузил туда гайды от Runway, Minimax и Kling по составлению эффективных промптов, и просил сгенерировать подробные описания для каждой сцены. ChatGPT справлялся отлично, это сэкономило много времени.

Сцена с разгневанным боссом:

A grim office with grey walls, flickering fluorescent lights, and cluttered desks. The furious boss, in a wrinkled suit, leans over an employee, yelling with a document in hand, veins bulging. The employee shrinks in their chair, avoiding eye contact, while coworkers nervously peek over cubicle walls, the tension palpable in the air.

Перевод:

Мрачный офис с серыми стенами, мерцающими флуоресцентными лампами и захламленными столами. Разъяренный босс в помятом костюме склонился над сотрудником, кричит, держа в руках документ, вены вздуваются. Сотрудник съеживается в кресле, избегая смотреть в глаза, а коллеги нервно выглядывают из-за стен кабинок, в воздухе чувствуется напряжение.

Результат:

Как я заставил персонажей «петь» с эмоциями

Особенностью клипа стал качественный липсинк — совпадение движения губ персонажей с текстом песни. Вместо использования специализированных сервисов липсинка, которые часто создают «деревянные» лица без эмоций, я применил интересное решение.

Я задействовал новую на тот момент функцию Runway под названием Act 1. Она позволяет загрузить видеореференс с эмоциями, которые затем переносятся на сгенерированное изображение.

Процесс был прост, но трудоемок: я записал себя на камеру, проговаривая и «проигрывая» текст песни с нужными эмоциями. Затем разбил эту запись на 10-секундные фрагменты (максимум для Act 1) и загрузил их как референсы для каждой сцены с поющими персонажами.

Это заняло время, но результат того стоил — персонажи ожили, выражали настоящие эмоции, сжимали глаза, наклоняли головы, показывая «боль и отчаяние своего положения».

Сцены разрушения и цензура

Интересная проблема возникла при создании финальных сцен, где офис должен был затопиться водой и сгореть — метафора мечты главного героя об избавлении от офисной рутины.

Большинство нейросетей отказывались генерировать сцены разрушения, похоже, из соображений цензуры. Только китайский Minimax позволил реализовать задуманное — затопить и поджечь офис.

Видимо, их цензура направлена на другие аспекты, не включающие разрушение имущества.

А так получил потоп:

A dull, grey office with flickering fluorescent lights and cluttered desks suddenly transforms into chaos as a tidal wave of coffee bursts through the walls, flooding the space. The dark liquid cascades like in a scene from The Shining, sweeping over desks, papers, and panicked employees. Coffee mugs topple, monitors spark, and the once-stifling office is drowned in a surreal, caffeinated deluge, as everyone scrambles to escape the overwhelming flood.

Перевод:

Скучный серый офис с мерцающими флуоресцентными лампами и захламленными столами внезапно превращается в хаос, когда приливная волна кофе прорывается сквозь стены, заливая пространство. Темная жидкость льется каскадом, как в сцене из фильма «Сияние», захлестывая столы, бумаги и запаниковавших сотрудников. Кружки с кофе опрокидываются, мониторы искрят, и некогда тихий офис тонет в сюрреалистическом потоке кофеина, когда все пытаются спастись от непреодолимого потока.

Результат:

Финальная доводка и монтаж

Финальный этап включал работу в After Effects. Я использовал его для цветокоррекции, чтобы привести все кадры к единому тональному балансу, и для монтажа.

Важный момент: все движения камеры (повороты, зумы) я добавлял уже в After Effects, а не на этапе генерации. Это давало гибкость при монтаже — я выбирал, какое движение лучше подойдет для конкретного перехода между сценами, уже видя общую картину.

Итоги проекта

Весь проект в неспешном темпе (около 4 часов работы в день) занял полторы недели. Если сравнивать с традиционными методами съемки, это невероятно быстро — подобный проект занял бы не меньше месяца.

Главной технической задачей было сделать клип, который выглядел бы как обычный стандартный музыкальный видеоролик, а не как экспериментальное «нейросетевое искусство». Для этого я поддерживал единый визуальный стиль, цвета и характеристики персонажей на протяжении всего видео.

К моему удивлению, работа даже попала в шортлист конкурса, хотя я работал один, а не командой как многие другие участники.

Работа с нейросетями — это постоянный баланс между автоматизацией и ручной доводкой. Даже с новыми инструментами хорошее видео требует человеческого глаза и мастерства. Но скорость и доступность поражают — раньше такой клип требовал команду и большие деньги, теперь его можно сделать одному за приемлемую сумму.

Я веду блог «Сегодня без ИИ, а завтра без работы», готовый клип выложила там. Подпишись, чтобы не пропускать новые выпуски!

Показать полностью 4 7

[моё] Искусственный интеллект Нейронные сети Машинное обучение Дизайн Работа Flux Digital Арт Арты нейросетей Видео Без звука Короткие видео Длиннопост

wonderlove

6 месяцев назад

Искусственный интеллект

Озвучка диалогов с помощью нейросети FishSpeech⁠⁠

Озвучка диалогов из текста может сильно упростить и ускорить работу во многих ситуациях: подкасты, аудиокниги, обучающие материалы, рекламные ролики, создание игр, reels и даже фильмов.

Часто записать аудио крайне трудно: нет доступа к микрофону, шумная обстановка или ограниченные временные рамки. Или просто лень.

Поэтому сегодня на обзоре нейросеть Fishspeech, которая реалистично озвучит текст, сохраняя интонации и эмоциональную окраску. Так ещё можно добавлять свои голоса или использовать уже готовые 50+ голосов от сообщества Нейро-Софт. Вообще сказка! Давайте к обзору.

❯ Основные особенности FishSpeech🐠

Fish Speech Dialogue — современный инструмент для озвучивания диалогов и реплик с использованием разнообразных голосов.

Благодаря портативной версии не нужна установка базового Fish Speech MOD, а функциональность доступна «из коробки»:

Поддержка до 10 говорящих. Идеально для одиночных реплик и сложных диалогов.
Автоматическое распределение голосов. Экономит время, подбирая подходящие голоса для каждого персонажа.
Библиотека из 50+ голосов от сообщества. От Жириновского до Яндекс Алисы.
Форматирование диалогов. Автоматическое оформление в формате «Говорящий: текст».
Различные форматы сохранения. Поддерживаются WAV, MP3 и FLAC.
Мультиязычный интерфейс. Доступны русский и английский.
Автообновления и интеграция с GitHub.

❯ Обзор интерфейса

Интерфейс FishSpeech Dialogue

Нас встречает такой интерфейс. В самой верхней строке можно выбрать язык интерфейса, изначально будет английский.

Левое окно «Статистика диалога» — основное рабочее поле. В верхней части окна отображается количество говорящих, число реплик и общее количество символов. Нижняя часть содержит текст диалога.

Диалоги необходимо оформлять так: каждая реплика должна начинаться с имени говорящего и двоеточия. Пример видно на скриншоте выше.

В правой части интерфейса находится блок с итоговым результатом и кнопка «Сгенерировать диалог».

Плавно спускаемся ниже.

Количество говорящих — это автоматический параметр, который определяется системой в зависимости от структуры диалога.

Для каждого говорящего доступна отдельная панель настроек. Здесь можно:

Указать имя говорящего, которое должно совпадать с именем в тексте диалога.
Выбрать референсный голос из доступных вариантов.
Загрузить собственную аудиодорожку и использовать голос из неё. Также необходимо подписать транскрипцию. В этом случае нейросеть будет использовать загруженный голос для генерации диалога. Транскрипцию пишем сплошным текстом.

Последняя функция очень полезна. Когда ваш профессиональный диктор заболел, можно чуть схитрить и продолжить процесс записи и озвучки :D

В самом низу находятся расширенные настройки:

Честно, расширенные параметры я не щупал, меня интересовал лишь принцип работы и результаты. Но я попросил ассистента Perplexity пояснить, что это, кому интересно, вот выжимка:

В общем, всё до безумия просто. Пишем или генерируем диалог, выбираем голоса и получаем озвучку. Давайте посмотрим на неё в деле.

❯ Примеры и возможности

Начнём с простого — рассуждения Винни-Пуха.

Давайте усложним и представим миниатюру: бытовой диалог Джонни Сильверхенда и Яндекс Алисы.

Сгенерируем диалог с тремя участниками - Шерлок Холмс, Сергей Дружко и Кот Матроскин. Такого вы ещё не слышали.

Далее я решил попробовать сгенерировать что-нибудь на английском с голосом Матроскина. И вышло очень даже неплохо и похоже.

Дмитрий Нагиев и Чебурашка:

Ну и напоследок я попросил свою знакомую записать пару голосовых для теста. Дальше скачал их в формате .ogg, конвертировал в .mp3 и загрузил в нейросеть. Для транскрипции я использую крутую нейронку Whisper, скачать её можно на GitHub. Там всё интуитивно понятно, думаю, разберётесь. Вот что получилось.

Ещё пара примеров:

Как итог, FishSpeech — удобный инструмент, который помогает озвучивать тексты даже в ситуациях, когда запись голоса невозможна. Простота и гибкость делают его отличным решением для создания игр, подкастов, аудиокниг и других проектов, где важна качественная озвучка.

Скачать портативную версию FishSpeech с установкой в один клик для самых ленивых вы можете тут.

Подписывайтесь на 👾Нейро-Софт, канал с портативными версиями ваших любимых нейросетей!

Показать полностью 6 8

[моё] Нейронные сети Искусственный интеллект Digital Видеомонтаж Озвучка Звук Звукорежиссура Машинное обучение Монтаж Обработка звука Транскрипция Русская озвучка Видео Видео ВК Короткие видео Длиннопост

user9026187

6 месяцев назад

Программирование на python

Серия Организую хакатон

Куда идёт программирование в 2025 году⁠⁠

В 2024 году начали проявляться 2 тренда:

Кризис на рынке IT - программистам сложнее устроиться в найм. Можно сколько угодно бодриться, но если сравнить тот же 2020 или 2021 год с 2024м - разница просто очевидна: в ковид хантили вообще всех, на +50% вообще без проблем. В 2024 году устроиться выше, чем на зарплату мидла - уже хорошо.
ChatGPT, генерация кода - у менеджмента появляется заблуждение, что ИИ может заменить программистов. Нас с вами в реальности ИИ пока не заменяет - но его использование в работе в некоторых случаях может ускорить разработку в 2-3 раза. Сейчас самое то LLM сетки использвать как Google на максималках: что раньше приходилось гуглить пару дней - сейчас нейросетка подробно с примерами расскажет за 20 минут.

Отсюда несколько следствий:

Не все, но некоторые hr и CTO начали вести себя неадекватно при найме программистов. Иногда это выливается в лютый бред: хочу канарейку за копейку, чтобы пела и ничего не ела.
Зарплаты программистов просели и не растут. Есть "стеклянный потолок" - чтобы получить зарплату выше 500К рублей или выше 6К евро в ЕС - надо "прыгнуть выше головы". Есть какие-то единичные случаи, но по личному опыту выше этих цифр практически нереально ничего найти за разумные сроки.
Очень сложный вход в профессию для новых разработчиков. Джуны сейчас не нужны от слова совсем - их в принципе не нанимают. Чтобы тебе начали платить деньги за работу - надо быть минимум мидлом с 3мя годами опыта.
Сам не встречал, но знакомые жалуются, что начинающие программисты очень сильно подсели на ChatGPT и ленятся кодить самостоятельно - и поэтому становятся скорее не класическими программистами, а промт-инженерами. Не берусь судить хорошо это или плохо, про это подробнее ниже.

Как выглядит настоящее программирования на 2025 год

Есть крупные компании. Они ищут перекладывателей JSON с сеньёрскими лычками, которые должны дрочить алгоритмы и не выходить за очень узкую область своих компетенций. Нужно знание процессов и отсутствие воображения в принципе. Руководители больших компаний спят и мечтают, как сократят фонд оплаты труда на 90% и всех заменят нейросетками.
Есть средних размеров компании. Там тоже нужно знание процессов, но ещё есть какие-то шансы попрограммировать так, что самому будет интересно.
Есть стартапы - там тебе одному придётся работать за целый отдел. Если человек идёт в стартап аналитиком данных - ему придётся работать ещё и инженером данных, и дата сайнтистом, и нейронки внедрять, и даже девопсить в меру своих сил. Есть простор проявить своё воображение, но слишком интенсивная работа.

Как я вижу, куда всё идёт:

Большие компании продолжат сокращать "программистов". Когда мамкин перекладыватель JSON-ов выходит на рынок, зная алгоритмы но не зная ничего дальше своей узкой области - он выглядит достаточно жалко.
Средних размеров компании будут продолжать как-то жить и у них мало что изменится.
А вот со стартапами нас ждёт интересный феномен: сейчас 1 техлид, вооружённый ChatGPT может попробовать заменить целый отдел разработки. Т.е. команда из 4-5 человек (1-2 кодера, тестировщик, дизайнер, продакт, маркетолог, девопс на четверть ставки) могут тестировать гипотезы и за 1-3 месяца запускать очень качественный MVP. Это приведёт к ещё более быстрому росту количества стартапов. Что ещё не автоматизировали - в ближайшие 5 лет будут активно пытаться автоматизировать - т.е. в целом нас ждёт следующий шаг в сторону технологической сингулярности. И чтобы вписаться в эту волну и попытаться на ней подняться - начинать надо было ещё год назад.

Индихакинг

Что такое индихакинг? Как я это понимаю: программист приходит после работы, и вместо того, чтобы работать на второй работе или залипать в доту - пилит свой проект. Может в одиночку - а может подключить жену и ещё нескольких своих знакомых. Делает какой-то продукт и пытается его продать.

Я сам пробовал заниматься индихакингом, и прогорел на том, что продукт я сделать смог, а продать его - нет. Т.е. точно нужен ещё продукт овнер - чтобы исследовать рынок и написать ТЗ, что вообще сказать, какой продукт нужно делать. А потом отслеживать метрики и говорить что и как поправить. И ещё точно нужен маркетолог - чтобы получившийся IT продукт как-то в плюс продать.

И если у фронтендеров вообще никогда не было проблемой какой-то свой проект (сайт) запустить, бекендеры могли доучить фронт и двигаться в сторону фуллстеков, то у людей, работающих с данными с этим беда: аналитикам и инженерам данных очень сложно придумать, какой продукт сделать и кому продавать. А дата сайнтистам это сделать практически невозможно (DS стоит начинать когда есть хотя бы 10К пользователей и статистика за пол года).

Хакатон!

В виду этого у меня появилась идея: я решил попробовать организовать онлайн хакатон для специалистов, работающих с данными.

Обычно хаккатон - это когда собираются до 5 человек и 1 выходные судрожно пишут код.

Я же решил попробовать провести хакатон именно по индихакерству:

Люди делятся на команды до 5 человек. При этом не только программистов - а ещё маркетологов, дизайнеров, продактов можно брать в команду.
Придумывают идею: какой продукт или услугу можно оказывать людям или компаниям, чтобы заработать денег не в найме.
Реализуют продукт и пытаются его продать.
Потом где-то в октябре 2025 года все собираемся и подводим итоги: кто что делал и у кого как удалось на этом заработать.

Т.е. весь хаккатон будет идти заочно в онлайн формате. Продолжительность где-то 7-8 месяцев, за это время можно успеть и рынок ислледовать, и продукт накодить, и попробовать его продать.

Все подробности про хакатон: https://hackathon.digitalberd.com/

Обсуждение хаккатона просиходит в телеграме, задать мне вопрос можно там же: https://t.me/digitalberd/13718/13719

Попробуйте хотя бы начать! Буду рад, если в результате хотя бы кто-то сможет организовать своё дело и выйти из работы в найме!

Куда идёт программирование в 2025 году IT, Программирование, Python, Искусственный интеллект, Машинное обучение, Dark Souls, Разработка, SQL, Хакатон, Тренд, Малый бизнес, Успех, Длиннопост

Показать полностью 1

[моё] IT Программирование Python Искусственный интеллект Машинное обучение Dark Souls Разработка SQL Хакатон Тренд Малый бизнес Успех Длиннопост

Посты не найдены

Оглавление

Почему бизнес спешит встраивать ИИ

Шаг 1. Ищем боль пользователя

Шаг 2. Собираем стек под реальные условия

Шаг 3. Дизайн, который не бесит

Шаг 5. Метрики после релиза

Что дальше

💡 Реализация ≠ результат

💻 Что за идея?

🎯 Почему я это делаю?

Технологический стек проекта

Работа над текстом и музыкой

Как я получал фотореалистичные кадры

Оживление картинок и борьба с глюками

Как я заставил персонажей «петь» с эмоциями

Сцены разрушения и цензура

Финальная доводка и монтаж

Итоги проекта

❯ Основные особенности FishSpeech🐠

❯ Обзор интерфейса

❯ Примеры и возможности

В 2024 году начали проявляться 2 тренда:

Отсюда несколько следствий:

Как выглядит настоящее программирования на 2025 год

Как я вижу, куда всё идёт:

Индихакинг

Хакатон!

Шаг 1. Ищем боль пользователя

Шаг 2. Собираем стек под реальные условия

Шаг 3. Дизайн, который не бесит

Шаг 5. Метрики после релиза