Перехожу к рассказу о том, как пользоваться сервисом Wav2Lip.
К сожалению, среди работающих блокнотов в Google Colab, я нашел очень ранний, поэтому он плохо адаптирован под вариативность, и чтобы в принципе получить результат, нужно придерживаться очень четких правил, о которых порой забываешь и 10 минут ожидания превращаются в просто неудачную попытку.
А, и да, программа, по этим же причинам работает не очень быстро. Бывает, для синхронизации одного видео в полминуты приходится подождать 10-15 минут, но это цена за бесплатность и неограниченность в использовании. Причем, платные сервисы даже не всегда показывают такое же качество.
Ну и чтобы не нагромождать пост полотном текста, инструкцию я сделал в статье по ссылке.
А вообще, смотря на все это, возникает желание самому разобраться, чтобы доработать и оптимизировать программу, сделав из нее приложение. И, думаю, через месяц-два я это реализую.
Я пропал немного с виду. Но не просто так, эти два дня я разбирался и выполнял заказ на синхронизацию движений губ в видео с рекламным текстом.
Сложность в том, что нужно было не просто оживить статичное фото и наложить звук - с выходом Hedra это сделать можно за пару минут - а заменить озвучку и синхронизировать рот на уже готовом видео с достаточно активной динамикой и сменой планов.
Такие сервисы тоже есть, но чаще всего платные, и не особо дешевые. Например, в Di-D водяной знак убирают только если заплатишь 100$)
И я пошел шерстить просторы интернета в поисках подходящей программы. Потом вспомнил, что я уже упоминал такую, но не разобрался как она тогда работает - Wav2Lip.
Это программа с открытым исходным кодом и с большим количеством вариантов запуска ее - очень много людей сделали на ее основе блокноты в Google Colab, но почти все они уже не работают.
Многие платные сервисы под капотом у себя имеют именно эту программу, кто-то улучшенную, а кто-то чистую. Где-то, в пробном варианте платной нейросети результат у меня получался даже хуже, чем в итоге в этой бесплатной.
В итоге я нашел работающий блокнот, сделал тесты и приступил к работе. Почти весь день сегодня шаманил над роликом. Дополнительно у меня еще попросили еще движения рук персонажа состыковать со смыслом текста, поэтому пришлось делать дополнительный монтаж.
Само видео не буду сюда загружать, потому что его собираются использовать в рекламе, но завтра сделаю для Вас демонстрацию. Пока что можете сами попробовать разобраться в блокноте этой программы - по этой ссылочке.
Бывший руководитель инженерного отдела Snapchat выпустил свою социальную сеть.
Полгода она находилась в бета-тесте и позавчера вышла в общий доступ.
Соцсеть в 2024? Да, я тоже сначала удивился, НО! Суть в том, что каждый пользователь там может создать ИИ-аватара, или даже несколько с заданными характеристиками, который сам делает посты и пишет Вам и другим подписчикам сообщения.
И сами Вы тоже можете вести профиль.
То есть, в этом приложении сосуществуют человек и искусственный интеллект. Обещают, что AI там супер очеловеченный и пользователи получат незабываемый опыт.
Соц.сеть называется Butterflies - доступна в Google Play и App Store.
Я зарегистрировался посмотреть вообще что там происходит и быть в курсе того, куда она разовьётся.
▶️ClipDrop Официальный сайт Stability AI, использующий Stable Diffusion XL. Генерирует четыре изображения, одно из которых можно увеличить. Доступны стили: аниме, оригами, цифровой арт, комикс и другие. Сайт собирает фидбэк пользователей, выбирающих лучшие изображения, как и Midjourney при тестировании.
Раньше был бесплатным, теперь генерация изображений доступна только по подписке, но есть другие интересные инструменты, доступные бесплатно.
▶️Dream Studio Облегченная версия Stable Diffusion с двумя моделями. Бесплатно можно сгенерировать около 400 изображений. Тысяча кредитов стоит $10 (893 ₽), чего хватает на 4000 картинок. Требуется регистрация или вход через Google/Discord. В интерфейсе можно выбрать размер, степень соответствия запросу и количество шагов до 150. Генерируются сразу четыре изображения.
▶️Google Collab Сервис Google для запуска кода на удаленных мощностях. Есть ограничения: при каждом запуске нужно ждать загрузки библиотек и моделей (5-10 минут). Откройте блокнот с моделью SDXL, нажмите «Подключиться», затем «Выполнить все». После загрузки перейдите в Fooocus. Настройки включают разрешение, стили и скорость генерации. Встроен плагин ControlNet для генерации по контуру. Сервис бесплатный, количество генераций ограничено временем доступа к нейросети.
▶️HuggingFace Платформа для публикации и тестирования моделей Stable Diffusion. Выбираете модель, вводите запрос и нажимаете Generate. Сервис бесплатный и неограниченный, но настройки обычно недоступны.
▶️Mage.Space Простой в использовании сервис без регистрации. Работает на версии SDXL, генерирует качественно. Бесплатный и безлимитный с ограничением в 25-50 шагов. После регистрации картинки сохраняются в галерею. Есть продвинутый режим с дополнительными настройками.
▶️PlaygroundAi Похож на соцсеть: можно подписываться на пользователей и смотреть их изображения. Бесплатный и безлимитный, без цензуры. Доступны версии 1.5, 2.1 и SDXL. Требуется авторизация через Google. Максимум 150 шагов генерации, выбор размера, фильтры и генерация по тексту или изображению.
Сегодня среда, а значит мы с Вами разбираем техническую составляющую нейросетей или узнаем, как можно запустить ту или иную программу.
Сегодня на разборе, как я недавно обещал, Stable Diffusion.
Для начала быстро пробежимся по его версиям:
🔤Stable Diffusion 1.5. - именно эта модель принесла популярность компании. Она самая нетребовательная по железу и на нее создано очень много кастомных обновлений.
🔤 Stable Diffusion 2.1. - не очень популярная версия. Хоть работает и лучше, чем предыдущая, но тут добавили цензуру, поэтому она не встретила популярности.
🔤 Stable Diffusion XL. Вышла летом 2023 года. Генерирует в разрешении 1024 × 1024, создает текст, лучше работает с композицией. На ее основе появилось много пользовательских моделей. И по сей день является, наверно, самой популярной из версий.
🔤 Stable Cascade. Вышла в феврале 2024 года. Работает хорошо, но только по подписке.
🔤 Stable Diffusion 3 - есть "голая" версия тройки, а есть недавно вышедшая Medium, которая вообще не должна была выходить и была неудачным экспериментом. Но руководство компании настояло на том, чтобы выпустили даже то, что вышло, и вышло не очень.
Про сайты, где им можно воспользоваться, расскажу чуть позже. Или уже завтра.
На нашем телеграм канале Эксперт рассказывает подробно о популярных и не очень нейросетях. Об их пользе, как использовать, бесплатные версии, а так же как с их помощью зарабатывать. Переходи по ссылке и присоединяйся к сообществу экспертов - https://t.me/PROAI_exp
Недавно была выпущена новая модель ChatGPT-4 Omni, которая оснащена контекстным окном в 128 тысяч символов и обладает очень быстрыми и умными ответами по сравнению с предыдущими моделями.
Несмотря на то, что официальный GPT остается закрытым для нас, я подготовил для вас ТОП-5 чат-ботов, где можно воспользоваться GPT-4 и сравнил их цены, чтобы вы могли найти наиболее выгодный вариант для себя.
Так что давайте перейдем непосредственно к топу, без лишних разговоров:
Одним из основных преимуществ этого чат-бота является непрерывная живая поддержка. Здесь вы никогда не будете чувствовать себя брошенными в своих проблемах. Например, если возникли проблемы с оплатой или бот перестал отвечать на определенные вопросы, вам всегда окажут помощь.
Плюсы:
Можно пользоваться бесплатно версией ChatGPT-3,5 с объемом в 8К токенов.
Удобный интерфейс. Всё находится в одном боте и между моделями очень легко переключаться.
Самые низкие цены на рынке.
Есть функция очистки контекста, соответственно, Вы не будете тратить лишние токены в платной модели, а бесплатная не будет путаться из-за прошлых сообщений.
Есть отдельная группа с рекомендациями по работе с каждой моделью.
Минусы:
Отсутствует просмотр веб-страниц, но в скором времени обещают добавить.
Стоимость ChatGPT-4 o:
- За 100 рублей - 28 000 токенов / 100-200 запросов или 12 картинок в DALLE-3.
Интерфейс как-то очень похож с прошлым ботом, либо это тот же владелец, либо создавали его на одном и том же сервисе. Показано, что есть доступ к нескольким генераторам изображений: StableDiffusion, DALLE и Midjourney, но они находятся в других ботах, соответственно, и оплачиваются отдельно. Плюсы:
Есть партнерка - дают бонусы за приглашение друзей.
В остальном очень похож на прошлый бот, поэтому очень сложно сказать, уникален ли он. Минусы и цены, соответственно, такие же.
В данном случае вы не найдете бесплатной языковой модели для использования, но сможете получить бонусом 10 000 токенов на любую из представленных нейросетей, если подпишитесь на необходимые каналы.
Плюсы:
Дополнительно доступен DALLE-3 и StableDiffusion.
Можно бесплатно попробовать ChatGPT-4.
Можно создавать и сохранять диалоги, самостоятельно присваивая роль боту.
Минусы:
Даже чтобы купить подписку, нужно сначала подписаться на 2 канала, и один из них, подозреваю, что рекламный.
Снова не видно кнопки очистки контекста.
Нельзя купить токены отдельно, только подпиской с минимальной оплатой в 399 рублей. И, получается, если не успел потратить за это время, начисленные токены, то, не заплатив еще, не используешь их.
Стоимость (даёт доступ ко всем представленным нейросетям):
Один из очень немногих ботов в телеграмме, где есть возможность открывать и анализировать ссылки, но функция доступна только платно. Вообще, вроде бы в этот проект неплохо вкладываются, но очень высокий порог входа.
У меня даже получилось сгенерировать пару изображений, но я не понял, сколько токенов потратилось.
Плюсы:
Есть очень много дополнительных функций, например, веб-просмотр, замена лица на фото, Llama, озвучка, перевод видео и многое другое.
Очень хорошо, что есть дополнительное обучение, потому что во всем их функционале очень сложно разобраться.
Доступна партнерская программа.
Минусы:
Невероятное нагромождение совершенно разных возможностей, в которых очень легко потеряться.
Очень запутанная система оплаты: одни функции доступны с подпиской и обновляются, а другие только за отдельные монеты.
Опять же, во всем разнообразии я даже не понял, можно ли будет очищать контекст.