Hugging Face представили Speech-to-Speech модель
Команда Hugging Face представила новую разработку — Speech-to-Speech модель, которая, по их словам, является шагом на пути к созданию опенсорсной и модульной версии GPT-4. В отличие от мультимодальных решений от OpenAI, эта модель построена на основе комбинации отдельных компонентов, что дает пользователям больше гибкости.
Проект собрал уже более 2700 звезд на GitHub и включает следующие ключевые элементы:
Voice Activity Detection (VAD): Модель использует Silero VAD v5 для обнаружения активности голоса и управления процессом обработки.
Speech to Text (STT): Для преобразования речи в текст применяется Whisper, включая его оптимизированные версии, такие как Distil-Whisper.
Language Model (LM): Полностью модульная часть, позволяющая использовать любую доступную на Hugging Face Hub языковую модель.
Text to Speech (TTS): Для преобразования текста обратно в речь используется Parler-TTS, с возможностью применения различных предварительно обученных и многоязычных контрольных точек.
Этот проект особенно интересен благодаря своей модульности. Каждый компонент реализован как отдельный класс, что позволяет пользователям легко адаптировать модель под свои нужды. Интересно и то, что эта модель поддерживает динамическое переключение языков с задержкой всего в 100 миллисекунд, что делает её подходящей для многоязычных приложений.
Для работы с моделью можно использовать как локальный режим, так и серверную конфигурацию. Поддерживается работа с Docker, а также предусмотрены оптимальные настройки для пользователей Mac. Код открыт для модификации, и каждый может экспериментировать с различными конфигурациями, чтобы найти наиболее подходящее решение для своих задач.
Все детали и инструкции по установке доступны в репозитории на GitHub.
Мой обзор на GitHubCopilot
Привет! Меня зовут Саша. Я Python-разработчик. Больше 4 лет работаю в крупных компаниях и над своими pet-проектами. Сейчас развиваю стартап, который часто сравнивают с GitHubCopilot.
Поэтому решил протестировать этот инструмент и сравнить со своим решением.
Интерфейс Copilot
Copilot встроен в интерфейс кодового редактора - доступны самые популярные: VsCode, JetBrains, NeoVim. Как мне кажется, это плюс, так как не нужно переключаться между вкладками. Все в одном месте.
Фичи Copilot
Автокомплит
Пока непривычно писать с автокомплитом. Просто читаешь, что он там понаписал, и в 4 из 5 случаев переписываешь заново.Чат
Чатиться с Copilot можно в двух форматах:В привычном виде - через отдельный блок интерфейса, слева от области с кодом. Здесь можно задать вопросы по коду проекта.
Через командную строку, которая появляется в кодовом редакторе. Прямо в редакторе Copilot может предложить измененный код по запросу. Там же можно посмотреть, что именно он скорректировал, принять или отклонить предложенное решение.


На первой картинке - привычный вариант чата. На второй - чат, который появляется при работе с кодом.
Команды
В приветственном сообщении Copilot знакомит с набором команд, который может применять пользователь:
You can ask me general programming questions, or chat with the following participants which have specialized expertise and can perform actions:
@WorkSpace - Ask about your workspace
/explain - Explain how the code in your active editor works/tests - Generate unit tests for the selected code
/fix - Propose a fix for the problems in the selected code/new - Scaffold code for a new file or project in a workspace
/newNotebook - Create a new Jupyter Notebook
@vscode - Ask questions about VS Code
/search - Generate query parameters for workspace search
/runCommand - Search for and execute a command in VS Code
@Terminal - Ask how to do something in the terminal
/explain - Explain something in the terminal
You can also help me understand your question by using the following variables to give me extra context:
#selection - The current selection in the active editor
#editor - The visible source code in the active editor
#vscodeAPI - Use VS Code API references to answer questions about VS Code extension development
#terminalLastCommand - The active terminal's last run command#terminalSelection - The active terminal's selection
#file - Choose a file in the workspace
To have a great conversation, ask me questions as if I was a real programmer:
Show me the code you want to talk about by having the files open and selecting the most important lines.
Make refinements by asking me follow-up questions, adding clarifications, providing errors, etc.
Review my suggested code and tell me about issues or improvements, so I can iterate on it.
You can also ask me questions about your editor selection by starting an inline chat session.
Команды заточены на какое-то конкретное действие, что оставляет меньше шансов галлюцинациям. Более того, можно непосредственно через # обозначить контекст, по которому ты хочешь задать свой вопрос.
Из минусов - если переключить вкладку, промпт весь исчезнет. Надо заново его вводить.Голосовой ввод
Можно надиктовывать вопросы и команды голосом. Вряд ли это полезно для меня. Я работаю в офисе, а в офисах говорить с моделями в слух не принято.
Сравнение Copilot и Documate
Ну, и, наконец, сравнение, ради которого все и затевалось, сравнение GitHubCopilot и моего проекта.
Заключение
А вам нравится работать с Copilot? Что хотелось бы улучшить или добавить?
Тестируйте Documate с удовольствием. Буду рад узнать, что понравилось и не понравилось.
Заменители Sora для создания видео
В этом посте я расскажу про две нейросети, которые по качеству похожи на Sora. Одна бесплатная и открытая, другая дает 30 генераций в месяц.
Про китайский Kling ничего не говорю, так как там все круги ада надо пройти, чтобы зарегистрироваться - китайские симки и прочите заморочки. К тому же, я слышал, нейросеть была натренирована именно на китайских моделей, так что на европейца в генерациях надеяться не придется.
Итак, первая нейросеть открытая, бесплатная, и ее так же можно не только скачать на пк, но и попробовать на сайтах.
1. Open-Sora
Open-Sora - проект с открытым исходным кодом с 724M параметрами. Разрешение 512*512, длительность 2 секунды.
Код на GitHub
Попробовать на HuggingFace 1
Попробовать на HuggingFace 2
Попробовать на Replikate
Следующая нейросеть не бесплатная, но она самая похожая по качеству на Sora, к тому же дает 30 бесплатных генераций в месяц.
2. Luma AI Dream Machine
Luma AI представила новую нейросеть Dream Machine, которая составит конкуренцию популярной нейросети в реалистичности своих видеотворений.
Можно приложить изображение, а можно просто написать текстом, что должно быть на видео. С приложенными изображениями получается лучше, и без артефактов.
Из минусов, сервер бывает сильно перегружен, тут нужно ловить момент. В месяц дается 30 бесплатных генераций, платный тариф начинается от 30 долларов в месяц.
А как вы думаете, Sora уже всех "перегрела", и ажиотаж на нее немного спал? Лично я считаю, что все надо делать вовремя, мне лично нейросеть от Luma очень зашла, но момент прям выхватывать надо - сегодня она генерировала вижео, завтра нет, и видео не прогружаются. Надеюсь, моя статья вам понравилась, присоединяйтесь к нашему каналу 🍳, мы регулярно публикуем новости ближайшего будущего, переводы видео и полезные сервисы
Реалистичная замена лиц в видео
Наткнулась на годный инструмент для дипфейков с локальной установкой.
Репозиторий Rope на GitHub — это проект, направленный на создание реалистичных замен лиц в видео с использованием модели inswapper_128 из проекта InsightFace.
Главная особенность Rope — это удобный графический интерфейс (GUI), который упрощает процесс работы с заменой лиц для пользователей, не имеющих глубоких технических знаний.
Основные функции Rope:
Замена лиц: Основная задача Rope — это замена лиц на видео. В основном для киноиндустрии полезно, при создании визуальных эффектов, в виртуальной реальности и других творческих проектах.
Поддержка различных разрешений: Программа позволяет выбирать разрешение для вывода — 128, 256, 512 пикселей, так что можно настроить качество конечного видео в зависимости от ваших потребностей.
Улучшение качества изображений: В Rope интегрированы инструменты для повышения качества изображений, такие как GFPGAN и Codeformer, которые улучшают реалистичность замененных лиц.
Графический интерфейс: Удобный GUI позволяет легко загружать видео, выбирать и заменять лица, а также настраивать различные параметры без необходимости писать код.
Этика и законность: Разработчики подчеркивают, что программа должна использоваться ответственно и законно, с уважением к приватности и с получением согласия от людей, чьи лица используются. Ну типа если что, они не при чем ))
Для чего и кого нужен Rope:
Киноиндустрия и VFX: Создание реалистичных эффектов для фильмов и видеороликов.
Виртуальная реальность: Разработка контента для VR с реалистичной заменой лиц.
Творческие проекты: Использование в искусстве, рекламе и других областях, где важен визуальный контент. Про остальные сферы применения даже как-то писать не хочется, разве что про невинный пранк над знакомыми или детьми )
Пример использования:
Загрузка видео: Пользователь загружает видео, в котором нужно заменить лицо.
Выбор лиц: Программа автоматически находит лица в кадре, и пользователь выбирает, какое лицо заменить и на какое.
Настройка параметров: Можно настроить разрешение, включить улучшение качества и другие параметры.
Превью и рендеринг: В реальном времени можно увидеть результат и при необходимости скорректировать.
Как начать работу:
Установка: Скачать репозиторий, установить необходимые зависимости и модели, настроить виртуальную среду Python.
Запуск: Запустить GUI, выбрать видео и начать процесс замены лиц.
Подробная инструкция в YouTube на английском языке, но пусть вас это не смущает в 21 веке. Скачайте Яндекс Браузер, и будет вам счастье. Он автоматически переведет видео с Ютуб на русский язык.
Если кто-то знает еще годные способы перевода-дубляжа, поделитесь в комментах, вам плюсик в карму за вклад в общее дело) Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? Подпиcывайтесь на мой телеграм канал НейроProfit, там я рассказываю, как можно использовать нейросети для бизнеса.
В общем, Rope это мощный инструмент для работы с заменой лиц, который может быть полезен в самых разных творческих и профессиональных проектах, где требуется высокая реалистичность и качество визуального контента.
Цифровой маскарад XXI века или Моя бабушка Сильвестр Сталлоне
🧿Вышел новый ролик на ▶️ YouTube в котором мы мы обуздаем технологию - DeepFake. Сегодня мы покорим киноиндустрию, спасем вселенную и превратим родную бабушку в терминатора.
Активные ссылки из видеоролика:
🔜OPAL-ROPE -- https://github.com/Hillobar/Rope
🔜Python - https://www.python.org/downloads/
🔜FFmpeg - https://ffmpeg.org/download.html
🔜C++ Build Tools - https://visualstudio.microsoft.com/ru/visual-cpp-build-tools...
Каждый сможет программировать!
Причем это будет доступно на обычном человеческом языке, и сам процесс будет понятным и эффективным.
Да почему "будет"? Это уже есть! Ну почти 😉
GitHub выпустил деморолик Copilot Workspace. И лично меня это очень впечатлило. Пока там можно добавиться в waitlist, инструмент еще не доступен.
Ранее я уже достаточно плотно освоил создание скриптов для игр через ChatGPT и написал статейку про свою методологию для некодеров.
Ключевым неудобством является то, что ChatGPT не имеет доступа к проекту и контексту. Это приводит к тому, что любая итерация с кодом требует ручной подгрузки скриптов проекта и далее ручной выгрузки в проект. Это очень много ручной работы.
А Copilot Workspace сразу видит весь проект и сразу может модифицировать его. Это просто ракета! 🚀
Фото реалистичный аватар в полный рост
Перевел через Elevenlabs , не знал, что они там несут)) Благо особо не заморачивался))
Meta* сделали нейросеть audio2photoreal, которая может сгенерировать видео с двигающимися аватарами по аудиофайлу. Достаточно загрузить аудио разговора и на выходе получаются реалистичные 3D-аватары.
Проект в открытом доступе на GitHub
Теперь уровень дипфейков шагнет вперед - аватары настолько реалистичны, что воспроизводят мимику, жесты и другие движения. Алгоритм способен даже распознать, когда в речи используется ухмылка, смех.
Подписывайтесь на ИИшница 🍳 - тут все самое интересное из мира новых технологий и нейросетей 🤖

