
Stable Diffusion для ЛЛ
24 поста
24 поста
AudioCraft имеет открытый исходный код, а так же были предоставлены модели. Ознакомиться со всем содержимым а так же с инструкцией по запуску можно в официальном гит репозитории.
В наборе имеется сразу несколько инструментов и моделей
MusicGen для создания мелодий по текстовому описанию. Обучена на 20 тысячах часов музыки, права на которую принадлежат Meta* или которая была лицензирована специально для этих целей.
AudioGen генерирует звуки и эффекты окружающей среды с помощью текстовых подсказок — например, лай собаки или шаги. EnCodec обеспечивает обработку звука.
Multi Band Diffusion: совместимый с EnCodec декодер, использующий диффузию.
Создаваемые звуки в виде свиста, сирен и гудения звучали довольно естественно. Хотя гитарные струны в песнях казались настоящими, они все равно казались, ну, скажем так, искусственными.
The Verge
Данная разработка может помочь звукорежиссёром быстро создавать аудио сцены. Отзывы о генерации именно музыки не очень хорошие.
__
Наш чат в тг где генерируем всякое, обсуждаем новости и помогаем друг другу с решением технических проблем
*Meta экстремистская организация запрещённая на территории РФ..
Повышенное качество генерации, возможность генерировать осмысленный текст, улучшенная эстетика и понимание запроса. Попробовать можно тут , а скачать веса для генерации локально тут. (Если что поддержка модели была добавлена в последнем обновлении automatic1111)
Дополнительные примеры генерации:
__
Наш чат в тг где генерируем и обсуждаем новости и помогаем друг другу с решением технических проблем.
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Канал Нейроновости(источник) - новости о самых интересных нейронках
"Кот-астронавт ныряет в море, полное милых рыб, элегантный, высокая детализация, плавный, резкий фокус, красивый, полное тело, кинематографический, 8k" by Kandinsky 2.2
Авторы сообщают что благодаря более крупному картиночному энкодеру CLIP-ViT-G у них получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в доступе для всех желающих.
Так же работы новой модели можно оценить в браузере или в телеграм боте
__
Наш чат в тг где генерируем и обсуждаем новости и помогаем друг другу с решением технических проблем.
Канал Нейроновости (источник) - источник новостей о нейронках, подпишись чтобы не пропускать
Автор данной работы обещает вскоре опубликовать пайплайн. Как только это произойдёт то поделюсь и с вами. Пост на Реддит. А на данный момент есть только такая информация:
Много работы было сделано в temporal (скорее всего имеется ввиду инструмент TemporalKit) и интерполяции. Я также использовал подобный метод обучения, как и Лора. Скоро я опубликую демонстрационную страницу проекта.
Наш чат в тг где генерируем и обсуждаем новости и помогаем друг другу с решением технических проблем.
__
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Скоро Мортал Комбат 1 выходит. И у меня есть идеи для нового бойца. Интересно как бы выглядело его фаталити? 😅
Генерировал с помощью обучения модели. Если хотите научиться так же. То добро пожаловать в наше комьюнити. ссылки ниже. Ну и бонус в комментариях
__
Наш чат где генерируем и обсуждаем новости и помогаем друг другу с решением технических проблем
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Как они сообщили, они вдохновились первой реализацией DragGAN о которой писал ранее. В новой реализации в комплекте идет инструмент который обучается на изображении пользователя создавая минимодель. После чего ее можно подключить и изменять части изображения по своему желанию.
Нельзя сказать что это уже полностью рабочий продукт. Так как пайплайн пока не особо удобный. Но технология очень привлекательная и интересная поэтому я за ней слежу.
Точная и управляемая редакция изображений является сложной задачей, которая привлекает значительное внимание. Недавно была разработана система DragGAN, позволяющая интерактивную редакцию изображений на основе точек и достигающая впечатляющих результатов с пиксельной точностью. Однако, поскольку этот метод основан на генеративных антагонистических сетях (GAN), его общность ограничена емкостью заранее обученных моделей GAN. В данной работе мы расширяем такую систему редактирования до диффузионных моделей и предлагаем DragDiffusion. Используя заранее обученные диффузионные модели большого масштаба, мы значительно улучшаем применимость интерактивной редакции изображений на основе точек в реальных сценариях. В то время как большинство существующих методов редактирования изображений на основе диффузии работают с текстовыми вложениями, DragDiffusion оптимизирует диффузионный латент для достижения точного пространственного контроля. Хотя диффузионные модели генерируют изображения итеративным способом, мы эмпирически показываем, что оптимизация диффузионного латента на одном этапе достаточна для генерации согласованных результатов, что позволяет DragDiffusion эффективно завершать работу по высококачественной редакции. Обширные эксперименты в широком диапазоне сложных случаев (например, множественные объекты, различные категории объектов, различные стили и т. д.) демонстрируют универсальность и общность DragDiffusion.
Как видим из этого описания это уже ближе к тому с чем многие уже привыкли работать. А именно дифузионные модели. Например Stable Diffusion.
Проект доступен на гитхаб. Для запуска рекомендуется видеокарта от NVIDIA. А так же разработчики тестировали код только на linux.
__
Наш чат где генерируем и обсуждаем новости и помогаем друг другу с решением технических проблем
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Нажатием на кнопку "Пересказать вкратце" возможно получить основные идеи из материала в форме кратких тезисов. Эти тезисы появятся поверх открытой страницы. Для этого используется YandexGPT (YaLM 2.0).
Пример работы:
На данный момент пересказ нельзя назвать точным. Модель путается в деталях.
ЧатГПТ ожидаемо справляется лучше, но Москва как говорится не сразу строилась
Пример работы ChatGPT:
__
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Канал Нейроновости - источник новостей о нейронках, подпишись чтобы не пропускать
Давно хотел написать гайд как запустить локальную языковую модель и начать говорить с ней и получать ответ голосом. Но компания скайинг(не реклама) запустила телеграм бота который решает сразу кучу проблем кастомного решения. В кратце это был бы не ChatGPT, а нечто тупее, нужен мощный ПК ну и работало бы только на ПК. Из минусов, похотливую собеседницу не создать как можно сделать с локальными моделями из которых вырезали цензуру.
Сам бот тут. В названии есть GPT4, но это видимо такой стандарт так писать, под капотом скорее всего гпт3.5-турбо.
Бот может помочь подготовиться к ЕГЭ, как к письменному так и к устному. Работать можно с таймером и без. Но пока заданий мало. Может помочь подготовиться к интервью. Или поговорить на свободную тему. Доступных тем более 100 так что зависнуть можно на долго. Проще зайти и ознакомиться самостоятельно, но я приложу несколько скриншотов для наглядности.
Выбрал At the cafe. Получаем сценарий, цель и доп миссии.
Не любители голосовых напряглись. Но в этом то и плюс. Бот для прокачки именно говорения. Текст не воспринимает. Жмем микрофон и записываем ответ. Так и ведем диалог. Работает очень шустро.
Бот на данный момент бесплатный, но учитывая что говорилка по качеству на уровне бесплатных, а не от какой-нибудь ЭлевенЛабс. И запросы к чату стоят копейки, возможно так оно и останется. А может и нет. Но под капотом ничего уникального. Чатгпт на проводе. Распознавание голоса скорее всего через whisper о котором уже как-то писал. Бесплатен и хорош. Озвучка тоже что-то бесплатное. Так что всегда можно будет поднять свое. Только придётся повозиться со скрытыми подсказками.
Идея как по мне хорошая. Сам я предпочитаю посещать языковые клубы. Мой любимый, а точнее кажется что единственный вменяемый это https://skills.englex.ru/. Где не нужно ждать лунного затмения пока народ соберется. А проходят десятки встреч в день по приемлемой цене. Снова не реклама. Просто делюсь полезной информацией, ведь если вы дочитали до сюда то видимо вам интересно подтянуть разговорный английский.
А что касается бота я думаю он может помочь сломать языковой барьер совсем стеснительным или тем кто не может посещать клубы по каким-то причинам. Попрактиковать чтение, так как бот умеет сравнивать текст и то что вы ему надиктовали показав места где вы ошиблись. Или потренировать лексику для интервью если не сильно в себе уверены.
__
Мой канал с гайдами по Stable Diffusion. Где бесплатно обучаю с нуля и до самостоятельного обучения моделей.
Канал Нейроновости - источник новостей о нейронках, подпишись чтобы не пропускать