Диффузия: истории из жизни, советы, новости, юмор и картинки — Горячее

1 год назад

Нейросеть генерирует движения для 3D-моделей на основе 2D-записей⁠⁠

Новое слово в мокапах, модель с открытым кодом переносит движения реального человека или животного из видео на модель, при этом плавность и динамика не теряются.

Multi-view Ancestral Sampling (MAS) — это техника для создания 3D-движений из 2D-данных. Эта методика использует модель диффузии для обработки нескольких 2D-последовательностей движений, снятых с разных углов, чтобы синтезировать последовательное 3D-движение.

Преимущество

Основное преимущество MAS заключается в возможности создавать реалистичные 3D-анимации без необходимости текстового описания исходных движений, что особенно важно в областях, где сбор 3D-данных осложнён.

MAS применяет алгоритм обратного диффузионного моделирования для синтеза чистых 2D-образцов движения, а затем согласует их в единое 3D-движение. Этот процесс включает этапы триангуляции и репроекции, обеспечивая согласованность между разными взглядами на движение, что позволяет добиться высокой точности и естественности анимации.

Для более подробной информации о проекте и его технических деталях можно посетить официальную страницу проекта MAS здесь или ознакомиться с их научной работой на arXiv.

В качестве примеров применения, разработчики MAS демонстрируют, как модель справляется с анимацией профессиональных баскетбольных маневров, элементов художественной гимнастики с мячом и соревнований по конному спорту. У технологии большой потенциал в различных областях, где традиционные методы 3D-моделирования либо слишком дороги, либо технически невозможны.

Хотите узнавать первыми о полезных сервисах с искусственным интеллектом для работы, учебы и облегчения жизни? В своем телеграм канале НейроProfit я рассказываю, как можно использовать нейросети для бизнеса

Показать полностью

Dmitriy.yiu

2 года назад

Самое понятное объяснения CFG Scale в нейросетях. Почему эта штука так важна и как повлияла на появление Stable Diffusion⁠⁠

Вы не поверите, но я уже и разработчиков Kandinsky 2.2 спрашивал, что такое CFG Scale в фундаментальном смысле, и нейронщиков всех мастей, однако так не получил внятного ответа. От обывательских блогов меня вообще теперь тошнит, ибо там одно и то же: параметр CFG Scale увеличивает силу следования подсказке... И все как бы, окей — сами разберемся.

Так вот, я начал с базы и открыл научные статьи родоначальников метода classifier free guidance scale. Прикреплю ссылки на них сразу же, чтобы вы тоже могли ознакомиться. Вот статья, посвященная именно CFG Scale для диффузных моделей, а вот статейка о применении данного метода в современных языковых моделях.

Для чего это нужно?

Меня поразил тот факт, что метод CFG Scale и позволил диффузным моделям родиться. До них были GAN-модели, которые совмещали в себе генератор и дискриминатор. Дискриминатор, по-другому, это классификатор. Т.е. моделька сначала генерит изображение, а потом вторая полноценная модель оценивает его на вшивость и корректирует вместе с первой.

Из этого вытекают минусы: например, нужно вместе с одной моделью обучать и вторую (работы в два раза больше). Также нужно, чтобы железо тянуло сразу две модели, ибо они задействуются в паре.

Метод же SFG Scale позволил задействовать только одну модель — диффузнную, т.е. обучать вторую больше не нужно. Чтобы вы понимали, механика описывается парой строк кода. Думаю, вы смекаете, что это намного проще дополнительной полноценной модели, которую еще хранить где-то нужно.

В общем, благодаря CFG Scale мы получили более быстрое и стабильное обучение моделей, которые еще и по точности не уступают GAN-ам, а также могут генерировать изображения в разных разрешениях. Плюс дополнительные надстройки в виде LoRA стали доступны.

Как это работает?

Метод Classifier-Free Guidance Scale использует безусловную и условную генерации, которые перемножаются друг с другом. Грубо говоря, сначала создается изображение без учета текстовой подсказки, а затем с ней. Чем выше CFG Scale, тем больше будет доминировать условное изображение.

Это нужно для того, чтобы мы могли получить либо больше вариативности генерации, либо больше точности — того самого следования текстовой подсказке. Получается, что чем ниже CFG Scale, тем нейронка свободнее в своих действиях, а чем больше — наоборот, скованнее.

Так как формула просчета CFG Scale и перемножения двух генераций простая, то и минусы из этого следуют такие же простые и очевидные. Всем ясно, что математематические формулы можно совершенствовать до бесконечности, повышая точность и скорость. И это делают, сейчас разберем как.

Вот вам наглядная демонстрация влияния CFG Scale на качество генерации.

Как вы можете видеть, первое изображение при низком CFG Scale близко к безусловному, т.е. не учитывающем классы из текстовой подсказки. При высоком же значении этого параметра мы получаем те самые минусы математики, о которых я говорил выше. Нейросеть как бы пытается достать генерацию, выдавить ее через трафарет, максимально четко охарактеризовать объект.

Помните лизуна в сетке? Представьте, что когда вы сжимаете его, то увеличиваете тем самым CFG Scale. Т.е. вы проталкиваете подсказку через некий трафарет (сетка — это безусловное базовое изображение, а лизун — это условное изображение, сформированное подсказкой).

Теперь посмотрим на чрезмерное увеличение контрастности изображения в Photoshop. Принцип по сути очень похож: мы пытаемся усилить цвета и как бы выделить на фоне остальных, т.е. выжать, как того самого лизуна.

Снова возвращусь к минусам математики и ее бесконечном улучшении. Взгляните на примеры выше и сравните с предыдущими. Высокие значения уже не так коверкают генерацию, как раньше, а помогло в этом расширение CFG Dynamic trashholing, которое не выдавливает, а спиливает ненужные части. Вместе с лишним уходит и освещенность, но это все же лучше артефактов. Суть метода в том, чтобы как бы отодвигать яркие пиксели назад, тем самым уменьшая эффект ярких артефактов.

Про данное расширение и другие способы увеличить качество ваших генераций в десятки раз у меня, кстати, есть ролик.

Еще одной иллюстрацией механики CFG Scale можно считать два негативных промпта у нейросети Kandinsky 2.1, один из которых является безусловным, а другой условным. При CFG Scale < 1 отрицательная подсказка игнорируется.

По ссылке вы можете найти официальную документацию Kandinsky 2.1, а также прочитать буклет Google о classifier-free guidance scale, на который ссылаются разработчики Кандинского.

Что по итогу?

А по итогу мы имеем представление о методе, который является одним из родителей диффузных моделей, к примеру, Stable Diffusion или Midjourney.

Теперь нам не нужен дискриминатор, а модель генерирует изображение за несколько шагов, что дает массу простора в контроле генерации. Мы можем и ControlNet подрубать, и LoRA, всякие разные расширения, дополнения.

Но не только ControlNet-ом хороши современные нейронки, но и целыми каскадами других, не менее масштабных сетей. У Midjourney, к примеру, есть сеть-генератор формы объекта, граней, апскейла, раскраски и много чего еще. С GAN-моделями такое было бы практически невозможно совместить.

Если вы хотите глубже погрузиться в диффузные нейросети, то советую прочитать этот материал, который мне также помог в изучении темы. Также продублирую статью о методе CFG Scale в диффузных моделях, а также статью о применении методики в языковых моделях.

Congratulations, вы выжили!

Теперь вы разбираетесь в том, что такое CFG Scale в нейросетях. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Буду рад видеть вас в телеграм-канале, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Показать полностью 7

[моё] Искусственный интеллект Нейронные сети Digital Stable Diffusion Наука IT Диффузия Генерация Статья Научная статья Длиннопост

prix777

2 года назад

Кофе мой друг

Вкусно и красиво⁠⁠

Я вот с кофе не заморачиваюсь. Покупаю молотый и просто заливаю горячей водой в чашке. Потом добавляю сливки, если хочется. Быстро и вкусно.))

Всегда заваривал и пил из белой чашки. Жена купила прозрачную. Сегодня заварил в ней и увидел интересное и красивое разделения на слои.

Вкусно и красиво Кофе, Чашка, Диффузия, Длиннопост

Воть поближе..

Потом, кстати, верхние смешались. Диффузия однако.. Фотка ещё до смешения.

Пост создан просто так, от безделия..

А вы как пьёте кофе?

Показать полностью 2

[моё] Кофе Чашка Диффузия Длиннопост

hodotay

2 года назад

Лига Физиков

Диффузия звуковых волн⁠⁠

Всех приветствую! Прошу поделиться полевым опытом использования, скажем так, не совсем традиционных акустических диффузоров и методов рассеивания и звукопоглощения.

Дано: Музыкальный коллектив, гараж 20м2, гладко оштукатуренные, бетонные стены и потолок.
Необходимо: максимально просто и дёшево привести акустику помещения в более-менее нормальное состояние, минимизировать время реверберации, устранить гул низких частот.

Знаю, что на рынке есть огромное количество разнообразного поролона, минеральной ваты, уже готовых решений как раз под эти задачи, но ключевой момент здесь - подручные и максимально дешёвые средства.

Появилась идея использовать в качестве диффузора листы шифера, нарезанные по 0,5м2 и установленные в шахматном порядке (горизонтально и вертикально) в местах первых отражений. Будет ли от этого смысл? Какие вообще есть варианты кроме как купить готовый диффузор Шрёдера, либо делать его самостоятельно?

Показать полностью 2

Физика Акустика Музыка Звуковые волны Гараж Диффузия Длиннопост

Spersky

2 года назад

Чай в слоумо⁠⁠

Просто размешал сахар в чае. В тэги не умею. Не кидайте тапками

Upd. Залил не то видео

Чай Сахар Диффузия Видео Вертикальное видео Работа

9303

Perevalka

2 года назад

Не за 30, а за 3 минуты!⁠⁠

Картинка с текстом Диффузия Физика Химия Жизненно

301

Beagle

2 года назад

Почему не упоминают диффузию углекислого газа, когда речь идёт о проветривании?⁠⁠

Как известно, проветривание заключается в понижении концентрации ядовитого углекислого газа в помещении, желательно до атмосферной. Я много гуглил информацию по этому вопросу: про ГОСТы, санитарные нормы, вентиляцию. Нигде не пишут о самопроизвольном выравнивании концентрации за счёт диффузии. В основном натыкался на нормы притока свежего воздуха на человека в час. Но ведь просто открытое окно без малейшего движения воздуха тоже работает на уменьшение количества углекислого газа в помещении. При разнице концентраций в 5-7 раз и лёгкости молекул газа проветривание должно проходить самопроизвольно. Я нашёл формулу, по которой можно было бы рассчитать, сколько углекислого газа выйдет через заданную площадь окна, при известных разницах температур и концентраций, но не смог применить её. Думаю, такие расчёты делали уже до меня.

Вопрос к специалистам:

Это заговор производителей вентиляций, или диффузия даёт настолько малый вклад, что её не принимают в расчёт? Хотя при открытом окне, когда холодный воздух затекает через нижнюю часть окна и стелется по полу, а тёплый выходит из помещения через верхнюю, площадь соприкосновения двух потоков увеличивается кратно, и углекислый газ переходит из "загрязнённого" воздуха в свежий с помощью той же диффузии. Неужели это тоже не учитывают проектировщики вентиляций?

[моё] Текст Вопрос Проветривание Диффузия Физика Санитарные нормы Углекислый газ Вентиляция

vikent.ru

2 года назад

Социальные инновации, реформы

Классификация художников / популяризаторов идей по Б.Г. Матюнину⁠⁠

Данная статья относится к Категории 📊 Классификации творческих личностей

«Предлагаю классификацию художников (в широком смысле этого слова):

1) «ремесленники» — создают видимость, имитацию знания, его форму без подлинного содержания;

2) профессионалы — добротно отражают в произведениях знание, его содержание. Например, американский режиссёр М. Форман. Вспомним его лучший фильм «Полёт над гнездом кукушки». Вообще по укладу, строю, стилю Америка - страна знания, а Россия - незнания (вспоминается гениальный гоголевский образ вольно мчащейся птицы-тройки). Различия прослеживаются даже на уровне эмоций, психологии этноса. У американцев - уверенность, радость, недовольство, гнев, расчёт, а у русских - удаль, тоска, печаль, мотовство, запойное пьянство (погружение в незнание). Поэтому Америка - поставщик технологий (в том числе и социальных), а Россия - поставщик социальных идей и изобретений, самородков и самоучек. Россия - другой тип отражения и освоения действительности. К сожалению, опора на незнание даёт мощные истоки психологического тяготения русского народа к монархизму, доброму царю-батюшке. И ещё. Русский бунт - жестокий и бессмысленный, так как опирается на социальное незнание. А когда бунту сделали искусственную прививку инородного беспощадного революционного знания, он разродился тоталитарным обществом-мутантом. Замечу, что, видимо, иногда незнание может существовать в тонком, неясном, импрессионистском чувственно-образном виде, принципиально невербализуемом, находящемся за пределами «осязаемости» рациональной стороны сознания;

3) творцы — опредмечивающие незнание в гармонии со знанием (А. Тарковский, М. Антониони и т.д.)».

Матюнин Б.Г., Нетрадиционная педагогика, цитируется по книге: Вульфов Б.З., Иванов В.Д., Основы педагогики в лекциях, ситуациях, первоисточниках, М., Изд-во УРАО, с. 189.

Источник — портал VIKENT.RU

Дополнительные материалы

+ Плейлист из 9-ти видео: РАЗВИТИЕ МОЛОДЕЖИ: ТВОРЧЕСКОЕ / КРЕАТИВНОЕ / ИНТЕЛЛЕКТУАЛЬНОЕ

+ Ваши дополнительные возможности:

Воскресным вечером 11 сентября 2022 в 19:59 (мск) на ютуб-канале VIKENT.RU — онлайн-лекция № 288: ТИПОВЫЕ ОШИБКИ ПРОИЗВЕДЕНИЙ / КОНТЕНТА и их ВЛИЯНИЕ на РАЗВИТИЕ ЛИЧНОСТИ (часть I)

Также, идёт приём Ваших новых вопросов по более чем 400-м направлениям творческой деятельности – на онлайн-консультацию 18 сентября 2022 года в 19:59 мск (воскресенье). Это принципиально бесплатный формат.

Задать вопросы Вы свободно можете здесь: https://vikent.ru/w0/

Изображения в статье

Изображение Pete Linforth с сайта Pixabay

Показать полностью 2

Популяризация Визуализация Пропаганда Идея Продвижение Внедрение Диффузия Знания Научпоп Видео YouTube Длиннопост

Посты не найдены

1 2 3