Stable Diffusion
Пока сетка в бета версии.
Результаты меня очень радуют.
Пока Пикабу осваивает Midjourney - вот видео обучалка по нему, я в ожидании первых textTo3D моделей, в ближайшие полгода текст в 3D самые ожидаемые сетки.
Пока сетка в бета версии.
Результаты меня очень радуют.
Пока Пикабу осваивает Midjourney - вот видео обучалка по нему, я в ожидании первых textTo3D моделей, в ближайшие полгода текст в 3D самые ожидаемые сетки.
Пока доступ к Dalle 2 доступен 100 тысячам человек, хотя разработчики ставят новую цель - 1 миллион пользователей и наверное после этого сервис станет платным, а пока "Фотошоп 2.0", который позволяет генерировать качественные изображения за 20 секунд и с помощью только текстовой инженерии, не перестает удивлять!
В последнее время я не особо люблю генерировать арты или фото, скорее люблю наблюдать за тем, что делают другие ребята с теме же возможностями, потому вот подборка крутых генераций фото из дискорд канала Dalle 2:
Вот такие получились крутые нейрофотографии и арты.
Продолжаем, так как уже около 500 картинок сгенерировал.
Фрактальные бактерии, цифровой рисунок
Зеленая гречка с курицей и белым сыром
Девочка лиса рядом с абстрактным замком, фото в стиле Уэса Андерсона
Фрактальные зерна кофе рядом с кружкой кофе, цифровый рисунок
Зерно кофе на листе кофейного дерева, цифровой рисунок
Мышь рядом с компьютерной мышью, возле старого компа
Ровер на Венере, 35 мм снимок, засветка, пленка
Закину семью мышей и обезьянку ученого в комменты.
Писал месяц назад о нем, а теперь удалось потыкать лично. Дофига картинок будет вот тут, так же там иногда генерю предложения подписчиков.
Начнем с 35 мм макро фотографии цветов.
Дальше попробуем немного роботов сделать - например, уткороверы в космосе
Не останавливаемся в безумие - жабокоптеры
Ну это не так реалистично, вернемся к тексту - 35 мм фотография на пленку гор/тундры
А теперь вновь в безумие - Среднеформатный фотик похожий на мягкую игрушку
А теперь вспомним старые добрые времена, когда Пикабу был полон программистами и крутыми ребятами, которые созидали, а я тогда впервые стал делать длиннопосты, один из них про историю модель rx от mazda, а здесь решил погенерить mx-5, сначала просто, а затем в ките rocketbunny
Сказали бы мне тогда, что можно будет так быстро красоту!
Но а теперь подводные камни такой магии.
Первое - это все генерится на огромных GPU системах, коротко, для генерации картинки нужно минимум 2x80GB видеопамяти, например 2 Nvidia Tesla A100
Второе - генерация доступна только с вотермаркой, квадратным размером и не все можно писать, за что-то даже можно получить перманентный бан.
Здесь я пишу про многие новые нейросетки, но чаще показываю Красивое.
Ну и тренируйте свои нейронки(мозги), чтобы адекватно работать с нейронками.
Тут оригинальная статья рассказывающая о преимуществах новой сетки.
Я не буду много рассказывать, просто покажу примеры генераций. На данный момент доступ к сети есть у небольшого количества пользователей. Но можно вспомнить какую революцию произвела Dall-e в первой ее генерации, особенно тем, кто пользовался Rudall-e от сбера.
Я нашел интересные генерации от тестеровщиков и вот они.
cool panda riding a skateboard in Santa Monica
"Крутая панда катится на скейте в Санта-Монике"
"Собака породы Сиба-ину одета в берет и черную водолазку"
"Пингвин мирно читает книгу пока пьет кофе утром"
"Робот рукой рисует автопортрет на холсте"
"Макро снимок на 35мм пленку большой семьи мышей в шапках уютно у камина"
"Кобра, серфинг на больших волнах"
"Фотография пса Самоеда с высунутым языком обнимающий белую Сиамскую кошку"
"Как я представляю себя DALL-E сейчас"
Тут имеется ввиду, что робот/нейронка кайфует от проделанных артов.
"Медведи захватывают планету"
«Ребенок и собака смотрят на звезды»
У меня нет уверенности, что эту нейронку выпустят в открытый доступ, и конечно же на генерации этих изображений наверное требовались бешенные мощности.
А вот порадоваться за развитие нейронных сетей я могу, мне действительно приятно наблюдать за прогрессом и создавать благодаря новому инструменту арты.
Это революция в искусстве! И она уже пришла.
Видео на английском о нейронке есть на сайте проекта.
Новая нейронка - latent-diffusion от команды разработчиков CompVis
Позволяет не только создавать арты, но так же убирать объекты из кадров и даже улучшать качество артов и фотографий.
Я потестировал только одну часть нейронки - генерацию изображений по текстовому запросу. Пишешь текст - получаешь картинку.
Текст - "коты играют в шахматы в стиле Пикассо."
Текст - "киты с незабудками в стиле Кандинского/Дали"
Здесь я думаю вы сможете отличить стиль Кандинского от Дали, так как я их перемешал.
Пока Тестов мало, ребята в твиттере делают более успешные тесты. Прикладываю несколько скринов.
Разница в генерациях обусловлена размером изображений, у меня нет пока возможности использовать карты Nvidia Tesla A100 на 80Gb, потому генерация происходит в размерах 256 пикселей на 256 пикселей. От этого сильно страдает детальность и качество.
В общем нейросетки с каждым месяцем становятся все круче и круче.
Привет! Не так давно я показывал уже схожую генерацию, но решил повторить с новыми знаниями в Disco Diffusion v4.1. Построенной на модели нейросети Diffusion + Clip, где одна модель генерирует арт(Diffusion), а вторая обращается к базе данных(CLIP).
Текстовый запрос для генерации арта - "A Soviet Retro Futurism in Brutalism architecture and coloful planets in fauvism style by Ismail Inceoglu and by Marc Chagall"
Здесь даже есть текст на кириллице на баннере в стиле боевиков 90-x, где видно что написано на кириллице, но какая-то фигня.
А здесь слева видна подпись нейронки, это означает, что в базе данных было много подписей художников и нейронка поставила свой вариант на анализе базы данных.
Новая генерация через модель нейросети Disco Diffusion v4.1