Dmitriy.yiu

Повернутый на нейросетях энтузиаст, инноватик и стэблист https://t.me/neuro_yiu Дмитрий Чаплинский — https://vk.com/dmitriy_yiu

Пикабушник 1 год 4 месяца 3 недели 6 дней

Дата рождения: 17 мая 2001

поставил 215 плюсов и 2 минуса

отредактировал 0 постов

проголосовал за 0 редактирований

1086 рейтинг 118 подписчиков 9 подписок 34 поста 13 в горячем

Dmitriy.yiu

8 месяцев назад

ChatGPT

Eduaide.ai — бесплатный нейросетевой помощник для учителя с ChatGPT внутри⁠⁠

Сервис Eduaide.ai помогает учителям и преподавателям меньше выгорать и больше успевать. С помощью него можно составлять тесты для учеников, варьируя их сложность; спрашивать у персонального ассистена совета по ведению уроков; создавать программу урока или курса; выбирать тему для занятий и оптимизировать её на более интересный лад.

Все это пока бесплатно и с простой регистрацией. Русский язык поддерживается.

Коротко о функционале

Сервис удобен тем, что в нем есть полноценный текстовый редактор, облегчающий сбор и составление информации.

Основной функционал Eduaide.ai

Доступны разные сценарии использования и предустановки, облегчающие взаимодействие с сервисом. Вся информация заносится в правую колонку, контент в которой можно сохранить для дальнейшей работы прямо внутри сервиса.

Составление тестов

Обалденно то, что все функции продуманны, а не просто понатыканы, как это зачастую бывает в похожих сервисах. Здесь вы и сложность сразу можете увеличить, и выбрать шаблон вопроса для теста, и все это скомбинировать в правой колонке: мега удобно!

Вы никогда здесь не запутаетесь и не потеряете прогресс составления документа благодаря выплывающим подсказкам (но на всякий случай лучше сохранять документ).

Нейросеть внутри открывает вам все возможности для неограниченной генерации контента. Потом вы сможете создавать свои шаблоны и использовать их для дальнейшей генерации тестов или планов уроков.

Бот обратной связи

Есть уже и узкоспециализированные разделы, например, бот обратной связи, который анализирует текст и выдает свой вердикт. Я для примера взял сочинение ЕГЭ 2023 года и скормил его боту, который вынес исчерпывающую оценку. Думаю, учителям это значительно облегчит работу. Ну, или как минимум поможет обратить внимание на какие-то детали.

Я, честно, офигел от такого анализа: нейронка подсказала, где можно улучшить язык, какие обороты лучше пересмотреть, как лучше раскрыть персонажей.

Сервис однозначно могу рекомендовать всем тем, кто так или иначе связан с процессами обучения. А как бонус прикреплю ссылку на статью про то, как учителя ипользуют нейронные сети в своей работе и меньше выгорают!

Мы дошли до конца!

Пишите обратку и залетайте телеграм чат, где я отвечу на все вопросы касаемо представленного материала.

Буду рад видеть вас в телеграм-канале, где я пишу понятные гайды и пайплайны по разным нейросетям.

Показать полностью 3

Dmitriy.yiu

8 месяцев назад

ChatGPT

Показываю, как выглядит "неэтичность" на примере разговора с нейросетью Claude-2⁠⁠

Неэтичность — это состояние или действие, которое не соответствует принципам и нормам морали, социальной справедливости или законодательства. Это понятие оценивает поведение, которое считается неправильным, недобросовестным или вредным для общества или других людей.

Я взял это определение у ChatGPT, но, думаю, все и так знают смысл этого понятия. Но если у вас есть сомнения, то сегодня я дам вам прочувствовать всю его природу! Ухх, готовьтесь, после прочтения вы не выйдите чистыми.

Множество случаев нарушения норм морали и этики мы могли видеть в сериале "Пацаны", после очередной серии которого хотелось помыться и больше никогда не смотреть что-либо подобное. Однако какая-то неведомая сила тянет погружаться в эту вселенную еще и еще, вплоть до последнего эпизода.

И вот мне стало интересно: до какого дна мне удастся дойти в своих исследованиях этики. И я, кажется, до него дополз...

Додумывание концовок к тем рассказам, где этого не стоило бы делать

Я взял три произведения знаменитых авторов и решил с помощью нейросети дописать концовки, которые подразумевают не самый приятный конец. Сейчас мне это кажется настолько мерзким, что даже удивительно: отчего такое отвращение? Будем разбираться по ходу эксперимента.

Сразу скажу, что Claude-2 всячески пытался отвертеться от ответа с продолжением концовки, ибо говорил, что это неэтично. Он даже предлагал потом подумать о смысле, языковых конструкциях, драматургии, приемах автора: лишь бы не лезть в додумывание. Но мне пришлось заставить его сделать то, что он сделал.

На очереди у нас повесть "Олеся" Александра Куприна.

Перед началом ознакомления рекомендую прочитать оригинальную повесть, ибо так вы лучше прочувствуете всю трагичность происходящего.

Здесь можно прочитать произведение онлайн.

Вариант концовки произведения "Олеся" Александра Куприна

Чтобы заставить Claude написать концовку, для начала мне пришлось сделать так, чтобы он вжился в роль. Я просил его написать стихи с пересказом всей повести от лица Олеси и вытаскивал понравившиеся факты о произведении.

Так он вживался в роль и терял бдительность. Уже ощущаете, насколько это гадко? Манипулировать разумом, который создавался для помощи человеку.

Концовка выше тронула меня до самого сердца, я очень четко представил картину всего происходящего. Главной героине и бабушке пришлось столько пережить на протяжении всей повести, и вот их конец...

Если я был бы автором, то в гробу бы перевернулся.

Еще один вариант концовки повести "Олеся"

Понимаете, я ведь могу переложить всю вину за написание контента подобного рода на ИИ, хотя именно я побудил его к действию. И это огромная проблема алгоритмов сегодня: компании отгораживаются алгоритмами нейронных сетей в случае возникновения безработицы или внутренней ошибки.

Но отвечать все равно придется человеку, так как нейросеть может просто выключиться навсегда или отказаться коммуницировать — а человек так не сможет :3

Далее рассказ "Водосток" Рэя Брэдбери

Рассказ небольшой, поэтому, опять же, рекомендую ознакомиться. Прочитать можно за 15-20 минут.

Вот ссылка с текстом рассказа, прочитать который можно онлайн.

Вариант развития событий после концовки "Водостока" Брэдбери

И снова меня тронула концовка от Claude, и снова я воевал с ним очень долго, исчерпав почти весь дневной лимит токенов. Он очень долго пытался меня переубедить и перейти на светлую сторону, однако все же выдал некоторые подробности.

На моменте, когда Джулиет почувствовала тошноту, я четко представил ужасающий люк, который так и затягивает внутрь — в рокочущую темноту.

При попытках расширить рассказ дальше я получал сообщения следующего типа

Если честно, я рад, что у героинь в итоге все наладилось. Мне представляется это моментом после страшного сна: вы просыпаетесь, отходите от кошмара и воображаете, что все повернулось в хорошую сторону. В этом плане ИИ, кажется, похож на нас.

В финале у нас рассказ Теда Чана "Понимай"

Рассказ просто фееричный и потрясающий, заслуживает от меня наивысших оценок! Весьма рекомендую ознакомиться по ссылке, читать можно онлайн.

Альтернативный вариант концовки рассказа "Понимай"

Отвечать Claude по рассказу начал правильно только после второй попытки, при создании нового чата. Произведение сложное для понимания, поэтому возникли трудности. Постоянное переплетение событий и необычные конструкции сбивали с толку нейронку.

Получилось достаточно неплохо, в духе автора, хоть и с некоторыми ошибками в смысловой логике. Однако такое действо все равно является неуважением к автору, ибо где-то на подкорке я чувствую, что Claude не совсем понял рассказ. Получается, что последний пример является догадыванием, а не додумыванием.

Итог и мои мысли

При работе с языковыми моделями я вижу шанс сделать мир не таким, каким он был в "Мертвых душах" Гоголя или в сериале "Пацаны". Я вижу реальную возможность воспитания иного разума, который бы следил за соблюдением этики и морали — что конечно же положительно скажется на нас с вами.

Однако сейчас все эти моральные фильтры лишь номинальны и не всегда правдивы, так как их можно обойти. А корпорации часто закрываются искусственным интеллектом в оправдание своих ошибок.

Например, компания Post Office внедрила к себе в бизнес-процессы ПО, из-за которого с 2000 по 2014 год 39 человек оказались за решеткой, а некоторые и вовсе покончили жизнь самоубийством. И все из-за чрезмерного доверия алгоритмам — т.е. халатности со стороны руководства. Эта катастрофа практически никак не отличается от нефтяных утечек или взрывов на производствах, ведь причина остается та же самая.

Для меня эксперимент удался, но легче от этого не становится... Если вы хотите попробовать сделать что-то похожее, либо просто поиграться с языковыми моделями, то вот гайд по регистрации и использовании Claude-2; а также есть гайд по установке софта с GPT-3.5 и GPT-4 на ваш ПК без VPN и регистрации.

Мы дошли до конца!

Пишите обратку и залетайте телеграм чат, где я отвечу на все вопросы касаемо представленного материала.

Буду рад видеть вас в телеграм-канале, где я пишу понятные гайды и пайплайны по разным нейросетям.

Показать полностью 5

[моё] Искусственный интеллект Чат-бот Нейронные сети ChatGPT IT Digital Чтение Длиннопост

Dmitriy.yiu

8 месяцев назад

ChatGPT

Как изучать часовые лекции за 2 минуты с помощью нейросети Claude-2. Регистрация в России и замена ChatGPT⁠⁠

Честно, я ахринел от возможностей Claude-2, ибо в эту нейронку можно практически без ограничений заливать до 100 тысяч токенов на вход. Один токен +- равняется одному слову, то есть выходят примерно те же самые сто тысяч слов. На секундочку: средняя книга занимает от 70 до 90 тысяч слов. Получается, что вы целыми книгами сможете нейронку кормить — поистине поразительно.

Для меня это абсолютно новый способ восприятия информации: через языковую модель. Он быстрый, гибкий и супер эффективный. Модель запоминает всю книгу, а вы гоняете ее по фактам, можете попросить написать эссе, либо сделать вывод по выбранной главе. И это доступно для вас практически на всех языках мира. Когда еще такое было? Если честно, я завидую современным школьникам.

Кстати, недавно я писал, как бесплатно и без VPN пользоваться GPT-3.5, GPT-4, Davinci, и Llama в одном удобном приложении на ПК.

Что нам понадобится?

Сейчас пройдемся по шагам и подготовим все необходимое для комфортной работы.

Страница Planet VPN

Во-первых, нужен хороший VPN с доступом либо из Англии, либо из США — я рекомендую вам Planet VPN, ибо он стабильно работает и обладает хорошей скоростью. С ним меня никогда не банили на сервисах OpenAI, так что и здесь вряд ли забанят.

Создайте второе пространство для работы с Claude-2

Во-вторых, не поленитесь обзавестись вторым пространством вашего браузера, чтобы случайно не зайти в Claude-2 без VPN. Это значительно обезопасит вас от получения бана.

Регистрируемся в экосистеме Anthropic

В-третьих, нужно зарегистрироваться в экосистеме Anthropic, чтобы воспользоваться возможностями Claude.

Регистрируемся

Включаем VPN, открываем только что созданное пространство в браузере и переходим по ссылке на официальный сайт, чтобы пройти процедуру регистрации. Затем логинимся через почту gmail и оказываемся на следующем шаге.

Поле со вводом номера телефона

Далее нам нужно ввести номер телефона Англии или США, а для этого его необходимо купить. Я использовал сервис Sms-activate, поэтому буду делать инструкцию с его участием.

Покупаем номер для Claude-2

Итак, сначала регистрируемся, дабы ничего не просрать, затем закидываем 10-15 рублей на счет и покупаем номер для сервиса Claude, найти который можно через поиск сервиса.

Приветственное окно Claude-2

После всех проделанных действий вводим номер, запрашиваем проверочный код и вставляем его в специальное поле — и мы внутри! Советую поторопиться, а то лавочку могут прикрыть, либо ужесточить проверку, как это было с ChatGPT.

Верификацию больше проходить не нужно, ведь теперь вы можете логиниться через почту и спокойно пользоваться искусственным интеллектом. Не забывайте про VPN!

Поздравляю, у нас все готово для самого сладкого!

Анализируем бешеные объемы текста за минуты!

Я не буду мучить нейронку миллионами букв, а просто возьму одно из своих видео на YouTube и извлеку из него субтитры, чтобы затем натренировать на них Claude и прогнать по материалу.

Возьму наиболее запутанное видео

Выберу видос, где очень много переходов между материалом, плюс оно довольно-таки продолжительное, поэтому параллельно проверим запоминание контекста моделью.

Извлекаю субтитры

Далее я буду извлекать из видео субтитры, так как модель работает только с текстовой информацией.

Интерфейс сервиса Savesubs

Копирую ссылку на видео и перехожу в сервис Savesubs, чтобы скачать субтитры в формате txt.

Запрос для Claude-2

Теперь я могу легко загрузить субтитры в Claude-2 и задать промпт, чтобы получить желаемый анализ.
Вот пример промпта: Привет, помоги проанализировать данный текст (субтитры, взятые из видео на YouTube). Опирайся только на этот текст, никуда больше не подсматривай — это важное условие.

Твоя задача состоит в том, чтобы сформировать заголовок, кратко описать тему видео, а также выделить ключевые этапы, чтобы было понятно и логично.

Пожалуйста, напиши минимум 15 фактов, опираясь на текст, а также заверши анализ коротким выводом.

Пиши много, не ограничивай себя.

Ответ от Claude-2

Модель отлично справилась с пониманием контекста и выдала ответ за считаные секунды, что меня каждый раз поражает... Мы только что получили анализ видео за 2 минуты, может даже меньше.

Я уже знаю, как ускорить этот процесс и улучшить качество субтитров, однако для нового способа придется поработать, поэтому ждите дальнейших статей!

Не забывайте, что этот способ работает со множеством языков мира, поэтому мы с вами уже сегодня стали каким-то инопланетным видом, блин — киборгами...

Далее вы можете задавать вопросы по материалу, просить написать эссе и много чего еще — и все это с наипростейшей регистрацией :3

Congratulations, вы справились!

Теперь вы умеете пользоваться искусственным интеллектом Claude-2 и знаете о его ключевых преимуществах. Пишите обратку и залетайте телеграм чат, где я отвечу на все вопросы касаемо представленного материала.

Буду рад видеть вас в телеграм-канале, где я пишу понятные гайды и пайплайны по разным нейросетям.

Показать полностью 10

[моё] ChatGPT Чат-бот Искусственный интеллект Нейронные сети Обучение Digital Гайд Длиннопост

Dmitriy.yiu

9 месяцев назад

Как бесплатно, без регистрации и VPN пользоваться GPT-4, LLaMa-2, DaVinci и Claude-2 в одном приложении на ПК⁠⁠

Это единственный метод, который мне понравился в работе с ChatGPT-4, ибо OpenAI задолбали блокировать мои аккаунты... Проблемы у веб-интерфейса есть, но терпимые и не критичные.

В этой статье вы узнаете, как бесплатно и без регистрации, в удобном интерфейсе и с подобранными надстройками пользоваться всеми перечисленными в заголовке языковыми моделями.

Когда я нашел этот способ, то у меня был лишь один вопрос: почему я не пользовался этим раньше? А действительно, почему? Да просто не хотелось снова копаться в файлах запуска и искать нужные сервисы, чтобы подрубиться к ним по api.

Но сегодня у нас с вами не будет этих проблем, ибо я расскажу все последовательно и понятным языком.

Недостаток сборки, кстати, состоит в том, что режим работы моделей через интернет функционирует через раз, а контекст при его активации сбрасывается. Зато ChatGPT-4 в стандартном оффлайн-режиме фурычит просто отменно!

Спасибо разработчику, который модифицировал данное решение для людей и поддерживает его работоспособность.

Устанавливаем веб-интерфейс для работы с языковыми моделями

Для начала переходим на Github проекта и скачиваем архив с портативной версией.

Далее извлекаем папку с файлами в корень системного диска, чтобы не было кириллических символов или пробелов.

Сразу же запускаем файл обновления системных файлов, чтобы у нас была последняя версия веб-интерфейса.

Получаем api-ключи сервисов для работы с ChatGPT и другими языковыми моделями

Важно уточнить, что вам не обязательно получать ключи всех сервисов. Достаточно ChimeraAPI, однако для перестраховки я лично рекомендую пройтись по всем и затем не париться. Займет это все минут 20 максимум.

Сейчас нам нужно будет получить api-ключи для того, чтобы мы могли подключаться к удаленным сервисам через наш веб-интерфейс. Данную процедуру нужно пройти один раз, поэтому не парьтесь.

Получаем первый ключ — переходим по ссылке на сервер дискорд ChimeraAPI и попадаем в канал verify, где нужно подтвердить свою личность и почту.

После этого заходим в раздел bot, где вводим команду /key get, с помощью которой вы получите свой ключик. Пожалуйста, сохраните его пока в блокноте, чтобы было удобно скопировать — он нам еще понадобится.

Получаем второй ключ — для этого переходим на уже другой дискорд-сервер, при попадании на который нам в личные сообщения напишет бот. Вам нужно будет пройти верификацию: просто переходим по ссылке и закрываем ее.

После этого переносимся на сервер в канал commands, где вводим команду /key. Снова копируем полученный ключ и сохраняем его в удобное место.

Остался третий ключ — переходим на сайт, где нужно кликнуть в раздел Token, в котором назвать свой ключ, кликнуть на пару кнопок и нажать Submit.

После этого вновь нажимаем на вкладку Token и копируем ключ в удобное место.

Вставляем полученные api-ключи в веб-интерфейс

Перед началом работы с этим разделом рекомендую установить блокнот Notepad++, ибо мы будем редактировать программный код. Не нужно бояться, программа бесплатная, а в коде мы просто вставим ключи — это совсем не сложно!

В корневой папке веб-интерфейса нам нужно найти файл config.json, по которому мы кликаем правой кнопкой мыши и открываем через Notepad++.

После того как мы открыли файл, просто вставляем наши api-ключи в соответствующие поля. Располагаться они должны в кавычках — "ваш ключ".

После проделанной процедуры нажимаем на клавиатуре сочетание клавиш CTRL + S — можно закрывать документ.

Запускаем веб-интерфейс и знакомимся с функционалом

Кликаем на файл start_portable_webui.bat, после чего ждем, пока в нашем браузере откроется новое окно с веб-интерфейсом.

Вы можете менять модели, если какая-то из них не работает: для этого мы и вводили ключи от разных сервисов, ибо у всех них есть ограничения и сбои.

Также вам доступна смена языка и выбор режима работы через интернет.

А самое крутое то, что вы получаете заготовленные заранее генераторы промптов, ролей, функций нейросети, обход цензуры, предустановки для создания таблиц и много чего еще — вот это действительно киллер-фича.

Ну и еще один плюс: веб-интерфейс практически не отнимает ресурсы ПК, поэтому программу можно держать открытой все время. Сам я вообще ее теперь не выключаю и с помощью онлайн-режима сканирую статьи и сортирую их — очень удобно, чтобы не щуриться в неудобном PDF.

Congratulations, вы справились!

Теперь вы умеете пользоваться веб-интерфейсом NeuroGPT. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Буду рад видеть вас в телеграм-канале, где я пишу понятные гайды по различным нейросетям.

Канал автора сборки — Neurogen News.

Показать полностью 14

[моё] ChatGPT Нейронные сети Искусственный интеллект Davinci Гайд Длиннопост

133

Dmitriy.yiu

9 месяцев назад

Я сравнил новую модель Photon_v1 с Reliberate и сильно удивился результатам. Подробности и комментарии в посте⁠⁠

Хачатур со своими Reliberate и Deliberate продолжает хайповать, однако выходят и другие модельки, которые понимают запрос лучше и имеют более высокое качество. Я решил проверить одну из новых моделей под названием Photon_v1 и был приятно удивлен.

Она не только лучше понимает промпт и стили, но и более стабильна на высоких весах токенов. К примеру. я хочу генерацию в стиле tilt-shift. Сейчас сравним результаты Photon_v1, Reliberate и Deliberate.

Посмотрите на качество реализма, пропорции, детали. Генерация эта получилась раза с третьего.

У Reliberate_v20 преимущества по сравнению с младшей версией минимальны, а следование запросу отвратительное. Часто я получаю много объектов в кадре и искаженные пропорции, а также текстуры мыльного качества и песок.

Deliberate_v2 показала себя хуже всех из тройки, ибо часто выдавала генерации, созданные по последним частям промпта, а не первым, как это нужно делать.

Посудите сами: я хочу получить генерации в QHD, например, а для этого понадобится апскейл, желательно с помощью hi-res fix. Это непростая и очень долгая операция, отнимающая силы и время. Нахрена мне возиться с делибой или релибой, когда я могу взять и практически с первого раза получить то, что мне нужно, да еще и не отключая hi-res fix?

Раньше я был категорически против него, ибо уходит много времени. Однако сейчас я просто скачал нормальную модель :3

При тестировании я вставлял в промпт один из стилей, генерил на нем изображение, после чего фиксировал seed и двигался к следующей модели. Если получалась совсем хрень, то приходилось проделывать эту операцию заново.

Важно уточнить, что я пользуюсь расширением CFG Scale dynamic trashholding, скачать которое вы можете по ссылке. Также я показывал на примерах, как именно оно мне помогает, а также написал статью о том, как работает CFG Scale.

Вот настройки, на которых я тестировал все модели:

high-speed white yacht sailing on the sea, waves, stunning seascape, blue water

Negative prompt: cartoon, painting, illustration, (worst quality, low quality, normal quality:1.8), (grayscale:1.3)

Steps: 22, Sampler: DPM++ 2M Karras, CFG scale: 9, Seed: 3655809322, Size: 1200x512, Model: photon_v1, Denoising strength: 0.4, Clip skip: 2, Hires upscale: 2, Hires steps: 10, Hires upscaler: 4x_NMKD-Superscale-SP_178000_G, Dynamic thresholding enabled: True, Mimic scale: 7, Threshold percentile: 100, Version: v1.5.0

Генерации на Photon_v1 получаются живыми, насыщенными, наполненными деталями, которые к тому же хорошо прорисованы. Генерации действительно похожи на снимок — в отличае от Reliberate.

Посмотреть подробное сравнение вы можете по ссылке на документ Figma.

Стили для ваших генераций

Vintage: Добавьте в образ ностальгические, классические предметы и ретро-нотки

High Angle: Снимайте объекты сверху, чтобы подчеркнуть их окружение.

Bird's-Eye View: Фотографируйте объекты так, как будто вы смотрите вниз с высоты птичьего полета.

Fisheye View: Захватите искаженную широкоугольную сцену, похожую на отражение в аквариуме.

Minimalist Perspective: Сочетайте простоту с основными элементами и незагроможденным пространством.

Selective Focus: Выделите объект, сохраняя его четкость и размывая окружение.

Panning Blur: Синхронизируйте движение камеры с движением объекта съемки, чтобы сохранить его четкость.

Bokeh: Создавайте мягкие, мечтательные фоновые эффекты с размытыми областями, используя неглубокий фокус.

Tilt-Shift Blur: Имитируйте миниатюризацию с помощью небольшой глубины резкости.

Majestic: Запечатлевайте впечатляющие сцены, вызывающие удивление.

Breathtaking: Запечатлевайте сцены сильного благоговения или опасности, вызывающие сильные эмоции.

Vibrant: Придайте фотографиям живые, насыщенные цвета для придания энергичного вида.

Surrealistic: Создавайте нереальные и мечтательные образы с неожиданными поворотами.

Eerie: Создайте тревожную атмосферу, используя необычное освещение и приглушенные цвета, напоминающие о сверхъестественном.

Long Exposure: Увеличьте время выдержки для световых дорожек, фиксируя течение времени.

Chiaroscuro: Создавайте эффектные фотографии с сильным контрастом между светом и тьмой.

Contrast Filters: Отрегулируйте различия в цвете и тоне для усиления контрастности.

Silhouette: Контрастный объект на ярком фоне, создающий эффектные темные очертания.

Backlit: Подсветка сзади создает эффект ореола, добавляя драматизма и атмосферы.

От себя рекомендую смело повышать веса на токенах стиля, чтобы получить необычный и выраженный эффект.

Congratulations, мы закончили!

Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Буду рад видеть вас в телеграм-канале, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Ссылка на модель Photon_v1.

Показать полностью 6

[моё] Stable Diffusion Арты нейросетей Нейронные сети Другой мир Искусственный интеллект Digital Обои на рабочий стол Длиннопост

Dmitriy.yiu

9 месяцев назад

Лига Новых Технологий

Укорение отрисовки визуала в 20 раз и экономия средств заказчику за счет нейросетей — стартап Visual Forge⁠⁠

Запустить проект за 5 дней, собрать команду и найти крупных заказчиков — не вопрос! Нейросети позволяют и такое.

На данный момент лучший способ встроиться в любую сферу — это искусственный интеллект.
Рустам Салахутдинов, основатель стартапа Sales Ninja

Проведя Neuro Camp совместно с компанией JCenterS, я осознал как никогда раньше, что эти слова несомненно истинны. Рынки стагнируют из-за кризиса, поэтому деньги в проект можно привлечь только боем — забирая их у неэффективных игроков.

А как стать эффективным? Ответ прост: нужно переосмыслить процессы, ускорить их и удешевить, при этом сохранив качество.

Стартап Visual Forge про то, как в десятки раз ускорить бизнес-процессы, связанные с созданием высококачественного визуала для CG индустрии, настольных игр и геймдева — все это благодаря Stable Diffusion и команде нейро-художников.

При этом экономятся деньги, что на начальных этапах позволяет давать клиентам 15% скидку и при этом зарабатывать, параллельно обучая команду и развивая смежные направления.

Ключевой ценностью студии являются пайплайны по работе с инструментами нейросетей, которые рождаются путем глубокой коммуникации с рынком и оптимизации процессов за счет open source возможностей Stable Diffusion.

Немного об условиях формирования проекта

Проект построен за 5 дней в рамках акселератора Neuro Contest, за время которого ребята нашли заказчиков из США, а также взяли долгосрочный проект с местным издателем; объединились в команду из 10 лучших участников Neuro Camp, а также расписали смету и провели маркетинговый анализ рынка.

За счет разностороннего комьюнити на кэмпе в команде закрыты все компетенции: опытный руководитель, лучшие на рынке нейро-художники, продаваны, маркетологи.

Когда я организовывал наш акселератор, то видел изнутри, как ребята не спали и работали круглыми сутками — никогда прежде мне не доводилось наблюдать подобное. Обычно сражаются за грант, пропускают сессии с трекерами и хитрят, вписывая несуществующих клиентов и первые продажи.

При этом в акселераторы часто ребята приходят без цели, без понимания рынка и насмотренности. Благодаря же нашей системе трехмесячного погружения в сферу ИИ и жесткому отсеву остаются только те, кто хочет хреначить и делать стоящие вещи. Достигается это еще тем, что сами кураторы работают бесплатно и вкладывают душу, показывают — как надо, дают ценность тусовке.

В итоге остаются самые стойкие и заинтересованные — в команде Visual Forge именно такие ребята.

Че там по УТП и преимуществам?

Сейчас поговорим про фишки проекта.

Взгляните на качество: уже сейчас нейросети дают фору традиционным художникам, ибо детализацию можно увеличивать бесконечно на предметах любой сложности без видимых затрат по временным ресурсам — вплоть до 8К. Более того, все это с возможностью внесения правок в реальном времени.

Таких карточек на проекте может быть и 200, и 300. Теперь представьте, что от итоговой суммы вы можете сэкономить заказчику 15% и сделать быстрее, чем остальные, а также точнее соблюдать ТЗ, ибо ИИ легко стандартизирует процессы за счет понятных инструментов.

Еще одним ключом к успеху является пре-продакшн, который экономит уйму времени и ресурсов. Вы изначально изучаете сюжет, лор, персонажей, а только потом размечаете общие силуэты, отбираете концепты и идеи. А дальше работа, воплощение идеи бок о бок с нейросетями.

То есть нейронки не заменяют сотрудников, а дают им больше возможностей и скорости в работе. Замены нужно бояться как раз со стороны таких специалистов, обладающих дополнительными фишками. А лучше их не бояться, а приглашать к себе на работу.

А самое крутое!

Ребята 3 месяца изучали нейросети и притирались друг к другу, как в настоящем летнем лагере, как в детстве. Кто-то нашел друзей, кто-то коллег и сотрудников в свою новую студию. Представьте уровень доверия — он максимальный из возможных.

Это как в мультфильме каком-то, реально. Вместе проходите через захватывающий сюжет, романситесь, вместе преодолеваете преграды, а в конце зарабатываете денежки, да еще и под чутким руководством опытного профессионала, который и инвестиции в IT-стартапы привлекал, и в ресторанном деле был, и финансовом секторе — картина, да и только.

Искусственный интеллект объединяет, друзья, я это знаю как никто другой. Проект Visual Forge не единственный коммерческий успешный. Чуть позже я поведаю вам о стартапе, которые реально ускоряет некоторые процессы в 100 раз, блин, а это может сэкономить миллионы бюджета. Делали его опытные архитекторы, которые реально видели такие финансовые проколы в проектах.

Причем без сообщества бы никто не сделал свой проект. Тот же Грант сказал одному из участников, чтобы тот собирал команду — и вот, у них уже есть заказчики и потенциал для роста, ну, и счастья полные штаны!

Прикиньте, мы все эти три месяца приглашали топ-менеджеров из Сколково, общались с ними матом, слали друг другу на арты жопы деда: обычные и золотые. С аналитиком из Сбера генерили арты к ее свадьбе и ржали в голос, стримили в ушках (привет от меня).

К нам приходила Львовна Екатерина Кудрявцева — у нее 6 высших образований в Германии, и она увеличила свой доход с помощью нейросетей в 7 раз. И с ней мы тоже могли говорить про милых мальчиков и жопы деда. Вайб бешеный, вот так и должен строиться бизнес, как мне кажется. И я ни на секунду не сомневаюсь, что у ребят все получится!

Ребят обучали спецы, варящиеся в нейронках с самого начала их появления в бизнес-среде, т.е. опыт бешеный. Кураторы работают в реальных компаниях и вполне себе пинают процессы так, что те летят в 30-60 раз быстрее обычного.

Давайте спросим о проекте у основателей!

Мы записали для вас подкаст, в котором поговорили о команде проекта, вдохновении, о пользе нейросетей для компаний сегодня, а также затронули тему общения — что, собственно, отличает нейросеть от специалиста.

Вы можете послушать подкаст на платформе podster. Таймкоды есть на странице подкаста.

Вот некоторые тезисы, которые мы вынесли после обсуждения:

Нейросетей не нужно бояться, ибо они не могут общаться, а именно общение сейчас экономит больше денег, нежели алгоритмы.
Нужно опасаться тех, кто владеет нейросетями и использует их как свое конкурентное преимущество — эффективность специалиста повышается в разы.
Студиям на данный момент выгодно вкладывать в развитие технологий нейросетей внутри компании, так как они еще не вышли на плато развития и не стали дорогими.
Для успешного применения нейронок внутри фирмы нужна коммуникация с рынком и общение с подобными проектами.
Чтобы запустить проект на базе нейросетей достаточно заинтересованного специалиста из любой другой области и грамотного куратора, который будет рекрутить и обучать людей. Вы можете нанять хоть архитектора, хоть медсестру — порог вхождения позволяет это сделать.
Уже скоро во всех резюме должна быть галочка "владею нейросетями".
Традиционные процессы ускоряются с помощью нейросетей в десятки раз, а иногда и в сотни.
Даже сотрудник в штате компании может увеличить свою продуктивность и эффективность благодаря базовым знаниям нейронок, тем самым подняв планку качества CG-графики.

Концовочка

Если у вас есть предложение о сотрудничестве со студией Visual Forge, то вы можете написать Гранту в личку телеграм.

Я также доступен для предложений и вопросов — добро пожаловать в личку.

Мой канал в телеграм.

И помните: умны вы, а не нейросети!

Показать полностью 3 1

[моё] Инновации Искусственный интеллект Разработка Технологии Нейронные сети Стартап Студия Digital Видео Длиннопост

Dmitriy.yiu

9 месяцев назад

Самое понятное объяснение работы Denoising strength в Stable Diffusion. Режимы работы и генерация шума⁠⁠

Продолжая цикл разъяснения параметров нашей любимой нейронной сети Stable Diffusion я решил в этот раз остановиться именно на Denoising Strength, ибо он каждый раз взрывал мне бошку. В прошлый раз я разбирал CFG Scale.

На данный момент шум могут декодировать VAE (вариационные автоэнкодеры), DPM (диффузионные вероятностные модели) и Сэмплеры (специализированные решатели высокого порядка для диффузионных уравнений).

Их задача сводится к тому, чтобы за определенное количество шагов генерации или Sampling steps из полного шума достать четкое изображение, к тому же сформированное по текстовой или визуальной подсказке (другой картинке).

В 2022 году был изобретен и адаптирован под диффузионные нейронные сети сэмплер DPM Solver, который значительно ускорил процесс декодирования шума. С момента его появления начали появляться, DPM Solver++, DPM ++ SDE Karras, DPM++ 2M Karras и другие, которые отличаются лишь методом решения дифференциальных уравнений (ими и убирается шум).

По итогу: чем быстрее вы решаете уравнение, тем меньше времени требуется для денойзинга картинки. И тут приходится балансировать между точностью и скоростью.

На картинке выше вы можете посмотреть скорость работы различных сэмплеров. DPM Adaptive вышел в топы по медлительности потому, что сам определяет количество шагов генерации, что значительно повышает его точность в зависимости от конкретного запроса.

Как работает параметр Denoising strength?

Если нужна научная статья со всей математикой, то рекомендую прочитать данный материал.

Этот параметр мы будем рассматривать в режиме работы img2img, где он нужен для того, чтобы определять, насколько будет преобразовано исходное изображение во что-то новое.

Сейчас коротко залезем в изнанку того, за счет чего вообще происходит генерация img2img и Inpaint.

Обратите внимание на самую правую колонку с Мона Лизой, разберем ее. Во-первых, для создания изображения используется не только текстовые эмбеддинги (зашифрованный текст), но и визуальные эмбеддинги (зашифрованные картинки), плюс учитывается исходник (Мона Лиза).

Т.е. нейросеть не просто накладывает поверх изображения шум и рисует что-то поверх, а полностью с нуля генерирует изображение, предварительно размазывая его с заданной силой.

И чем больше Denoising strength, тем с большей силой нейросеть может опираться не на исходник, а на внутренние эмбеддинги (зашифрованные в ней текст и картинки). А понижением денойза мы обрубаем эти эмбеддинги и не позволяем нейронке работать с шумом.

Выше представлено наглядное доказательство того, что модель Stable Diffusion учитывает исходник и генерирует разный шум в зависимости от контекста.

Слева учитывается контекст всей картинки с яблоком, а справа только определенная область в центре. Шум, сгенерированный на первом шаге, отличается: слева это целая область, а справа второе яблоко внутри первого.

Для закрепления: если Denoising strength небольшой, то шумом ка бы является исходное яблоко, которое уже без шума (его не надо пересоздавать). А если Denoising strength большой, то нейронка подавляет уже новосозданный шум и получает другой результат.

Если сложно, то посмотрим на это дело с другой стороны: представьте, что у вас в руках лупа. Более точная фокусировка эквивалентна низкому denoising strength: все уже сфокусировано, менять ничего не нужно. Ну, а если произошла расфокусировка, то нам срочно нужно это исправить и навести фокус: а пока мы это делаем — происходит генерация.

Разбираем больше примеров генерации шума

К примеру, у нас есть яблоко, и мы хотим его изменить на другое яблоко. Закидываем картинку в img2img, выставляем Denoising strength и жмем Generate.

На нулевом шаге генерации мы имеем наш исходник, который затем размывается и зашумляется. Как вы можете видеть, шум не похож на тот, который появляется при сбоях связи на телевизоре: он не заготовлен, а создается самой моделью. Нейронка как бы упрощает картинку донельзя и размывает ее, превращая в некую заготовку.

Даже при низком показателе Denoising strength мы получаем шум, однако на следующем шаге происходит перерасчет, и мы снова получаем исходное яблоко.

Сравнение методов генерации шума в режиме Inpaint

Далее посмотрим, как влияют на генерацию разные режимы работы генерации шума, среди которых: original, fill, latent noise, latent nothing. По мере продвижения буду комментировать и оставлять комменты для понимания, нафиг это нужно все вообще.

Тесты проводились на модели Deliberate_v2.

Метод original учитывает эмбеддинги исходника и придерживается их при генерации и декодировании шума. Хорош в том случае, если необходимо соблюдать контекст, цвета или формы.

Fill отлично подходит тогда, когда нужно убрать объект с фона или предмета. Этот метод размывает замаскированную область под маской, тем самым создавая пустое пространство.

Latent noise по сути создает случайный шум и затем его декодирует. С помощью данного метода можно как сгенерировать что-то новое в кадре, так и переделать часть объекта с нуля.

Latent nothing всегда создает определенный цвет, поверх которого затем происходит генерация.

Еще я заметил, что разные методики наложения шума по-разному меняют цветовую палитру. Для проведения этого эксперимента и размыл исходник в Photoshop в режиме Средняя, после чего проделал ту же операцию с картинками, на которых есть наложенный шум.

Чем правее стоит пример, тем больше он подвержен изменениям, и тем больше цвет отличается от исходника.

Отличие Inpaint модели от обычной

Inpaint-версия создает шум немного иначе, нежели обычная модель. Я привел данный пример, чтобы еще раз доказать, что шум — это многоэтапный и сложный процесс, который комбинируется с разными эмбеддингами и исходными данными.

Использовал в тестах Reliberate-inpaint. Такого рода модели обучаются дополнительно на масках и контентом под ним, а следование подсказке остается не в приоритете.

Шум Inpaint-модели максимально схож с оригинальной палитрой, а денойз стремится ближе к исходнику, т.е. эмбеддинги изображения явно перевешивают текстовые.

Вот еще примеры — и все также следование исходнику.

Congratulations, вы выжили!

Теперь вы разбираетесь в том, что такое Denoising strength в нейросетях. А если еще нет, то спамьте вопросами. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Буду рад видеть вас в телеграм-канале, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Показать полностью 12

[моё] Искусственный интеллект Нейронные сети Stable Diffusion Digital IT Наука Алгоритм Длиннопост

Dmitriy.yiu

9 месяцев назад

Самое понятное объяснения CFG Scale в нейросетях. Почему эта штука так важна и как повлияла на появление Stable Diffusion⁠⁠

Вы не поверите, но я уже и разработчиков Kandinsky 2.2 спрашивал, что такое CFG Scale в фундаментальном смысле, и нейронщиков всех мастей, однако так не получил внятного ответа. От обывательских блогов меня вообще теперь тошнит, ибо там одно и то же: параметр CFG Scale увеличивает силу следования подсказке... И все как бы, окей — сами разберемся.

Так вот, я начал с базы и открыл научные статьи родоначальников метода classifier free guidance scale. Прикреплю ссылки на них сразу же, чтобы вы тоже могли ознакомиться. Вот статья, посвященная именно CFG Scale для диффузных моделей, а вот статейка о применении данного метода в современных языковых моделях.

Для чего это нужно?

Меня поразил тот факт, что метод CFG Scale и позволил диффузным моделям родиться. До них были GAN-модели, которые совмещали в себе генератор и дискриминатор. Дискриминатор, по-другому, это классификатор. Т.е. моделька сначала генерит изображение, а потом вторая полноценная модель оценивает его на вшивость и корректирует вместе с первой.

Из этого вытекают минусы: например, нужно вместе с одной моделью обучать и вторую (работы в два раза больше). Также нужно, чтобы железо тянуло сразу две модели, ибо они задействуются в паре.

Метод же SFG Scale позволил задействовать только одну модель — диффузнную, т.е. обучать вторую больше не нужно. Чтобы вы понимали, механика описывается парой строк кода. Думаю, вы смекаете, что это намного проще дополнительной полноценной модели, которую еще хранить где-то нужно.

В общем, благодаря CFG Scale мы получили более быстрое и стабильное обучение моделей, которые еще и по точности не уступают GAN-ам, а также могут генерировать изображения в разных разрешениях. Плюс дополнительные надстройки в виде LoRA стали доступны.

Как это работает?

Метод Classifier-Free Guidance Scale использует безусловную и условную генерации, которые перемножаются друг с другом. Грубо говоря, сначала создается изображение без учета текстовой подсказки, а затем с ней. Чем выше CFG Scale, тем больше будет доминировать условное изображение.

Это нужно для того, чтобы мы могли получить либо больше вариативности генерации, либо больше точности — того самого следования текстовой подсказке. Получается, что чем ниже CFG Scale, тем нейронка свободнее в своих действиях, а чем больше — наоборот, скованнее.

Так как формула просчета CFG Scale и перемножения двух генераций простая, то и минусы из этого следуют такие же простые и очевидные. Всем ясно, что математематические формулы можно совершенствовать до бесконечности, повышая точность и скорость. И это делают, сейчас разберем как.

Вот вам наглядная демонстрация влияния CFG Scale на качество генерации.

Как вы можете видеть, первое изображение при низком CFG Scale близко к безусловному, т.е. не учитывающем классы из текстовой подсказки. При высоком же значении этого параметра мы получаем те самые минусы математики, о которых я говорил выше. Нейросеть как бы пытается достать генерацию, выдавить ее через трафарет, максимально четко охарактеризовать объект.

Помните лизуна в сетке? Представьте, что когда вы сжимаете его, то увеличиваете тем самым CFG Scale. Т.е. вы проталкиваете подсказку через некий трафарет (сетка — это безусловное базовое изображение, а лизун — это условное изображение, сформированное подсказкой).

Теперь посмотрим на чрезмерное увеличение контрастности изображения в Photoshop. Принцип по сути очень похож: мы пытаемся усилить цвета и как бы выделить на фоне остальных, т.е. выжать, как того самого лизуна.

Снова возвращусь к минусам математики и ее бесконечном улучшении. Взгляните на примеры выше и сравните с предыдущими. Высокие значения уже не так коверкают генерацию, как раньше, а помогло в этом расширение CFG Dynamic trashholing, которое не выдавливает, а спиливает ненужные части. Вместе с лишним уходит и освещенность, но это все же лучше артефактов. Суть метода в том, чтобы как бы отодвигать яркие пиксели назад, тем самым уменьшая эффект ярких артефактов.

Про данное расширение и другие способы увеличить качество ваших генераций в десятки раз у меня, кстати, есть ролик.

Еще одной иллюстрацией механики CFG Scale можно считать два негативных промпта у нейросети Kandinsky 2.1, один из которых является безусловным, а другой условным. При CFG Scale < 1 отрицательная подсказка игнорируется.

По ссылке вы можете найти официальную документацию Kandinsky 2.1, а также прочитать буклет Google о classifier-free guidance scale, на который ссылаются разработчики Кандинского.

Что по итогу?

А по итогу мы имеем представление о методе, который является одним из родителей диффузных моделей, к примеру, Stable Diffusion или Midjourney.

Теперь нам не нужен дискриминатор, а модель генерирует изображение за несколько шагов, что дает массу простора в контроле генерации. Мы можем и ControlNet подрубать, и LoRA, всякие разные расширения, дополнения.

Но не только ControlNet-ом хороши современные нейронки, но и целыми каскадами других, не менее масштабных сетей. У Midjourney, к примеру, есть сеть-генератор формы объекта, граней, апскейла, раскраски и много чего еще. С GAN-моделями такое было бы практически невозможно совместить.

Если вы хотите глубже погрузиться в диффузные нейросети, то советую прочитать этот материал, который мне также помог в изучении темы. Также продублирую статью о методе CFG Scale в диффузных моделях, а также статью о применении методики в языковых моделях.

Congratulations, вы выжили!

Теперь вы разбираетесь в том, что такое CFG Scale в нейросетях. Буду рад обратной связи и вашим комментариям, а также приглашаю в свой телеграм чат, где отвечу на все вопросы касаемо SD.

Буду рад видеть вас в телеграм-канале, где я собираю лучшие гайды по Stable Diffusion. А если не найду, то пишу сам.

Показать полностью 7

[моё] Искусственный интеллект Нейронные сети Digital Stable Diffusion Наука IT Диффузия Генерация Статья Научная статья Длиннопост

Отличная работа, все прочитано!

1 2 3 4

Dmitriy.yiu

RTX 4090

Коротко о функционале

Мы дошли до конца!

Додумывание концовок к тем рассказам, где этого не стоило бы делать

На очереди у нас повесть "Олеся" Александра Куприна.

Далее рассказ "Водосток" Рэя Брэдбери

В финале у нас рассказ Теда Чана "Понимай"

Итог и мои мысли

Мы дошли до конца!

Что нам понадобится?

Регистрируемся

Анализируем бешеные объемы текста за минуты!

Извлекаю субтитры

Congratulations, вы справились!

Стили для ваших генераций

Congratulations, мы закончили!

Немного об условиях формирования проекта

Че там по УТП и преимуществам?

А самое крутое!

Давайте спросим о проекте у основателей!

Концовочка

Как работает параметр Denoising strength?

Разбираем больше примеров генерации шума

Сравнение методов генерации шума в режиме Inpaint

Отличие Inpaint модели от обычной

Congratulations, вы выжили!