PsyEyesOfficial

Креатив + AI + Web3... и мемы Личная страница https://t.me/+U6skQIZEFgAxZjEy

На Пикабу 3 года 2 месяца 3 недели 1 день

Дата рождения: 11 ноября

поставил 67 плюсов и 1 минус

отредактировал 1 пост

проголосовал за 0 редактирований

3239 рейтинг 21 подписчик 17 подписок 56 постов 7 в горячем

PsyEyesOfficial

Обзор опенсорсного генератора картинок Krea 2⁠⁠

1 месяц назад

Это 12B DiT модель в двух версиях:

Raw — базовый чекпоинт для тренировки лор и файнтюна. Непригоден для инференса.
Turbo — чекпоинт для генерации картинок. Можно использовать со своими лорами, натренированными на Raw.

Есть только text-2-image режим. Редактирования текстом, подключения рефов, Image-2-image — этого нет.

При создании датасета разработчики полностью исключили сгенерированные картинки из этапа претрейна, используя свои фильтры для очистки данных от «цифрового пластика». Благодаря этому модель выдает более живые, разнообразные и арт-ориентированные стили.

Krea 2 выдаёт изображения с высокой детализацией, хорошей анатомией, чёткими надписями, без блюра, сетки, и без шумов как Z-image Turbo при тех же 8 шагах. Модель напоминает по скорости и качеству опенсорсный Ernie-Image от Baidu, но Krea 2 не ловит таких артефактов как она.

Вместе с моделью идёт улучшайзер промта, как опять же в Ernie, но он может как сделать картинку детальнее, так и увести её в совсем другое русло. Лучше начальный промт иметь поконкретнее.

Следование самому промту в Krea 2 хорошее: сцена, персонажи и объекты будут располагаться как указано. Причём, так как текстовый энкодер Qwen3VL понимает русский, можно промтить прямо на русском. Но на любом языке ощущается малая вариативность по одному и тому же промту с разными сидами. Так что играться с промтами придётся.

Turbo модель заточена генерить в разрешениях от 1 МП (1024х1024) до 4 МП (2048х2048), хотя можно выставить и 16 МП (4096х4096), но тогда появляются проблемы с анатомией и часто объекты/персонажи начинают двоиться в кадре. В 2048х2048 картинка ощутимо чётче и детальнее, чем в 1024х1024. Можно даже сказать 2048х2048 стоит использовать как дефолтное разрешение. В воркфлоу из шаблонов Comfy размер картинки задаётся в МП (мегапикселях) в ноде Resolution Selector. Если что, её можно отстегнуть и задавать разрешение вручную.

Тесты а 4090 и 128 ГБ RAM:

При использовании Krea 2 Turbo bf16 и текстового энкодера Qwen3VL 4B bf16 в видеокарту загружается до ~23 ГБ VRAM, а в оперативку до ~10 ГБ. На генерацию 1024x1024, 8 шагов, cfg 1 = уходит 5 сек. Генка в 2048х2048 уже занимает 23 сек.

Использование fp8 весов модели и энкодера снизит общее потребление до 18-20 ГБ VRAM. Генерация 1024x1024, 8 шагов, cfg 1 = займёт 4 сек, а 2048х2048 уже 21 сек. Качество при этом останется хорошим, но могут появиться лишние конечности, а изображение потеряет немного в чёткости и станет шумным в мехе и подобных мелких вещах.

Тренировка лор уже завезена в AI-Toolkit, а также в Musubi. Я опробовал треню в AI-Toolkit и модель очень быстро подхватывает нужный стиль. На моём железе квантованная версия тренируется на скорости ~6 сек/шаг, а неквантованная уже +6 мин/шаг.

Krea и сами выпустили подборку лор, которые можно использовать в воркфлоу Comfy из шаблонов. У кого-то даже получается на Krea 2 натренировать лору на стиль, который раньше не давался.

Разрабы выпустили технический отчёт с деталями по тренировке модели. Ждём теперь от рисовой братвы новых качественных генераторов картинок и финтов с Krea 2, которым её не учили. Кто-то уже NSFW прикрутил.

Есть гайд по промтингу от Krea.

Лицензия разрешает использование модели в коммерческих целях, если общий доход за год меньше $1 млн, и не пилится NSFW на её основе.

Отдельный респект им за выкладывание модели торрентом с магнитной ссылкой.

magnet:?xt=urn:btih:2a644d0279182a022d08dd395ea593cfcc218e12&dn=watering-hole.zip

С хаггинга то и дело качаешь сотни гигов, и у них то скорость скачивания падает, то оно обрывается и надо качать заново. А если бы они бы генерили магнетлинки, то через qBittorent и иже с ними всё качалось бы без проблем, да и нагрузка на их сервера была бы меньше.

Моя нейропещерка Psy Eyes: https://t.me/+U6skQIZEFgAxZjEy

Показать полностью 9

PsyEyesOfficial

Экономика

Цены на игры и интернет, журнал "Хакер", август 2003⁠⁠

2 месяца назад

1/8

Доллар по ~31,5 руб на тот момент.

Я тогда у себя в городе таких цен не видел. На рынке пиратки были по 100-150 руб. А диски менялись и того дешевле. Единственно лицушный первый Splinter Cell на 3-4 дисках мне тогда родители купили за 300 руб где-то. Это был первый и единственный раз, когда я прочитал от начала и до конца пользовательское соглашение.

Показать полностью 8

Цены Игры Интернет

354

PsyEyesOfficial

Баяны

Юмор

Хватит на сегодня интернета. Баиньки!⁠⁠

4 месяца назад

Контент нейросетей Мемы Милота Видео Вертикальное видео Короткие видео

PsyEyesOfficial

Кино и сериалы

Quick fix V2⁠⁠

5 месяцев назад

Показать полностью 1

Контент нейросетей Арты нейросетей Сериалы God of War Видео Без звука Короткие видео

PsyEyesOfficial

Кино и сериалы

Чутка пофиксил⁠⁠

5 месяцев назад

Кожа всё ещё пластиковая, глаза плывут, шарп гуляет.

Но это quick fix.

Было:

Больше тестов и приколюх в моей нейропещерке Psy Eyes:

https://t.me/Psy_Eyes

Показать полностью 2

Контент нейросетей Арты нейросетей God of War Сериалы Видео Без звука Короткие видео Telegram (ссылка) Длиннопост

PsyEyesOfficial

Stable Diffusion & Flux

Юмор

С наступающим Новым Годом, котаны!⁠⁠

6 месяцев назад

Вот заодно ещё немного дублей

1/8

Показать полностью 9

[моё] Контент нейросетей Картинка с текстом Арты нейросетей Мемы Длиннопост

PsyEyesOfficial

ChatGPT

Юмор

Под капотом агентной AI-модели⁠⁠

1 год назад

Оригинал был таков

Расширил два раза через Diffusers

1/2

Больше ништяков в моей нейропещерке Psy Eyes: https://t.me/+U6skQIZEFgAxZjEy

Показать полностью 4

Мемы Нейронные сети Арты нейросетей Эксперт Telegram (ссылка) Длиннопост

PsyEyesOfficial

Искусственный интеллект

Triniti: меняем голос в песне или записии речи⁠⁠

2 года назад

CreateSafe: добавили в свою звуковую модель Triniti возможность менять голос из любой песни / записи речи на голос Grimes, DAOuda, или Adrienne. Достаточно скормить ссылку на YouTube, файлик, или сделать запись с микрофона. Работает даже на русском.

На генерацию уходит пара минут. Качество на выходе отличное: музыка почти не обрезается по частотам и не тонет в шумах, а голос звучит гармонично, не задвигая инструменты на задний план.

В сложных фрагментах (скрим, эффекты на голосе, итд) сгенерированный вокал может проседать, потому что этого не было в тренировочных данных. В этом плане RVC и работа ручками всё также в топе.

Через Triniti можно будет клонировать свой голос, регистрировать его на блокчейн, и монетизировать через смарт контракты. Помимо этого там можно генерить музыку, получать от нейронки ответы про музыкальную индустрию, вычислять роялти со сделок, и скоро делать дистрибуцию, в том числе и генератива.

Трек: Васса Железнова — Дети Балконов

Больше интересностей у меня в телеге Psy Eyes: https://t.me/+U6skQIZEFgAxZjEy

Показать полностью

Искусственный интеллект Нейронные сети Видео Telegram (ссылка)

Отличная работа, все прочитано!

1 2 3 4 5 6

PsyEyesOfficial

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества