Привет, друзья, 22 октября Stability AI представила долгожданное обновление своей флагманской модели — Stable Diffusion 3.5. После не самого удачного релиза SD3 Medium в июне этого года, команда взяла паузу для серьёзной переработки архитектуры. Вместо быстрых фиксов разработчики потратили четыре месяца на фундаментальные улучшения. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист и сейчас мы с вами вместе разберемся, что изменилось и действительно ли стоило так долго ждать.
Революция в архитектуре
Ключевым изменением стал переход на архитектуру MMDiT (Multimodal Diffusion Transformer). В отличие от предыдущих версий, новая модель использует сразу три предобученных текстовых энкодера. Это серьезное техническое решение, которое потребовало значительной переработки всей архитектуры.
Принципиально новая архитектура MMDiT с тремя специализированными текстовыми энкодерами:
OpenCLIP-ViT/G для понимания общего контекста и стилей
CLIP-ViT/L для детального анализа визуальных элементов
T5-XXL для обработки сложных текстовых описаний и пространственных отношений
Внедрение QK-нормализации для стабилизации работы трансформеров, что позволяет лучше контролировать процесс генерации и упрощает дальнейшую настройку модели
Увеличенная до 256 токенов длина контекста на этапе тренировки, что улучшает понимание детальных промптов
Оптимизированный VAE-декодер с 16 каналами и без постквантизации для лучшей цветопередачи и детализации
Три модели для разных задач
Впервые Stability AI предлагает сразу три варианта модели. Флагман линейки — Stable Diffusion 3.5 Large с 8 миллиардами параметров, способный работать с разрешением до 1 мегапикселя. Для задач, где критична скорость, создана версия Large Turbo, выдающая результаты всего за 4 шага. Модель генерирует на RTX 4090 за 20 секунд.
А 29 октября ожидается релиз Stable Diffusion 3.5 Medium — облегченной версии с 2.5 миллиардами параметров. Эта модель оптимизирована для работы на обычных компьютерах и поддерживает генерацию изображений от 0.25 до 2 мегапикселей.
Честно о компромиссах
Разработчики открыто говорят об особенностях новой версии. Расширение базы знаний и стилей привело к тому, что модель стала менее предсказуемой при работе с неконкретными промптами. Это сознательное решение — сохранить максимально широкую базу знаний в базовых моделях, давая пользователям больше возможностей для тонкой настройки под свои задачи.
Сравнительное тестирование
Мы провели тестирование SD 3.5 в сравнении c SDXL 1.0 и Black Forest FLUX.1 dev. В такой же последовательности ниже представлены результаты - SD 3.5 затем SDXL 1.0 и потом Black Forest FLUX.1 dev. Пишите в комментарии где по вашему лучший результат. Сид и настройки генерации идентичные. Модели SD 3.5 понятно стандартная, запущенная в комфи на этом воркфлоу, SDXL модель это Juggernaut XL V9 на ArtGeneration.me и Flux 1 dev nf4 v2 запущенная в Forge.
Тест фотореализма
ultra-detailed professional photography: close-up portrait of a weathered elderly craftsman in his workshop, natural window lighting casting dramatic shadows, every wrinkle and skin texture visible, Canon EOS R5, 85mm f/1.2 lens, 4K resolution, hyperrealistic details of wood shavings and tools in background, condensation droplets on nearby water glass, dust particles in sunbeams, {realistic skin pores, subsurface scattering, chromatic aberration}, professional color grading, photojournalistic style, award-winning National Geographic quality, RAW format
Тест цифровой иллюстрации
epic digital art: futuristic cyberpunk marketplace at golden hour, holographic merchant stalls floating between neon-lit skyscrapers, hundreds of detailed alien species trading exotic goods, volumetric fog effects, ray-traced lighting, cinematic color grading, intricate mechanical details, 8K resolution, created in Unreal Engine 5, {ambient occlusion, global illumination, metal roughness mapping}, concept art quality, trending on ArtStation, otherworldly atmosphere, dynamic composition
Тест аниме-стиля
high-end anime artwork: magical academy graduation ceremony, cherry blossoms swirling in wind, diverse student characters with unique magical artifacts and detailed uniform designs, golden magic circles appearing in sky, Studio Ghibli quality backgrounds, perfect cel shading, emotional lighting, multi-layered particle effects, {clean line art, detailed eyes, dynamic fabric flow}, masterful composition, vibrant color palette, cinematic aspect ratio, high production value
Тест типографики
experimental typography design: 'EVOLUTION' text morphing from ancient hieroglyphs into futuristic digital script, each letter contains detailed micro-scenes of human progress, metallic 3D elements with scratch textures, dynamic perspective, precise kerning, neon accents, floating geometric shapes, 32K resolution, {perfect antialiasing, vector precision, multiple light sources}, professional typographic hierarchy, cutting-edge design trends, seamless transitions
Тест точности композиции
classical concert hall setting, professional orchestra performance scene, female conductor with flowing crimson tailcoat centered in golden ratio, cellist in navy suit and violinist in ivory dress in foreground, pianist in black tuxedo and harpist in silver gown performing, flutist in forest green and clarinetist in burgundy at middle distance, trumpet player in charcoal gray and french horn in purple creating depth, timpanist in white and black, violist in sapphire blue, bass player in russet brown and oboist in slate gray completing background, mahogany-paneled walls, golden baroque details, red velvet curtains, polished hardwood stage, dramatic stage lighting, 8K resolution, hyperrealistic details, concert photography, professional staging
Тест сложной сцены
steam locomotive train station evening scene, tall station master in burgundy gold-trimmed uniform checking ornate pocket watch at center platform, wealthy family of four (father in navy tailcoat and top hat, mother in emerald bustle dress with parasol, son in brown suit with newsboy cap, daughter in powder blue dress) waiting near left platform, three vendors (copper-vested coffee seller, gray-capped newspaper boy, girl in white apron selling flowers) working near entrance, engineering team in brass uniforms and oil-stained overalls inspecting locomotive, three traveling academics (professor in tweed, assistant in olive dress, student in burgundy uniform) consulting large map, steampunk mechanical details, brass and copper fixtures, billowing steam effects, gas lamps casting warm light, photorealistic quality, 8K resolution, cinematic framing
Доступность и использование
Модель распространяется под Stability AI Community License, которая предполагает свободное использование для исследований и некоммерческих целей. Коммерческое использование разрешено компаниям с годовым доходом до $1 млн, для более крупных организаций предусмотрена Enterprise License.
А что насчет 🔞?
Тут ситуация точная такая же, как и с Flux, из дата сета был убран весь NSFW контент, в результате модель просто не знает что должно быть у людей под одеждой и рисует - что-нибудь типа одежды в лучшем случае, что-нибудь типа человеческой многоножки - в худшем. Как мы видим с Flux - файтюнингом ситуация не решается.
Полезные ссылки и ресурсы
Официальные ресурсы
Модели и код
Прямые ссылки на скачивание моделей
Необходимые энкодеры
Что дальше?
29 октября ожидается релиз Stable Diffusion 3.5 Medium, а следом за ним — выход ControlNet с расширенными инструментами контроля над генерацией. Судя по дорожной карте, команда Stability AI сфокусирована на развитии профессиональных инструментов и улучшении пользовательского опыта.
Новый релиз Stable Diffusion демонстрирует, что команда Stability AI серьезно подошла к работе над ошибками после не самого удачного запуска SD3. Вместо быстрых фиксов они провели фундаментальную работу над архитектурой и представили продукт, учитывающий различные сценарии использования. Но стало ли лучше? Об это судить вам.
Предлагаю протестировать новую версию на своих задачах и поделиться результатами в комментариях. Интересно узнать, как SD 3.5 показывает себя в реальных проектах и стилях.
Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.
Как вы оцениваете Stable Diffusion 3.5?