Рик Эстли! Уже 60 лет! Вот время летит...
Ну что? Вспомним хиты?
Если вы пробовали генерировать картинки с русскими надписями — знаете эту боль
Запрашиваете у нейросети открытку ко дню рождения с подписью «С днём рождения, Маша», а получаете «C дhём pождehя, Mаwа». Буквы кривые, слова — нечитаемая каша. Хотели открытку — получили современное искусство.
Это не случайность. Большинство моделей для генерации изображений обучаются на открытых датасетах, в которых русский язык представлен слабо. Английские надписи получаются плюс-минус сносно, а с русскими модель буквально не знает, как они должны выглядеть.
Мы взялись за эту задачу в Алисе AI и хотим рассказать, что получилось.






Что сделали
Собрали новый датасет — картинки с русскоязычными надписями и детальной разметкой текста. Параллельно переписали архитектуру модели Alice AI ART, которая отвечает за генерацию изображений.
В итоге картинки с корректным русским текстом — без кривых букв и нечитаемых символов — стали получаться в 3 раза чаще, чем раньше. Заодно подтянулось и общее качество: доля картинок без визуальных искажений выросла на треть.
Как пользоваться, чтобы получилось хорошо
Тут несколько простых приёмов, которые сильно повышают шансы на нормальный результат:
Текст в кавычки. Если хотите конкретную надпись на картинке — напишите её в кавычках в запросе. Модель так понимает, что это именно текст, а не описание.
Сложные слова — заглавными. Если слово длинное или редкое, заглавные буквы помогают модели не запутаться.
Длинные надписи — на короткие фразы. Чем короче кусок текста, тем больше шансов, что он отрисуется без ошибок. Если нужна большая надпись, разбейте её на несколько частей.
С этими тремя приёмами уже можно делать постеры, афиши и открытки, которые не стыдно показать.
Заодно подтянули русский культурный код
Это, кажется, отдельная боль всех нейросетей: попросишь «русский народный ансамбль» — а на картинке люди, отдалённо напоминающие участников фолк-фестиваля где-нибудь в Скандинавии.
Мы дообучили модель на русскоязычных промптах и добавили систему, которая превращает общие запросы в более конкретные визуальные образы. Теперь по запросу «русский народный ансамбль» получаются гармонисты и балалаечники. «Традиционный русский праздничный стол» — это икра, соленья и самовар. А на иллюстрациях про космос появляются российские космонавты, а не безликие астронавты в скафандрах непонятной страны.
Где это работает
Новая модель уже работает в чате с Алисой AI — попробовать можно прямо сейчас.
Реклама ООО «Яндекс», ИНН: 7736207543 erid:3apb1QrvkfDXctBjSXMMdCHhrNy7KqAGzLrvTiV31SHdc
Ответ на пост «МерваЛОЛ )»1
Гигачат
Нарисуй картинку - обложку для пластинки рэп-группы Корвалол. Фон - репбаза в подвале. Четыре участника, одетые в кеды, джинсы, майки, волосы черные средней длины. Один с гитарой, другой с микрофоном, третий с барабанами, четвертый с ершиком. Стиль 80-х годов
Правда, это уже Ramones какие-то получаются
Если же конкретизировать промпт:
Нарисуй картинку - обложку для пластинки рэп-группы "Корвалол" в стиле 80-х годов!
Представьте себе подвал, оформленный в духе хип-хоп культуры: стены покрыты граффити с яркими цветами, а на полу разбросаны старые виниловые пластинки и музыкальные инструменты. В центре композиции стоят четыре участника группы, каждый из которых олицетворяет свой уникальный стиль.
1. Первый участник — с гитарой, он одет в яркие кеды и рваные джинсы, его майка украшена принтом с логотипом группы. Его волосы черные средней длины, он уверенно играет на гитаре, создавая ритм для своих товарищей.
2. Второй участник — с микрофоном в руках, он встает на переднем плане, его взгляд сосредоточен, он готов выступить. Одет в стильную майку и спортивные штаны, его волосы тоже черные и слегка растрепанные, что придает ему атмосферу уличного исполнителя.
3. Третий участник — за барабанами, он полон энергии, его руки быстро двигаются по барабанам. Он носит широкие штаны и яркие кроссовки, а на его майке видно множество нашивок. Его волосы, как и у остальных, черные и немного волнистые.
4. Четвертый участник — с ершиком, он добавляет элемент юмора в композицию, держит ершик с улыбкой, будто собирается сделать что-то неожиданное. Он одет в свободные джинсы и яркую футболку с графикой в стиле 80-х.
Фон подвала освещен неоновыми огнями, которые придают сцене динамичность и создают атмосферу вечеринки. В углу виднеется старый магнитофон, из которого доносятся ритмы старого хип-хопа.
Эта обложка передает дух времени, креативность и энергию группы "Корвалол", и будет отлично смотреться на полках коллекционеров виниловых пластинок!
NanoBanana, конкретизированный промпт, музыканты чОрные









