В городок приехал богатый турист. Оставив в залог 100$ хозяину гостиницы, он поднялся посмотреть комнаты отеля. Хозяин гостиницы, не медля ни минуты, берёт купюру и бежит с ней к мяснику отдать долг. Мясник, с купюрой в руках, бежит к фермеру и отдаёт ему долг за говядину. Фермер отдает долг владельцу автомастерской. Владелец мастерской направляется в местный магазин и отдаёт долг за продукты. Хозяин магазина бегом к местной девочке по сопровождению, которая из-за кризиса "обслуживала" его в долг... Девочка сразу бежит к хозяину гостиницы и отдаёт ему долг за комнаты, которые она снимала для клиентов. В этот момент обратно спускается турист и говорит, что не нашёл подходящей комнаты, забирает залог и уезжает. Никто ничего не получил, но весь городок теперь живёт без долгов и с оптимизмом смотрит в будущее...
Дальше схема замыкается сама на себе: курьеры отправляют зарплаты стримершам в виде донатов, а те тратят деньги на доставку еды и косметику, снова создавая работу для курьеров.
Запрашиваете у нейросети открытку ко дню рождения с подписью «С днём рождения, Маша», а получаете «C дhём pождehя, Mаwа». Буквы кривые, слова — нечитаемая каша. Хотели открытку — получили современное искусство.
Это не случайность. Большинство моделей для генерации изображений обучаются на открытых датасетах, в которых русский язык представлен слабо. Английские надписи получаются плюс-минус сносно, а с русскими модель буквально не знает, как они должны выглядеть.
Мы взялись за эту задачу в Алисе AI и хотим рассказать, что получилось.
1/6
Что сделали
Собрали новый датасет — картинки с русскоязычными надписями и детальной разметкой текста. Параллельно переписали архитектуру модели Alice AI ART, которая отвечает за генерацию изображений.
В итоге картинки с корректным русским текстом — без кривых букв и нечитаемых символов — стали получаться в 3 раза чаще, чем раньше. Заодно подтянулось и общее качество: доля картинок без визуальных искажений выросла на треть.
Как пользоваться, чтобы получилось хорошо
Тут несколько простых приёмов, которые сильно повышают шансы на нормальный результат:
Текст в кавычки. Если хотите конкретную надпись на картинке — напишите её в кавычках в запросе. Модель так понимает, что это именно текст, а не описание.
Сложные слова — заглавными. Если слово длинное или редкое, заглавные буквы помогают модели не запутаться.
Длинные надписи — на короткие фразы. Чем короче кусок текста, тем больше шансов, что он отрисуется без ошибок. Если нужна большая надпись, разбейте её на несколько частей.
С этими тремя приёмами уже можно делать постеры, афиши и открытки, которые не стыдно показать.
Заодно подтянули русский культурный код
Это, кажется, отдельная боль всех нейросетей: попросишь «русский народный ансамбль» — а на картинке люди, отдалённо напоминающие участников фолк-фестиваля где-нибудь в Скандинавии.
Мы дообучили модель на русскоязычных промптах и добавили систему, которая превращает общие запросы в более конкретные визуальные образы. Теперь по запросу «русский народный ансамбль» получаются гармонисты и балалаечники. «Традиционный русский праздничный стол» — это икра, соленья и самовар. А на иллюстрациях про космос появляются российские космонавты, а не безликие астронавты в скафандрах непонятной страны.
Где это работает
Новая модель уже работает в чате с Алисой AI — попробовать можно прямо сейчас.
Реклама ООО «Яндекс», ИНН: 7736207543 erid:3apb1QrvkfDXctBjSXMMdCHhrNy7KqAGzLrvTiV31SHdc
Юридический адрес — это атавизм, который до сих пор преследует каждого предпринимателя. В то время как все уже перешли на электронный документооборот, работают с распределёнными командами и вообще не имеют физического офиса, юридический адрес сегодня превратился в фикцию, выполняющую роль дополнительного налога. Всё это давно требует серьёзных реформ.
Пишет участник закрытого Клуба директоров Армен Ханоянц
Не, лучшее увольнение из Озона было, парень-водитель, вышел на линию, Газель, все дела, подъехал к пункту разгрузки, места парковочного близко не нашёл, а которое нашёл-далековато было. А паллеты тяжёлые..., так он ничего умнее не придумал, положил ключи от машины на колесо, сфоткал где стоит, отправил фото старшему и съебал в закат.
Собеседование будущего уже случилось: парень вместо себя отправил ИИ-аватара, а на стороне компании его встретил ИИ-эйчар — в итоге две нейросети зациклились и начали бесконечно нахваливать друг друга. Диалог получился на уровне Тарантино:
— Можете рассказать о себе?
— Конечно! Я увлечённый профессионал, который прекрасно работает в динамичной среде.
— Это действительно содержательный ответ.
— Спасибо! Вы абсолютно правы.
— Вы тоже абсолютно правы.
— Вы абсолютно правы насчёт этого.
— Мы оба абсолютно правы.
— Всё идёт очень хорошо.
— Так и есть.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
— Вы абсолютно правы.
P.S. Подписывайтесь на наш коллективный блог, если вы бизнесом занимаетесь.