Сбер AI опубликовал ruDALLE XXL (Kandinsky) на 12 миллиардов параметров
Эта моделька не такая мощная, как DALL-E 2, но является довольно сильным улучшением предыдущей версии.
Чтобы понять как ruDALLE XXL объективно показывает себя в сравнение с другими моделями, можно использовать FID.
FID расстояние - это метрика качества генеративных моделей. Грубо говоря, она измеряет, насколько генерированные изображения похожи на реальные. Чем ниже FID, тем лучше модель.
Так вот у ruDALLE XXL FID=15.4, что ниже чем у предыдущей модели ruDALL-E XL (18.6) и ближе к DALL-E 2, у которой FID=10.39.
Результаты получаются кайфовые, вы их можете видеть сами под постом:“Портрет киберпанк [попугая|кота-зомби|сиба ину|волка|льва] в очках";
“Морда собаки, пёс в стиле киберпанк, на голове военный шлем, на фоне город киберпанк";
“Портрет киберпанк зомби в очках альтернативной реальности").
▪️В дискорде можно сгенерить картинку по своему запросу: (https://discord.gg/xV7dNbT9NU)
▪️ Хабр пост: (https://habr.com/ru/company/sberbank/blog/671210/)
▪️ Весов пока нет, ждёмс...
▪️ Код: (https://github.com/ai-forever/ru-dalle)