Я вот не пойму, почему она в более менее нормальную анатомию могёт, а изобразить в глазу склеру, радужку, зрачок, нет? Или это разрабы спецом сделали, чтобы готовыми результатами не барыжили?
Тогда, похоже, действия сетки похожи на действия последователей культа карго: "Вот тута должно быть что-то круглое, блестящее. Рисуем что-то похожее"?
Там примерно такой процесс:
- Видишь в этом шуме кота?
- Ну так, процентов на 5...
- А что надо сделать, чтобы ты видела тут кота?
- Ну или вот тут вот это, или вот тут вот это, или вот тут вот это...
- Хорошо, вот тебе все твои варианты, в каком больше всего видишь кота?
- Вот в этом, процентов на 20...
- А что надо сделать, чтобы ты видела тут кота уверенней?
- Ну или вот тут вот это, или вот тут вот это, или вот тут вот это...
- Хорошо, вот тебе все твои варианты, в каком больше всего видишь кота?
- Вот в этом, процентов на 50...
И так по кругу. В процессе генерации картинки это очень хорошо видно. На последних процентах уже просто этот принцип немного перестает работать, точнее упирается в diminishing returns, как их по-русски-то..
А вот в чем именно заключается "видишь кота" - это никак толком не охарактеризовать. Речь даже не о "пушистое", "с ушами" и так далее. Потому что морда кота, где не видно даже ушей - это тоже кот. И сидящий спиной на окне силуэт, где не видно даже морды - это тоже кот. И когда сеть обучалась, когда формировались коэффициенты, использовались миллионы изображений, для каждого из которых было известно, есть там кот или нет кота. Без других вводных. Там сугубо математичная херня, которая из цветов точек входного изображения путем перемножения матриц получает на выходе информацию, какое слово с какой уверенностью оно видит.
Ну и сказанное выше верно для любого тега, не обязательно кота, не обязательно даже предмета. Эпичность, синематичность, фотографичность, все вот эти слова тоже оцениваются математически.
Все верно, там GAN Используется (хотя вы это наверняка знаете). Одна нейронная сеть обучается на основе гигантского набора признаков (теггирование) изображений, потом пытается нарисовать то, что ее попросили. Вторая нейросеть пытается найти изображенное и проставляет рейтинг качества совпадения.
Милота
14.7K поста14.8K подписчика
Правила сообщества
1. Мы против "негативного" и "грустного" постинга, способный ввергнуть в уныние рядового пользователя Пикабу (потеряшки, поиск хозяина, смерть питомца/человека и т.п.).
В случае нарушения данного правила пост переходит в общую ленту, возможна временная блокировка
2. Мы против комиксов и изображений с текстом
3. Никакого "клубничного" контента (эротики)
4. Во избежание разогласий просим воздержаться от неоднозначного контента, который может порадовать далеко не всех (сюда входит контент, связанный с фандомами в том числе)
5. Просим соблюдать позитивные настроения в целом!