Принципы работы графических нейросетей⁠⁠

«Искусственный интеллект — это способность компьютера выполнять виды деятельности человека, НЕ требующие логического интеллекта». Ольга Анатольевна Ускова

Тезис № 1. Опыт одного человека очень ограничен, это видно, когда он начинает креативить «на потоке» без Профессиональных методик.

Тезис № 2. Есть рутинные задачи, которые требуют минимальной новизны.

Зачем нам рисунки?

Ещё в палеолите люди догадались с помощью рисунков передавать информацию. Этот способ продолжает развиваться, и речь идёт не только о художественных картинах. Например, сугубо утилитарные изображения, начиная от родовых гербов и заканчивая вывесками в лавках, должны передавать данные о своём владельце, а поэтому обязаны отличаться от других, то есть содержать некоторую новизну.

Как создать новизну?

Чтобы получить новизну, нужно для начала разузнать, что уже есть у других. Если раньше с гербами опытный геральдист ещё мог справиться с помощью памяти и толстенного справочника, то охватить всё разнообразие логотипов современных компаний без использования обширной базы данных невозможно. При этом нужно и далее создавать всё новые и новые изображения.

Попытки автоматизировать работу с изображениями идут с середины ХХ века. Первая компьютерная модель распознавания и классификации изображений, простейших геометрических фигур — это перцептрон. Его разработал Фрэнк Розенблатт в 1958 году.

Распознавать изображения научились далеко не сразу. Если кратко, то алгоритм работает так: сначала изображение раскладывается на отдельные пиксели и группы пикселей, потом в их сочетаниях алгоритм ищет статистические закономерности, ориентируясь на взаиморасположение и цвет пикселей. (Источник: Как работают нейросети-художники: никакого творчества, простое ремесло) И поначалу алгоритмы с трудом могли отличить кошку от собаки.

На втором этапе нужно было решить обратную задачу — находить изображения по описанию.

Наконец, оставалось создать алгоритмы, способные на основе имеющейся базы данных создавать новые изображения.

Новизна на потоке?

Подобную нейросеть для решения профессиональной задачи — создание логотипов на заказ — разработала дизайн-студия Артемия Лебедева. В описании нейросети указано, что алгоритм содержит несколько нейросетей, которые генерируют логотипы на основании текстового описания заказа, более того алгоритмы сами ищут дополнительные ассоциации [1].

В общем виде алгоритм работает следующим образом:

1. Нейросеть подбирает образы по ключевым словам, далее ищет синонимы, увеличивая число ассоциаций;

2. Нейросеть генерирует новые изображения из имеющихся в её базе данных;

3. Результаты сравниваются с базой данных, явный плагиат и повторы отсеиваются.

На первом шаге уже есть некоторые сложности, не все нейросети хорошо работают с запросами, составленными в свободной форме. Поэтому пользователи уже разработали чек-листы по правильному формулированию запросов для графических нейросетей:

1. Запрос на английском языке;

2. Вначале точно назовите объект и стилистику;

3. НЕ пишите абстрактно;

4. Добавьте прилагательные и глаголы в форме действия;

5. Укажите нужное количество объектов;

6. НЕ используйте отрицательные частицы;

7. Используйте несколько разных синонимов в описании [2].

На втором этапе алгоритма нейросеть делает поиск изображений по ключевым словам, а затем комбинирует полученные результаты. Эта способность комбинировать делает её похожей на Морфологический анализ, известный по работам «средневекового монаха Раймонда Луллия (примерно XIII-XIV века) и астрофизика Фрица Цвикки, работавшего в США в середине XX века» [3].

Суть морфологического анализа заключается в рассмотрении всевозможных попарных сочетаний, идей или параметров. Так Фриц Цвикки, пользуясь морфологическим анализом, в 1943 г. получил 575 вариантов двигателей ракетных аппаратов, в том числе варианты для секретных немецких самолётов-снарядов «Фау-1» и ракеты «Фау-2», а к 1951 г. он получил уже 36 864 вариантов реактивного двигателя [4].

А по факту?

Можно сделать следующие выводы:

1. Изображения в загруженной базе данных НЕ обладают новизной априори.

2. Принцип работы нейросети (комбинаторика) известен со времен Средневековья, и также не нов.

3. Новизна в том, что генерацию изображений поставили на поток.

Таким образом, несмотря на громкие заявления своих создателей об уникальности, графические нейросети способны только на генерацию изображений, похожих на те, что загружены в их базу данных. Иными словами, выдать что-то другое нейросеть НЕ может, она НЕ знает, что может быть иначе, поэтому новизну порой приходится добавлять «вручную».

Стадия развития такова, что графические нейросети пока обучаются через подражание. Смотрите подробнее «зеркальные нейроны» открытые Джакомо Риззолатти.

А кто обучает графические нейросети и оценивает их результат?

Разработчики сами оценивают качество сгенерированного изображения, что зависит от квалификации человека. То есть пока графические нейросети не принимают решение: красиво или некрасиво, этично или неэтично.

А какие серьёзные задачи могли бы решать нейросети?

Предлагаю ряд исследовательских тем:

1) Выявление системы приёмов создания изображений (от пиктограмм до художественных картин);

2) Типовые сочетания преобразований в графике;

3) Закономерности распределения и сочетания преобразований в графике;

4) Универсальная система пиктограмм.

+ Ваши дополнительные возможности:

1) Доклад Константина Сергеевича Калугина, прочитанный на 52-й #конференции «Стратегии творчества» 14 мая 2023 года:

#ПИКТОГРАММЫ для СКОРОПИСИ. ФУНКЦИОНАЛЬНАЯ ГРАФИКА.

2) Подробнее об явлении Романтизм смотрите в online-лекции VIKENT.RU № 320

РОМАНТИЗМ — как система типовых ошибок и умных людей 2023 года... Эпоха Просвещения I Часть 2

3) Комбинаторика: https://vikent.ru/enc-list/category/38/

4) Экспертная система выдала от 100 до 600 верных Решений...

Источники

Создать уникальный логотип и брендбук за секунды с нейросетью
Николай Иронов https://ironov.artlebedev.com/ru/
Нейронные сети для создания дизайна https://blog.sibirix.ru/ai-for-design-creating/
Морфологический анализ, как способ решения бизнес-задач http://www.triz-chance.ru/morphological_analysis.html
Ревенков А.В., Резникова Е.В., Теория и практика решения технических задач, М., «Форум», 2008 г., с. 345. https://vikent.ru/author/960/

Фото сгенерировано Fusion Brain https://fusionbrain.ai/