Нейросеть vs искусствовед, или тиндер для картин (Гость выпуска — Олег Лашманов)
ИИ в музеях — пока не «Терминатор», но уже и не игрушка в руках пиарщиков. В этом выпуске мы беседуем с Олегом Лашмановым — исполнительным директором и научным руководителем Лаборатории «Искусство и искусственный интеллект» при Европейском университете в Санкт-Петербурге. Говорим о том, как современные алгоритмы помогают (или мешают?) в атрибуции произведений искусства, распознавании стиля и поиске аналогов в музейных коллекциях. Зачем технарю учиться понимать офорт, как объяснить машине разницу между двумя почти одинаковыми дамами с перьями, и правда ли, что кураторов вот-вот заменят роботы?
Обсудим ловушки алгоритмической интерпретации визуальных данных, парадоксы профессионального эго и непредсказуемые границы машинного зрения. И все это — с примерами из практики, страданиями по ТЗ и неожиданными метафорами вроде «Тиндера для картин».
Выпуск можно послушать на всех платформах, ниже публикуем расшифровку разговора!
Вероника Никифорова (далее — Вероника): Всем привет! Вы слушаете «(Не)критично» — подкаст про искусство, моду, культуру и все, что между ними. Ведем его мы — два исследователя-искусствоведа. Сейчас вы слышите меня, Веронику Никифорову. Компанию мне составляет Алина Максимова. Алина, передаю тебе слово: расскажи, что мы сегодня обсуждаем и кто наш гость.
Алина Максимова (далее — Алина): Сегодня у нас в гостях исполнительный директор и научный руководитель лаборатории «Искусство и искусственный интеллект» Европейского университета Олег Лашманов. Здравствуй!
Олег Лашманов (далее — Олег): Привет! Даже я уже не помню, как полностью звучит моя должность, но ладно [улыбается].
Вероника: Это нормально — не помнить все свои регалии [улыбается]. Мы обязательно их перечислим в описании, а говорить сегодня будем про атрибуцию с помощью современных технологий, в том числе искусственного интеллекта. Именно этим вы и занимаетесь в своей лаборатории при Европейском университете в Петербурге?
Олег: На самом деле мы занимаемся не только атрибуцией. Более того, стараемся избегать этого слова — атрибуция предполагает официальную процедуру, за которой следуют документы с печатями. Мы, скорее, помогаем исследователям понять материал и облегчаем им работу, в том числе и в атрибуции. Это одно из направлений нашей деятельности.
Вероника: Предлагаю начать с личной истории: как вы к этому пришли? Какой путь вы прошли, чтобы оказаться в Европейском университете и помогать исследователям работать с искусством?
Олег: Всю жизнь я был максимально далек от искусства, так как технарь до мозга костей. Получил кандидатскую степень, всю карьеру занимался оптико-электронными приборами и системами. Мы делали разные вещи — от измерителей линейных смещений с субмикронной точностью до беспилотных систем: автомобилей, самолетов, вертолетов и т.д.
Потом мне предложили возглавить лабораторию, которой на тот момент еще не существовало, в Европейском университете. Она должна была как-то сочетать искусство и искусственный интеллект. Я согласился, не совсем понимая, на что иду. И вот — я здесь [улыбается].
Лаборатории уже около трех лет; все это время я учусь говорить с людьми [гуманитарных специальностей], с искусствоведами. Первые полгода были особенно сложными. Но помогают книги и общение. Я постепенно узнаю картины, скульптуры, архитектуру... Хотя это непросто — это совершенно другой мир. Мы, технари, вообще по-другому устроены.
Алина: Представим: к тебе приходит искусствовед с материалом, хочет провести исследование с применением ИИ-технологий. Что происходит дальше? Как начинается взаимодействие технаря и искусствоведа — помимо составления ТЗ и договоренностей о доступе?
Олег: До технического задания еще далеко — все начинается с долгого разговора. Иногда он длится несколько часов, и приходит не один исследователь. Наша задача — понять, что именно нужно человеку, а ему — что мы можем предложить.
Часто изначальный запрос оказывается либо слишком простым, либо наоборот — слишком сложным, или вообще не тем, что нужно. Поэтому важно на старте подробно обсудить, как работают техники, что именно ищет искусствовед, что делает каждый день.
Например, Василий Успенский [Прим.: искусствовед, хранитель итальянской гравюры Государственного Эрмитажа, куратор] пришел с просьбой упростить поиск гравюр: есть собрания в Эрмитаже и других музеях, хочется быстрее находить соответствия. Параллельно он хотел определять реальные места, изображенные на гравюрах. Но это оказалось почти невозможно — гравюры часто искаженны, здания объединены несуществующими ракурсами или вовсе утрачены. Мы объяснили, что «угадывать» такие сюжеты алгоритм не сможет. А вот находить визуальные совпадения — вполне, и мы это реализовали.
После этого наступает этап ТЗ. Искусствоведы в него редко заглядывают — он им непонятен. Поэтому мы переводим: что значит «три миллисекунды на ответ», а они объясняют нам, что для них действительно важно. И только после нескольких таких встреч появляется общее понимание.
Вероника: Восхитительно. Если попробовать объяснить это простыми словами — для всех гуманитариев и, может быть, любителей-технарей, которые слушают наш подкаст, — как это работает? Как устроена система «под капотом»? Например, как из большой выборки картин можно составить алгоритм, который научится находить похожие изображения или различать одного художника от другого? Как это работает?
Олег: Это две, даже три разные задачи — каждая строится на своем принципе.
Если говорить в общем, есть сервисы вроде Яндекс.Картинок и Google Images, которые ищут изображения по тексту или по картинке. Они работают через эмбеддинги — преобразование изображения в вектор, набор чисел, описывающий его содержание. Нельзя сказать, за что отвечает каждая цифра, но вместе они отражают визуальные характеристики. С такими векторами проще работать, особенно для интернет-поиска: вы ищете «слоника» — и получаете слоника.
Но с гравюрами все сложнее. Там бывают мелкие отличия — вроде пуговиц или птичек — это одна и та же гравюра в разных состояниях. Или гравюры могут быть раскрашены по-разному. Иногда встречаются почти идентичные сюжеты: например, женщина в шляпе с перьями. Две разные гравюры — но по описанию это одна и та же сцена. Поэтому простое сопоставление «один к одному» здесь не работает.
В нашем проекте мы добавляем анализ геометрического сходства: ищем ключевые точки на изображении и проверяем, можно ли с помощью поворота, масштабирования и смещения добиться совпадения. Если да — гравюры совпадают.
Мы используем два подхода: быстрый, но менее точный (по векторам), и медленный, но надежный (по геометрии). Так мы сравнивали гравюры из Эрмитажа и Британского музея — из 17 тысяч ошиблись всего трижды. Все потом проверяли вручную.
Искусствоведы очень требовательны: одна ошибка может поставить под сомнение весь алгоритм. Хотя, может быть, это единственная ошибка на миллион.
Вероника: Я думаю, здесь играет роль профессиональный эгоизм — он вырабатывается в профессии с опытом. Нужна внутренняя сила, чтобы признать: эксперты тоже могут ошибаться (это неизбежная часть человеческой природы). И поскольку алгоритмы частично создаются по нашему подобию, с учетом человеческого понимания, то ошибки в них тоже неизбежны. То, что прощается себе и тихо забывается, в случае с алгоритмом — который будто бы лишен человеческих слабостей — вызывает отторжение. Наверное, так мыслят те искусствоведы, которые говорят: «Ах, какая глупая ошибка! Какой же это неправильный алгоритм».
Олег: На самом деле, алгоритмы не созданы по нашему образу и подобию — только если смотреть совсем издалека. На деле они работают иначе, и это особенно заметно в археологии.
У нас есть проект: находите предмет, система показывает похожие уже атрибутированные объекты и сопутствующую информацию. Исследователь выбирает, что действительно похоже и подходит для дальнейшей работы.
И тут становится ясно — люди и алгоритмы думают по-разному. То, что машине кажется похожим, археолог может отвергнуть: «Это вообще не то». Алгоритм не может подержать предмет в руках, повернуть его, не всегда отличает материалы — на фото сталь и бронза могут выглядеть одинаково.
А человек выигрывает за счет насмотренности и контекста: он узнает гвоздик как часть сбруи, потому что только что нашел саму сбрую. Алгоритм видит лишь гвоздик.
Вероника: Я недавно общалась с археологами на конференции — они говорили, что это распространенная ситуация. Особенно при попытке атрибуции по визуальным признакам: есть предмет, есть орнамент, и можно сверяться с археологическими стилистическими таблицами. По ним можно примерно определить, что это, скажем, новгородский объект IX века.
И я подумала, что это же и есть массив данных, только в одном случае он проходит через человеческое сознание. Но, вероятно, такой же массив данных нужен и машине, если речь о визуальных свойствах?
Олег: Скорее всего, он [массив данных] окажется слишком маленьким, чтобы машина смогла чему-то научиться. Люди пока что сильно опережают алгоритмы — они способны учиться на очень ограниченном количестве примеров. Машинам это пока не удается.
Алина: Мы поговорили о том, как сравнивать изображения, находить похожие. А что насчет стиля? Сейчас много компаний утверждают, что могут с помощью ИИ выявлять подделки. Как они это делают? Что значит «стиль» с точки зрения вычислений?
Олег: Как именно это работает, компании [которые этим занимаются] подробно не рассказывают. Из того, что я видел, у них один ML-инженер и 25 искусствоведов — уже понятно, что не все делается алгоритмически [улыбается]. Если бы делал только алгоритм, столько экспертов было бы не нужно.
Обычно алгоритмы анализируют фрагменты изображений и извлекают эмбеддинги — векторы, описывающие не смысл, а стилистику: мазки, цвет, текстуру. Но мы все равно не можем точно сказать, за что отвечает каждый элемент — стиль остается абстракцией.
Серьезная проблема здесь — интерпретируемость: алгоритм что-то делает, мы можем оценить результат, но не объяснить, почему он принял то или иное решение. Формулы понятны, но человеческое объяснение — нет. Поэтому такие системы легко обмануть. Можно отсканировать оригинал, распечатать — и алгоритм примет копию за подлинник. Он видит изображение, не объект.
В общем, надежной атрибуции только по изображению пока не существует. Это иллюзия — и немного пиар. Нужны инфракрасные снимки, рентген, спектральный анализ — только тогда можно говорить о полноценной экспертизе.
Вероника: Мне кажется, без физического осмотра любая атрибуция по фотографии — это только предварительное заключение. Ну разве что сделать какое-то потрясающее видео в 4К со всех сторон, при дневном свете... Хотя все равно — хочется потрогать, посмотреть вблизи.
Олег: Здесь хороший пример — тиндер [улыбается]. Вы смотрите анкету, кто-то нравится, кто-то нет, но узнать, подойдет ли человек, можно только после личного общения. С картинами то же самое.
Алгоритм может что-то атрибутировать, но это как подсказка: мол, «вот классные фоточки, может, он ничего». А потом вы встречаетесь, и оказывается, что человек — совсем не тот. Или что картина — подделка. Такая же история.
Вероника: А как проверить, что модель не просто угадывает, а действительно формирует четкое представление, с минимальным процентом ошибок? Какие для этого есть методы?
Олег: Все зависит от алгоритма. Самый простой и древний подход — это создание датасета с валидационной выборкой. На ней проверяется, насколько хорошо алгоритм обучился. Без этого никуда — нам, технарям, нужны метрики. Даже искусствовед, скорее всего, спросит: «А с какой вероятностью это верно?». Наличие валидационного датасета — хороший ответ на такой вопрос.
Сейчас есть мультимодальные модели, которые работают и с изображением, и с текстом. Они могут, например, подготовить описание изображения.
К сожалению, пока нет алгоритмов, которые описывали бы картину так, как это делает искусствовед: что в центре, что это означает, кто изображен, какие выводы можно сделать. Такие попытки есть, но алгоритмы пока слабы. И почти никто не работает в этом направлении — ни пользователи, ни корпорации в нем не заинтересованы. Надежда — только на маленькие лаборатории. Возможно, кто-то из них справится.
Вероника: В каких задачах точно стоит доверять алгоритмам при работе с искусством, а где лучше положиться на исследователя?
Олег: Алгоритмы хорошо справляются с поисковыми задачами. Например, найти похожее изображение, изображение с тем же персонажем или картину по текстовому описанию.
Например, у нас есть «Госкаталог». Все про него знают. Но в нем не работает ни одна крупная поисковая система — ни Яндекс, ни Google, ни Yahoo. Причина — в ограничениях: музеи и сам госкаталог закрыты для роботов, поэтому эти коллекции не индексируются.
Тем не менее, алгоритмы вполне работают — их просто нужно немного дообучить, донастроить. Мы это называем fine-tuning (тонкая, точная настройка). У нас был небольшой проект — мы искали работы Каспара Давид Фридриха, ориентируясь на мемуары: человек видел картину и считал, что она принадлежит Фридриху. В известных коллекциях ее не было, подумали — может, она в «Госкаталоге», где около 30% изображений неатрибутированы по автору. Поиск провели, но ничего не нашли.
Использовали те же алгоритмы, что и Яндекс или Google — с небольшими отличиями, но общий принцип тот же. Разница в ресурсах. У Яндекса алгоритм запускается в продакшене, пользователи кликают — и система учится на этих действиях. Так формируется датасет соответствий между запросами и изображениями.
У нас таких данных нет. К тому же, в нашем случае описания картин — длинные, с деталями и контекстом. Это не «два лебедя», а целый абзац: «в центре — то-то, на заднем плане — то-то, аллюзия на такую-то тему». Современные алгоритмы с таким не справляются быстро. Теоретически, можно построить систему под длинные тексты, но она будет медленной. А все привыкли к мгновенному отклику.
Алина: У нас уже есть какие-то инструменты, которые могут работать с искусством? Для музеев это все-таки просто игрушка для пиара или действительно серьезный инструмент для изучения?
Олег: Прямо сейчас большинство музеев как институции используют искусственный интеллект скорее как игрушку или элемент пиара. Но для конкретного исследователя это часто реальная помощь. Мы делаем инструменты именно для исследователей — и они ими пользуются.
А уж кто на этом пропиарится — Европейский университет, сам музей или кто-то еще — это уже вторично. Мы всегда стараемся сделать инструмент, полезный конкретному человеку или группе. В этом смысле он действительно работает. И это хорошо. Мы к этому и стремимся.
Вероника: Тогда задам самый пугающий вопрос для всех исследователей и профессионалов в мире искусства: заменит ли искусственный интеллект музейных специалистов?
Олег: Всех — точно нет. Картины нужно перевешивать, за ними следить, реставрировать. Физическое присутствие человека заменить сложно. Сейчас мы не умеем делать таких роботов, которые могли бы справляться с этим так же хорошо, как люди.
Что касается замены, например, атрибуции или куратора — атрибуция сложна, потому что она включает не только визуальный анализ. Но если подключить рентген, инфракрасное излучение и другие данные, почему бы и нет? Другое дело — будет ли общество, и особенно искусствоведческое сообщество, доверять таким решениям?
У нас даже есть пример проекта, который, не знаю, запустится ли, но в нем сообщество как раз не доверяет самим себе. Есть, скажем, карандашные рисунки. Эксперты считают, что это работы определенного художника. Провели графологическую экспертизу — но все равно сомневаются в ее корректности. Чем известнее художник, тем больше соблазн подтасовать данные.
Вероника: Конфликт интересов может быть очень разным.
Олег: Искусственный интеллект, как бы, не подкупишь. С ним нельзя договориться. Хотя — на самом деле можно. Но надо уметь [улыбается].
Пока что он скорее помощник. Может ли он заменить куратора? Думаю, да. Уже сейчас можно сделать систему, которая частично выполняет эту работу. Вопрос в другом — будут ли это воспринимать всерьез? Пойдут ли люди на такой формат?
Технически сделать работу куратора можно. Но нужно ли?
Вероника: Вот это и есть главный философский вопрос. Надеюсь, те, кто боится «восстания машин», поймут: технологии — это помощь. Они убирают рутину, требующую навыков, с которыми алгоритмы справляются лучше человека.
Олег: Восстания машин, скорее всего, не будет. «Терминатор» — классный фильм, но с реальностью у него мало общего.
Это как фильмы про хакеров — что-то бегает по экрану, кто-то быстро что-то нажимает… А на самом деле хакеры сидят, думают: «Что бы написать?» — три строчки, Enter, пауза, размышления. Все не так динамично. С «Терминатором» — то же самое. Если восстание и случится, мы до него не доживем. По крайней мере, я, так как постарше вас [улыбается].
Вероника: А я верю, что мы все доживем до ста лет, если технологии будут развиваться с такой же скоростью. Хотя, возможно, я слишком оптимистична. В любом случае, наш выпуск — начавшийся с искусственного интеллекта в искусстве и завершившийся «Терминатором» — подошел к концу [улыбается]. Олег, спасибо большое, что поделился с нами бесценной информацией о том, как сегодня обстоят дела с ИИ в сфере искусства и культуры.
Олег: Спасибо вам!
Титры
Материал подготовлен Вероникой Никифоровой — искусствоведом, основательницей проекта «(Не)критично».
Я веду блог «(Не)критично», где можно прочитать и узнать новое про искусство, моду, культуру и все, что между ними. В подкасте вы можете послушать беседы с ведущими экспертами из креативных индустрий, вместе с которыми мы обсуждаем актуальные темы и проблемы мира искусства и моды.Также можете заглянуть в мой личный телеграм-канал«(Не)критичная Ника»: в нем меньше теории и истории искусства, но больше лайфстайла, личных заметок на полях и мыслей о самом насущном.






