5459

Найден способ уверенно распознавать дипфейки?⁠⁠

Современные нейросети умеют создавать настолько правдоподобные изображения, что их порой сложно отличить от реальных фотографий. Такие изображения, называемые дипфейками, могут быть любопытными и забавными, но лишь до тех пор, пока все понимают, что это подделка. Когда же кто-то пытается выдавать дипфейки за чистую монету, они становятся большой проблемой.

С их помощью можно нанести ущерб репутации, повлиять на общественное мнение и даже сфабриковать подложные доказательства для суда. Поэтому, как только появились нейросети, умеющие производить дипфейки, сразу началась разработка алгоритмов, которые были бы способны их распознавать.

Задача осложняется тем, что для создания дипфейков обычно используются генеративно-состязательные нейросети (Generative Adversarial Networks, GAN). Их работа изначально основана на противостоянии двух нейронных сетей, одна из которых генерирует картинки, а другая старается определить, настоящие они или нет. Обе эти сети обучены на больших массивах реальных фотографий. Если изображение выглядит неправдоподобно, вторая нейросеть заставляет первую изменять его до тех пор, пока оно не перестанет идентифицироваться как подделка.

Получается, что дипфейки изначально создаются такими, что существующие системы распознавания не могут уверенно отличить их от реальных фотографий. На сайте thispersondoesnotexist.com вы сами можете оценить, насколько правдоподобно выглядят сгенерированные нейросетью несуществующие люди.

Алгоритмы по распознаванию дипфейков обычно используют свёрточные нейронные сети, которые умеют выделять характерные признаки. Эти нейросети обучают на самих изображениях в явном виде, что требует много времени и ресурсов. Однако коллектив исследователей из Института информационной безопасности им. Хорста Гёрца при Рурском университете в Бохуме предложил более простое и изящное решение этой проблемы. Учёные решили подвергнуть изображения частотному анализу, использовав давно известный метод дискретного косинусного преобразования. Он применяется, например, в алгоритме сжатия JPEG. Изображение в этом случае рассматривается как результат наложения гармонических колебаний различной частоты, взятых с разными коэффициентами. Примерно так:

Эти коэффициенты можно визуализировать в виде прямоугольной тепловой карты, верхний левый угол которой соответствует низкочастотным областям исходного изображения, а нижний правый — высокочастотным. Реальные фотографии в основном состоят из низкочастотных колебаний.

Реальная фотография и её спектрограмма

Если же явные всплески наблюдаются в высокочастотной области, это может свидетельствовать о том, что изображение — подделка. А если они ещё и формируют регулярную структуру — тут как говорится, и к гадалке не ходи.

Дипфейк и его спектрограмма

Чтобы проверить эффективность предложенного подхода, учёные составили тестовую выборку из 10 000 изображений, куда вошли сгенерированные нейросетью StyleGAN портреты несуществующих людей и реальные фотографии из набора Flickr-Faces-HQ (FFHQ). Всё это можно найти на сайте whichfaceisreal.com. Успех был абсолютным: алгоритм распознал все дипфейки до единого!

Более того — выяснилось, что он с большой долей вероятности позволяет определить, с помощью какой именно нейросети было сгенерировано изображение. Дело в том, что каждая из них имеет свой «отпечаток» в частотном диапазоне.

Спектрограммы реальных фотографий из набора Stanford Dogs (слева) и изображений, сгенерированных нейросетями различных архитектур, которые были обучены на этом наборе (четыре справа). Усреднённые значения для 10 000 изображений

Откуда же берутся эти всплески в высокочастотных областях? Оказывается, что они неразрывно связаны с самим принципом действия генеративно-состязательных нейросетей. В основе их работы лежит процесс так называемого апсемплинга, то есть отображения данных из пространства низкой размерности в пространство высокой размерности. Например, сеть StyleGAN, создавшая все дипфейки с людьми из этого поста, формирует в пространстве данных изображение размером 1024 × 1024 пикселя (более миллиона значений) на основе вектора из скрытого пространства, имеющего размерность всего-навсего 100. Если же попытаться обойтись без апсемплинга, то объём вычислений, необходимых для генерации дипфейков, вырастет до астрономических величин.

В данной статье учёные подробно рассмотрели лишь один набор данных и одну архитектуру нейросети. Однако они утверждают, что предложенный метод универсален и будет работать не только для всех существующих сетей типа GAN, но и для тех, что появятся в будущем. Так ли это, станет ясно уже довольно скоро.

Источник

P. S. Это очередная новость с семинара «Актуальная наука» в Политехническом музее. Я буду стараться публиковать их каждую неделю.

411

Искусственный интеллект

5.7K поста11.9K подписчика

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Вы смотрите срез комментариев. Показать все

simq

5 лет назад

"замылить" (речь конечно не о блюре ) постобработкой думаю не сложно

раскрыть ветку (14)

BlackTails

5 лет назад

Просто добавить эту проверку в обучение нейросети. И будет генерировать без этих колебаний.

раскрыть ветку (13)

scrbkv

5 лет назад

Как я понял, предложенный метод выявляет не конкретно дипфейки, а в принципе факты повышения размерности. В теории его можно будет использовать и любых объектов, представимых рядом Фурье. Получается любой шум можно будет проверить на "искусственность". Звучит заманчиво)
А добавить проверку при генерации изображения не получится. Реальная фотография несёт информацию в каждом пикселе. В частности, по этой причине для сжатия картинок используют сжатие с потерями (тот же jpeg что и в посте). Человеческий глаз не замечает разницу, но большое количество "лишней" информации отбрасывается. При генерации фейков используется вектор ключевых параметров, то есть то, что человек может описать, глядя на фото: форма лица, размер глаз, цвет волос и т.д. Этот вектор должен быть достаточно большим, чтобы позволить создать детализированное изображение, и достаточно маленьким, чтобы его можно было эффективно хранить и быстро обрабатывать. Можно было бы хранить вектор длины разрешения картинки, но генерировать картинку по такому вектору нужно очень уж долго. Поэтому картинку и генерируют из небольшого вектора, путем добавления случайностей и увеличения размерности. Как раз увеличение размерности и удаётся определить данным методом

раскрыть ветку (2)

BlackTails

5 лет назад

Если мы имеем дело с фейками в СМИ, судах и прочих подобных делах, об опасности которой и говорят разработчики защиты. То для них даже 10000 кратный прирост потребных ресурсов для генерации фейков незначителен.

раскрыть ветку (1)

scrbkv

5 лет назад

Значителен, и даже очень.
Входной вектор из 100 параметров - это 2^100 бит - десятичное число из 30 знаков. Если использовать вектор, описывающий все изображение, то для картинки 512×512 пикселей получается 2^262144, мой калькулятор не может сказать, сколько десятичных цифр у этого числа. Конечно и в первом и во втором случае все параметры зависят друг от друга и реальный объем данных меньше на много порядков. Но все же рост идёт по экспоненте и добавление даже десятка новых параметров будет ощутимо. Чего уж говорить об увеличении вектора в сотни и тысячи раз

BootSect

5 лет назад

...без колебаний в частотной области. Но никто не даст гарантии, что сама картинка при этом не будет похожа на неудавшихся клонов Рипли из Чужого-4)

раскрыть ветку (8)

robomeow

5 лет назад

Просто добаялется еще один критерий, по которому идет оптимизация. Нужно и обдурить adversarial сетку, и чтобы спектр был правильный.

раскрыть ветку (7)

BootSect

5 лет назад

В теории всё просто, но на практике может получиться так, что добавление этого критерия сделает обучение несходящимся. Улучшение визуальной похожести будет ухудшать гладкость спектрограммы, и наоборот. Из того, что я слышал от специалистов, нужно применять гораздо более хитрые решения — декомпозицию изображения на текстуру и структуру, использование специальных свёрток, раздельное обучение adversarial-сети на разных диапазонах частот и т. д.

раскрыть ветку (6)

BLOCKCHAIN

5 лет назад

В теории всё просто, но на практике может получиться так, что добавление этого критерия сделает обучение несходящимся.

Все там прекрасно сходится, еще год назад видел GAN, который получает штраф за артефакты в частотной области.

К тому же можно и без экспериментов сказать, какие артефакты будут у StyleGAN. Архитектура самой сети не позволяет избавится от артефактов, т. к. изображение синтезируется из квадратов, которые каскадом накладываются друг на друга. И используются дешевые операции апсемплинга, которые позволяют добиться приемлемого качества.

Желтуха так и прет. Сенсация! Мы научились отличать зебр от лошадей!

И да, такие артефакты легко лечатся классическим компутер-виженом без всякий нейросетей. Находим всплески, синтезируем маску, накладываем и фильтруем, потом перегоняем из частотной области. Можно даже по желанию, оставить артефакты JPEGа.

simq

5 лет назад

да, проще постобработкой (наверное)

robomeow

5 лет назад

Возможно :)

раскрыть ветку (3)

Vemar

5 лет назад

Я диалетант в вопросе, но ведь всё это делает фейк "дороже"?

раскрыть ветку (2)

robomeow

5 лет назад

Естественно, причем в буквальном смысле: больше вычислений - больше потраченной энергии - больше счет за электричество.

раскрыть ветку (1)

Vemar

5 лет назад

Мне кажется что там больше важен ресурс оборудования уже. Первоначальная стоимость. Электричество мне кажется доступней.

Noimaginator

5 лет назад

И пока все равно криво работает.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества