Турель против кур
У него был старый китайский телефон, старый raspberry pi 3b+, python, opencv и немножко deep learning. А еще были соседские курицы, которые его задолбали.
У него был старый китайский телефон, старый raspberry pi 3b+, python, opencv и немножко deep learning. А еще были соседские курицы, которые его задолбали.
Как написал автор изобретения в одном прекрасном бложеке:
«У меня был старый китайский телефон, старый raspberry pi 3b+, python, opencv и немножко deep learning. А еще у меня были соседские курицы, которые меня заебали.»
С нетерпением буду ждать новых видео автора)
Полагаю, за последние пару лет на глаза многим попадались примеры того, как нейронные сети заставляли людей двигаться на фотографиях. Это было довольно забавно, но на таких "видео" было довольно много артефактов, да и толку от них было не особо. Но развитие на месте не стоит и нейросети научились буквально дорисовывать целые кадры на видео. К примеру как в данном случае.
Может возникнуть вопрос, к примеру, чем такая сеть отличается от той же DLSS созданной компанией NVidia и похожих сетей? Которые тоже повышают частоту кадров, делают изображение чётче и так далее. Почему бы не скормить таким нейросетям точно так же набор фотографий? Разница как раз в том, что существующие нейросети именно повышают качество изображения в реальном времени. Берут видео низкого разрешения и достраивают его до высокого. И прирост частоты происходит именно за счёт того, что видео низкого разрешения проще отобразить. Но эти сети не дорисовывают недостающие кадры.
Данная разработка была представлена учёными из Германии и её цель именно в полноценном создании промежуточных кадров. Данная сеть с нуля дорисовывает недостающие кадры, с учётом сдвига камеры и теней, с учётом изменения освещения и прочих нюансов. Она полностью "додумывает" как должны выглядеть эти кадры. На этом видео я более подробно рассказал о том, как подобная сеть работает.
Может возникнуть вопрос - а зачем вообще эта сеть нужна? Самый простой вариант - для повышения качества и плавности старых фильмов, за счёт дорисовывания недостающих кадров. Но если говорить о чуть более интересных вещах - что бы нейросеть смогла дорисовывать эти кадры, она на фотографиях прежде всего должна определить границы объектов. Трёхмерные границы. И высчитывается это всё исключительно на основание фотографий. Так что подобные нейросети на сегодняшний день разрабатывают в том числе для того, что бы строить 3д модели по фотографиям. Сейчас они ещё довольно громоздки и требуют больших вычислительных ресурсов. Но данное направление развивается очень быстро и, вполне возможно, скоро их можно будет спокойно использовать вместо лидаров. И вам будет достаточно иметь на руках простой смартфон, что бы построить 3д модель своей комнаты, к примеру. А там уже недалеко и до полноценных дешёвых систем жестового управления и дополненной реальности.
Пару недель назад я выложил пост про нейронные сети, которые способны удалять с видео любые движущиеся объекты и всякие следы их существования. Тени от этих объектов, поднятую пыль, иногда даже почти хорошо удалялись волны на воде. И тогда, под тем постом, прямо таки развернулась дискуссия о том, как в принципе можно было бы бороться с подделкой видео. Не только с удалением объектов, но и с теми же дипфейками.
И вот сегодня я бы хотел представить один из способов, который на сегодняшний день активно прорабатывается. Собственно, способ вполне логичный - если мы можем создать нейронные сети, которые способны подделывать видео настолько, что эта подделка становится неразличима человеческим глазом, то почему бы не использовать ровно эти же самые сети для того, что бы распознавать эти незаметные человеческому глазу подделки?
Этим вопросом и задались учёные из Германии и Италии. Ниже прикладываю презентацию их совместной научной работы.
А также, как и в прошлый раз, прикладываю своё собственное видео, с разбором того, а чём именно идёт речь в их презентации.
Итак, краткая выжимка того, о чём именно их работа. Конкретно эта группа учёных не ставила перед собой задачу разработать концептуально новую нейронную сеть, которая бы хорошо распознавала подделку на видео. Они провели комплексную сравнительную работу. Взяли набор видео, часть из которых была отредактированная нейронными сетями, а часть нет. И, с одной стороны, попросили группу людей угадать, какие именно видео являются подделками, а с другой стороны точно такую же задачу поставили перед распространёнными свёрточными нейронными сетями, основная задача которых как раз заключается в распознавании на видео и фотографиях тех или иных объектов. То есть, они брали не специализированные нейросети, а самые обычные. Те, которыми можно распознавать на видео котиков, к примеру.
И итог их исследования оказался следующим - нейросети уже сейчас способны настолько качественно подделывать видео, что люди их практически не распознают. Обычный человек уже сегодня не отличит качественный дипфейк от оригинального видео. С другой стороны, самые обычные свёрточные нейронные сети эти же самые дипфейки распознают вполне уверенно. Не всегда со стопроцентной точностью, но самые новые архитектуры вполне достигают точности более 80%.
По сути, самая очевидная идея в данном случае оказывается самой эффективной. Зачем придумывать сложные схемы борьбы с нейросетями, если можно просто заставить бороться с ними другие нейросети. Безусловно, данный метод не является самым надёжным. Но уже сегодня он является наиболее оправданным с позиции точности распознавания и ресурсов, которые требуются на создание такой системы. По факту, использовав созданный учёными в данной работе массив видео для обучения нейросетей, вы сможете у себя дома создать свою собственную систему распознавания дипфейков. Единственным ограничением правда будет время обучения такой сети... Если не использовать видеокарты NVidia старше 20хх серии и разработанную ими же библиотеку для машинного обучения, создание такой сети может затянуться на месяцы... Но тем не менее, такая возможность у вас всё ещё остаётся.
Ну и подводя итог, если углубиться в эту область (а я полагаю многие спецслужбы многих стран мира занимаются этим уже не первый год) и создать специализированную нейросеть, которая была бы эффективна конкретно в распознавание дипфейков, то в принципе можно и не бояться коллапса судебной системы от вала поддельных видео и фотографий. Правда всё это в конечном итоге придёт к войне щита и меча - когда с одной стороны будут создаваться всё более совершенные нейросети для подделки видео, а с другой те же самые нейросети для распознавания этих подделок. Но специалистов способных на подобное сейчас итак с руками отрывают крупнейшие мировые корпорации, поэтому вряд ли их сможет нанять какая то местечковая мафия. Если подобная война и развернётся, то начнётся она в высоких груг И опять же, поскольку это буквально практически одни и те же архитектуры нейросетей, существенного и долговременного перевеса в данной войне ни одна из сторон получить не сможет.
Пару лет назад довольно активно обсуждалась тема deep fake. Технологии, позволяющей заменять лица одних людей на видео другими. Но в том время технология была сырая, даже невооружённым взглядом можно было заметить неестественность изображения. Плавающие контуры лица, искажения пропорций, неестественная мимика и многое другое. Некоторым людям доводилось сделать довольно реалистичные deep fake на небольших отрезках видео, но в какой то момент всё равно вылезала неестественность.
Никаких резких скачков в этой области долгое время не было, поэтому разговоры понемногу сошли на нет. Но данное направление никто не забрасывал и различные группы исследователей и инженеров продолжали работу в этом направлении. И вот в этом году группа исследователей из Оксфорда, Института Вейцмана и Google Research представили систему ансамбля нейронных сетей, способных определять на видео не просто контуры отдельных объектов, но и последствия любых контактов этих объектов с окружающим миром. Поднятую пыль, тени, задетые объекты, даже поднятую рябь на воде. И этот ансамбль нейросетей способен не только всё это определять, но и удалять с видео. Ниже прикрепляю оригинальное видео, представленное авторами разработки.
Поскольку оригинальное видео полностью на английском и в нём описываются лишь базовые особенности работы нейросетей, я также записал видео на русском. В нём я подробнее и простым языком постарался разобрать как саму разработку, так и те принципы, по которым работают нейросети, входящие в ансамбль.
При этом стоит заметить, что данная нейросеть работает абсолютно автономно. И обрабатывать различные видео она способна в "промышленных" масштабах. Есть у неё конечно и ряд ограничений, так что не стоит бояться, что уже завтра можно будет удалить кого угодно с любого видео.
С другой стороны, от появления сетей, которые могли очень криво заменять лица людей, до появления систем, способных практически бесследно удалить любой движущийся объект с видео прошло всего пару лет. И кто знает, чему научатся сети ещё лет через 5-10.