Изображения на экране потрясающие. В одном видео женщина прогуливается по залитым дождем улицам Токио, на заднем плане светятся разноцветные неоновые вывески. На другом снимке стадо волосатых мамонтов устремляется к камере, снег от их шагов поднимается в небо густым белым облаком. Есть трейлер научно-фантастического фильма, где красивый, но загадочный мужчина направляется к космическому кораблю. В чашке кофе изображена битва пиратских кораблей, молодой человек отдыхает на облаке, читая книгу, историческая фотография города во времена золотой лихорадки в Калифорнии, мультяшный кенгуру танцует на дискотеке, что выглядит как сцена из фильма Pixar, и многое другое.
Что общего у всех этих видео? Во-первых, ни одно из них не является реальным, даже те, в которых присутствуют человеческие персонажи, которые выглядят очень реалистично. Но это не ново, мы все уже знаем возможности голливудских мастеров по спецэффектам. Второй общий элемент гораздо более важен: все они были созданы с помощью простой текстовой команды, короткого и емкого предложения ("Трейлер фильма с участием 30-летнего космического искателя приключений в мотоциклетном шлеме, покрытом красной сеткой, голубое небо, соленая пустыня, кинематографический стиль, снят на 35 мм фильм, яркие краски"), а иногда всего несколько слов ("мультяшный кенгуру танцует дискотеку"). И все они предвещают следующий этап революции в области генеративного искусственного интеллекта (GenAI), возможные сбои, которые это создаст для различных отраслей промышленности, и опасности, которые это может повлечь за собой.
OpenAI, (неофициальная) мать революции GenAI, ответственна за одно из самых значительных изменений в мире технологий за последние годы, благодаря двум новаторским моделям, которые она запустила - модели преобразования текста в изображение Dall-E и модели большого языка (LLM), которые многие встречают в форма чат-бота ChatGPT. Но компания не намерена останавливаться, и в четверг она представила следующий шаг в своей революции: Sora (по-японски sky), модель преобразования текста в видео, которая позволит пользователям создавать захватывающие видеоролики с помощью простой текстовой команды.
Компания не первая, кто представил модель преобразования текста в видео. Стартап из Нью-Йорка под названием Runway AI представил такую модель еще в апреле прошлого года, продемонстрировав, как можно с помощью текстовых команд создавать видеоролики, например, о собаке, говорящей по смартфону, или о корове, празднующей день рождения. Эти видеоролики были короткими, всего около 4 секунд, размытыми и искаженными, но демонстрировали возможности технологии. Meta представила собственную модель в сентябре, а Google — в апреле. Они также дали ограниченные результаты по качеству: видеоролики длительностью в несколько секунд, с прыгающими кадрами и искаженными и неубедительными персонажами. Они были хорошим подтверждением концепции, но никто не мог заподозрить, что это настоящая вещь.
Результаты Соры, представленные OpenAI на прошлой неделе, уже являются значительным шагом вперед. Некоторые из них выглядят так, будто их взяли из крупнобюджетного голливудского фильма. Другие словно созданы анимационными студиями высшего уровня. Только настоящий эксперт сможет распознать, что это видео, полностью созданное машиной с помощью короткой текстовой команды, но даже это может быть неправдой. Можно предположить, что конкуренты тоже не сильно отстают.
Непосредственная проблема заключается в том, что новая технология будет использоваться для создания поддельных видеороликов с участием реальных людей, что может привести к нарушению демократических процессов. "Я просто в ужасе от того, что что-то подобное повлияет на предстоящие выборы", - сказал профессор. Орен Этциони из Вашингтонского университета, специализирующийся на искусственном интеллекте, рассказал New York Times. Возможная проблема заключается в том, что какая-то партия воспользуется системой, чтобы создать компрометирующее видео одного из кандидатов на выборах в США в этом году. президентские выборы и распределить их в решающий момент среди избирателей в стране или округе, где разница в несколько голосов может так или иначе повлиять на результаты выборов.
OpenAI хорошо осведомлена о возможности злоупотреблений, и это основная причина того, что на данном этапе модель открыта для доступа только ограниченному списку экспериментаторов, в основном академиков и независимых исследователей, отобранных компанией. Их миссия: определить способы, с помощью которых можно злоупотреблять новыми возможностями. "Цель состоит в том, чтобы дать предварительный обзор того, что находится на горизонте, чтобы люди могли увидеть возможности этой технологии, а мы - получить обратную связь", - сказал доктор Тим Брукс, член команды разработчиков Sora, в интервью New York Times.
Компания не сообщила, как долго она намерена тестировать Sora, прежде чем предоставить широкий доступ к модели. GPT-4 тестировался компанией в течение шести месяцев, прежде чем был открыт для публики. Аналогичный график означает, что Sora будет доступна в августе, как раз к решающим моментам избирательной кампании в США. Можно надеяться, что компания предпочтет не рисковать тем, что такой мощный и неизвестный инструмент будет использован для создания видеороликов, которые могут повлиять на результаты выборов, и подождет с публичным запуском модели, по крайней мере, до дня выборов.
Другая проблема связана с информацией, используемой для обучения модели. OpenAI не раскрывает количество видеороликов, использованных для его обучения, или их источник, и только заявляет, что были использованы видеоролики, которые находятся в открытом доступе в Интернете, а также видеоролики, на использование которых компания получила лицензию от правообладателей. Информация, с помощью которой обучается модель, может повлиять на результаты, которые она дает, и способствовать, например, формированию стереотипов в отношении меньшинств или созданию ложного контента. Поэтому очень важно знать, какие источники использует OpenAI, хотя бы для того, чтобы можно было убедиться, что это разнообразные и репрезентативные источники информации.
Помимо этих опасений, существует также вопрос о том, какие отрасли промышленности разрушит новая технология. Голливуд находится под прицелом, и особенно такие профессии, как фотографы, специалисты по спецэффектам, актеры и непосредственный персонал, который их окружает (визажисты, парикмахеры-стилисты и т.д.). В настоящее время Sora способна создавать только короткие видеоролики, продолжительностью не более нескольких десятков секунд, и без звука. Но, учитывая огромный прогресс в области технологий за такой короткий промежуток времени, возможность создавать более сложные видеоролики с добавлением звука, возможно, даже диалогов, не кажется надуманным сценарием. Это может произойти не в этом или следующем году, а в течение пяти лет? Не кажется хорошей идеей ставить против этого.
И как только это произойдет, все, что потребуется для создания фильма, - это хороший сценарист и, возможно, также режиссер подсказок, который знает, как разбить сценарий на написанные сцены, которые можно ввести в модель и получить законченный фильм в конце процесса. Учитывая прогресс в возможностях больших языковых моделей, возможно, что в течение пяти лет даже эти две роли не понадобятся, и с помощью нескольких хорошо сформулированных предложений можно будет поручить потомку ChatGPT создать полный сценарий, готовый для преобразования текста в видео. модель.
Такой сценарий возможен еще через несколько лет. Но индустрия, которая уже сейчас находится под прицелом, или, по крайней мере, как только Sora откроется для публики, - это индустрия рекламной фотографии. Часто реклама - это не что иное, как концепция атмосферы, стиля и образа жизни. Это именно тот тип видеороликов, в создании которых Сора уже преуспел. Талантливый копирайтер за час работы и несколько игр методом проб и ошибок может найти подсказку, которая заставит модель создать 30 секунд, необходимых для рекламного ролика. Теперь вам нужно добавить немного музыки (для этого есть модель) и, возможно, немного повествования (и это тоже), и вы создали полноценную и оригинальную рекламу, созданную исключительно одним человеком.
Нет причин, по которым это единственные две разрушенные отрасли. Любая сфера, в которой используется видео - новостные трансляции в студиях, обучающие видеоролики, кулинарные шоу и многое другое - может столкнуться с изменениями, как только Sora и подобные модели достигнут зрелости и широкого использования. Многим людям может не понравиться результат, но сомнительно, что именно это остановит технологию.