Хладнокровная машина, не знающая печали и жалости. Неумолимо и прямолинейно выполняющая поставленную ей задачу до конца. Таким запомнился зрителю терминатор из одноимённого фильма. Согласно его сценарию, бездушная машина прибыла к нам из будущего. И вот, именно сейчас мы подходим к тому времени, когда в мире из фильма машины берут верх над людьми.
Если обратить свое внимание на техническую сторону этого робота, то то, что удивляло в 1984 году, сейчас кажется чем-то знакомым, и уже маячит на горизонте. На каких же технологиях эти роботы построены там, глубоко внутри своего стального черепа?
Давайте всего на один день предположим, что Джеймс Кэмерон уже в 1984 году что-то знал и снял не фантастический фильм, а попытался послать нам предупреждение. Что если режиссёр фильма попробовал нас оградить от того, к чему может привести злоупотребление новыми технологиями и насколько мы смогли с их помощью приблизиться к созданию таких машин? Предлагаю сегодня, 1 Апреля 2024 года, провести глубокий и вдумчивый анализ механизмов работы терминатора и вместе найти ответ на этот животрепещущий вопрос.
Нейросети приближают нас к будущему
Люди пытались научить компьютеры разговаривать сразу после их появления. Сейчас даже Алиса, которая звучит почти из каждого телефона, имеет голос, неотличимый от голоса человека.
Все же, для работы умной системы робота одного голоса мало. Надо, чтобы был источник текста, который посылал бы ему то, что нужно произнести. С этой задачей уже справляются нейросети. Такие нейросети, как, например, ChatGPT, YandexGPT, RuGPT и LLAMA поставляют голосовому движку ответы на ваши вопросы, тексты и сказки, ну а голосовой движок, в свою очередь, их озвучивает.
Нейронные сети очень быстро развиваются и, в целом, уже сейчас можно сказать, что те из них, что работают сегодня, своим поведением очень похожи на робота, который сильно похож на человека. C одной стороны, они пишут простые и незамысловатые тексты, не понимают шуток и не могут шутить сами, скудны на эмоции и не всегда правильно отвечают на ваши вопросы, а текст, который они генерируют, такой же сухой и прямолинейный, как и речь этого робота. Ну а с другой... С другой, они пугают своей способностью узнавать ваш голос, распознавать лица, собирать информацию о людях, решать задачи по математике и физике, и даже создавать музыкальные произведения.
Например, последняя версия ChatGPT уже может распознавать образы на изображениях и описывать их. Так распознаёт образы Copilot, бывший Бинг, который использует последнюю версию ChatGPT.
Давайте теперь посмотрим на мир глазами терминатора. Мы уже прекрасно знаем, как он выглядит.
Красный цвет символизирует смещение воспринимаемого роботом диапазона света в инфракрасную зону. В остальном же, интерфейс представлен командной строкой, без графической оболочки – GUI, как, например, в Unix или командная строка в Windows.
На этом интерфейсе выведены командные строки, расположенные в разных частях экрана, каждая из которых представляет собственную часть результата обработки входящей информации. Он похож на текстовый интерфейс современных нейросетей, которые сегодня работают на стационарном компьютере, производя вычисления на процессоре или видеокарте, и без доступа к сети.
Такие текстовые ответы мы все прекрасно видели, это строки текста из результатов, которые выдаёт нейросеть, наподобие Алисы, после обработки ваших промтов. Популярная нейросеть Stable Diffusion тоже работает на дискретной видеокарте внутри компьютера. Перед вами пример интерфейса ещё одной большой языковой модели (Large Language Model, LLM), LLaMA, уже работающей автономно, с использованием ресурсов компьютера.
Посмотрите, система киборга работает точно так же, как и современные языковые модели, через текст. Изображения с камер, расположенных на месте глаз, распознаются и преобразуются в текстовое описание. Например, такая LLM как ChatGPT 4 для того, чтобы объяснить объекты, которые содержатся на фотографиях, делает то же самое.
Отсюда можно предположить, что в ОС Терминатора параллельно работают сразу несколько нейросетей: первая обрабатывает и выводит сообщения о состоянии системы, вторая обрабатывает визуальную информацию, третья LLM отвечает за общение с людьми и т. д. Как шестерёнки в сложном механизме, каждая их них обрабатывает свою порцию входящей информации. Ответы от каждой из отдельных нейросетей выводятся каждый в своем окне, и главная нейросеть считывает их все одновременно, анализирует и принимает решение о дальнейших действиях.
Большинству сегодняшних LLM для работы нужен доступ в Интернет. В то же время, в 1984 году Интернета, каким мы его знаем сейчас, еще не существовало, и в его голове должен иметься хороший набор из таких нейросетей, которые работают автономно.
Нейросети для разных целей
Чтобы понять, какие нейросети могли использоваться у него во встроенном компьютере, давайте посмотрим на полный список хитростей, к которым прибегает наш герой в кино.
Надо сразу сказать, что робот антропоморфный, то есть, он повторяет строение человека. Это надо разобрать подробнее. В фильме робот из будущего также умеет: стрелять – иногда прямо с двух рук – и почти никогда не промахивается, подделывать голос, заводить машину без ключа, управлять транспортными средствами, оценивать окружающую обстановку и просчитывать дальнейшее развитие событий, ставить диагноз и выполнять простые хирургические операции.
Может быть, именно ChatGPT лежит в основе сознания робота, которое обретается в микросхемах его стального черепа? Или, возможно, именно совмещение разных нейросетей таким образом и приведёт к созданию главной из них, способной обрабатывать информацию со скоростью мозга человека. Сам Арнольд Шварцнеггер сообщает нам примерно об этом же. На видео он предупреждает об опасности появления терминаторов в действительности.
Для подделки голоса сейчас существует множество нейросетей. Одна из них – Heygen, она позволяет не только создавать видео, но и озвучивать его голосом, скопированным с персонажа. Эта нейросеть очень быстро позволит скопировать голос, услышанный в разговоре, и воспроизвести им заданный текст. Инструменты терминатора вполне могут включать в себя ее аналог, работающий автономно, например, на графическом чипе.
Умение обращаться с техническими устройствами
В фильме нам показывают, как ловко терминатор заводит различные машины. И он уже умеет ими управлять. Сейчас разработкой автопилотов занимаются сразу несколько компаний, и все из них применяют новые нейросети. Среди них и Тесла, и даже наш Яндекс. Одну из самых последних нейросетей для управления машиной применяет дочерняя компания Сбербанка Cognitive Pilot.
Когда Шварцнеггер собрался угнать грузовик в первой части, посмотрите как нейросеть сразу сориентировала его в управлении, приведя схему внутреннего устройства автомобиля, исходя из модели машины.
Модель машины сейчас без проблем может распознать ChatGPT, он же может распознать и такую схему, если видит ее от другого источника, выделить из нее важные при управлении автомобилем детали и передать главной нейросети.
Все помнят, как в фильме терминатор стреляет по людям, но, следуя просьбе Джона Коннора, никого не убивает?
Для этого он должен уметь ставить диагнозы людям по их телесным повреждениям. Сегодня мы видим, как именно такие нейросети уже сейчас активно внедряются в российской медицине.
Наверное, 12 минут на приём в российских поликлиниках выделили не просто так, а с учётом перспектив для нейросетей. Рассчитывая, что в скором будущем на приёме вас будет встречать не человек, а нейронная сеть, ведь она будет работать в несколько раз быстрее.
Что касается предсказания развития событий в текущей ситуации, то ChatGPT это уже вполне себе научился делать. Он разбирает фотографию на составные части, переводит её в текст, и далее его LLM по тексту определяет, что будет происходить дальше. По сети расходятся подобные примеры, где он рассматривает изображения с точки зрения физики и говорит, что случится вследствие действий, происходящих на фотографии.
Невероятно, насколько близко Джеймс Кэмерон был от истины! Послушайте самого терминатора из второй части, время 1:05.
"Can you learn stuff shich you haven't been programmed with so you can be more human?" "My CPU is neural net processor, a learning computer. The more contact I have with humans the more I learn"
Джон Коннор: "Можешь ли ты учиться тому, чему тебя не запрограммировали? Стать более человечным?"
Терминатор: "Мой CPU – это нейросетевой процессор, обучаемый компьютер. Чем больше я общаюсь с людьми, тем больше я могу выучить."
Если Джеймс Кэмерон мог предположить ещё в таком далёком от нас 1991 году, то как не прислушаться к его предупреждению?
Что еще никто не в мире не пробовал – так это дать в руки двуногому роботу оружие. Никто, кроме одной фирмы, и вы прекрасно знаете, где она находится. А зовут их робота очень просто – Фёдор.
Согласно заверениям его конструктора, "Фёдор умеет говорить и распознавать речь, ходить, подниматься по лестницам, ориентироваться в пространстве с помощью поворотов головы, преодолевать полосу препятствий, управлять автомобилем и квадроциклом и даже ползать на четвереньках. Благодаря хорошей моторике рук, он может работать с различными инструментами, которыми пользуются сотрудники МЧС для спасения людей. Также робот умеет накладывать шины, делать уколы, а ещё помогать на производстве: собирать других роботов."
Кстати, именно наш Фёдор сейчас является одним из немногих роботов, которые управляют машиной своими руками-манипуляторами, а не только через электронные интерфейсы.
Как мы видим, все действия железного злодея сейчас могут выполнить нейросети. Для этого им сейчас требуется много времени и ресурсов, но сейчас идет работа над их энергоэффективностью и повышением быстродействия. Не хватает только той нейронной сети, которая быстро обрабатывает выводы от всех этих нейросетей, выдающих результат обработки своей порции информации.
Физическое тело
Для передвижения и участия в повседневной людской жизни терминатор использует тело, которое умеет ходить, работать руками и, по своим параметрам, мало чем отличается от человека. Он антропоморфный, их ещё называют гуманоидными, человекоподобными или андроидами. С точки зрения производства, это одни их самых сложных роботов.
В сценах, где робот двигается после повреждений защитного кожного покрова, отчётливо слышен звук сервомоторов, как в современных механизмах. То есть, он построен на вполне себе современной элементной базе.
Конечно же, мы все знаем, что сейчас самый совершенный из человекоподобных роботов – по имени Атлас производства Boston Dynamics.
Его конкуренты за звание самого подвижного робота сегодня – это роботы Agility Robotics
и китайский андроид Unitree H1.
Китайцы, как им это свойственно, подошли к производству Unitree H1 с размахом и клепают их пачками. Как ни странно, Unitree H1 можно купить на Алиэкспресс.
От Boston Dynamocs и Agility не отстают и сами разработчики OpenAI с их Figure 1, и Tesla, однако ходят они несравненно хуже Атласа.
Надо сказать и о японцах. Их робот ASIMO фирмы Honda, когда-то первым пошедший на двух ногах, проиграл Атласу в конкурентной схватке и сошёл с дистанции. Проект по его разработке закрыли.
По степени взаимодействия с техникой из мира людей, сейчас, пожалуй, Фёдор стоит на первом месте. Атлас и китайский робот не могут ни стрелять, ни водить машину, а лишь перемещать коробки по полкам.
Однако Федор не может делать то самое главное, зачем его создавали в форме человека - ходить. С этим гораздо лучше справляются его иностранные аналоги. Возможно, из этих андроидов новая нейросеть и построит своё тело. Они уже сильно напоминают скелет человека.
С кожей и мимикой дальше всего продвинулась другая компания – Ameca. Они разработали покрытие, своими свойствами похожее на настоящую кожу, и научили робота выражать эмоции.
У одних из этих машин имеется отличный механизм хождения на двух ногах, у других – неплохие искусственные руки, другие могут управлять автомобилями или изменять выражение лица. Догадается ли какая-то из нейросетей в будущем собрать лучшие качества от каждого из них?
Процессор и код
Если вы посмотрите на все приведённые выше ходячие роботы, то можете заметить, что всех их объединяет одно – отсутствие полноценной головы. Мы с вами уже поняли, что нормальную голову им ещё не изобрели.
От использования всех возможностей современных нейросетей в одной голове нас отделяет размер серверов, необходимых для их работы. Например, для работы ChatGPT его создателем OpenAI построены целые дата-центры, к мощностям которых пользователи получают доступ по подписке. Такие вычислительные мощности требуют не только огромного количества электроники, но и потребляют невероятное количество электроэнергии, а также требуют отвода большого количества тепла – эффективной жидкостной системы охлаждения.
Для работы настолько сложной системы для работы с окружающей средой в реальном времени потребуется слаженная работа сразу нескольких нейросетей, соответственно, мощность будет сравнима с современным ЦОД.
Получается, что скомпоновать всю вычислительную мощность в один небольшой по размеру корпус смогут когда-то в будущем. Для работы настолько быстродействующей вычислительной системы, в голове терминатора, которая по размеру такая же, как и обычная, человеческая, должен находиться процессор, по быстродействию сравнимый с настоящим центром обработки данных какого-нибудь условного МТС. Этот процессор питается от источника энергии, рассчитанного, как утверждается, на 120 лет и столь энергоэффективный, что может охлаждаться жидкостной системой охлаждения, по размеру сравнимой с кровеносной системой человека. Поскольку терминатор – киборг, то почему бы кровеносной системе не гонять не холодную, а тёплую кровь, охлаждая её, как и у нас, от окружающей среды?
Возможно, что для этой цели удалось или перейти на сверхмалые техпроцессы, или произвести процессоры, собранные на новом материале, который способен ещё сильнее уменьшить техпроцесс. Уменьшить размеры микросхем поможет переход с обычного материала, который используется в их изготовлении – кремния, на другой, германий. Или же, пойти дальше и вовсе использовать новые материалы, например, графен. Можно пойти еще дальше и подумать, что это могли бы быть перспективные микросхемы с квантовой структурой, а также фотонные процессоры.
Как выяснил один из программистов, код, выводимый на экран – это ассемблер MOS 6502. Соединение нового процессора и быстрого кода на одном из низкоуровневых языков программирования отлично скажется на быстродействии такой системы. Почему именно ассемблер, ведь на нём было бы так сложно написать столько кода? Как раз это и не сложно, потому что такую задачу можно будет поставить самой нейросети, которая и преобразует код.
Похоже, что сейчас самое время внять предупреждениям режиссера Терминатора. Для создания робота дело осталось за малым: наверное, нужно доработать существующие устройства. На роль главной нейросети, прототипом которой является Скайнет, вполне может подойти AGI, создаваемая ведущими разработчиками искусственного интеллекта. Возможно, что это именно то, что является недостающим компонентом для создания подобного разумного робота.
Как может развиваться сценарий появления терминаторов, подобных Т-101?
Фильм предупреждает нас о появлении суперфирмы Кибердайн Системс, которая и разработала терминаторов, и которую пытались уничтожить Сара Коннор со своим железным телохранителем. Кого нам стоит опасаться и от кого ждать неприятностей, кто больше всего подходит на роль Кибердайн сейчас? Станет ли ей Boston Dynamics, фабрика по производству ИИ-чипов, видеокарт, например, NVidia, квантовых компьютеров – наши или иностранные, Copilot, или же, Скайнет – это та фирма, которая сегодня производит робота Фёдора?
Совсем недавно мир облетела новость, что Agility Robotics создала фабрику по производству человекоподобных роботов. Её изюминка была в том, что, как утверждалось в новостных сюжетах, роботов на ней будут собирать сами же роботы.
Первые роботы Скайнета походили на людей, но их всё ещё можно было отличить. Тем не менее, они уже были вполне похожими на нас. Давайте подсчитаем, что в нашем времени отсутствует для создания терминаторов.
Сегодня для их появления все ещё не хватает: главной сверхбыстродействующей нейросети, маленького и сверхмощного, по сегодняшним меркам, процессора, источника питания с долгим временем работы и искусственной кожи. Однако их создание уже идёт семимильными шагами.
Возможно, что это кожа для роботов, разрабатываемая саудовскими учёными, источник питания на холодном ядерном синтезе, который продолжат развивать у нас после развала науки в девяностых, и AGI, сверхпроницательный искусственный интеллект, к которому стремятся как OpenAI, так и Microsoft, и Google.
Предположим, что новая версия ChatGPT отрядом из нескольких роботов Atlas и Фёдор захватила фабрику Agility Robotics. На ней она во много раз преумножила себя, построив бесконечное число их копий. Целой армии будущих терминаторов уже не составит труда захватить производство реалистичной мимики Ameca.
Взяв за основу лучшее из своих тел – Атласа, после нескольких итераций по совершенствованию и усилению внутренних механизмов, он добавит к нему лучшие качества от каждой из других моделей двуногих роботов. В голову поместит автономные нейросети. На усиленный скелет Атласа он накинет искусственную кожу и улыбку Амеки, и уже получится машина, сильно похожая на человека.
Этот робот наденет чёрные очки, и только и ищи таких среди нас. Ну а если робот Фёдор поделится технологией управления автомобилями и некоторыми другими своими навыками, то их уже ничто не остановит на пути к захвату мира!