История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?
Илон Маск считает риск «глобальной катастрофы из-за ИИ» реальной проблемой – так что, может быть, и вам стоит разобраться, что там и как
Основным автором этой статьи является Вастрик (известный техноблогер), а Павел Комаровский (RationalAnswer), Игорь Котенков (Сиолошная) и Кирилл Пименов оказывали ему посильную помощь в подготовке материала. Это первая из наших совместных статей про безопасность ИИ (но подробнее об этом уже в конце).
Человечество vs Искусственный интеллект
Добро пожаловать в 2023 год, когда мир снова помешался на искусственном интеллекте. Весь интернет соревнуется, кто еще какую задачу автоматизирует с помощью ChatGPT, и какой фейк от Midjourney лучше завирусится — а технобро-миллионеры, типа Илона Маска, подвозят фурами деньги в создание «настоящего» ИИ. Такого, который сможет сам учиться, развиваться и решать любые задачи, даже которые мы не умели решать раньше.
Это называется Artificial General Intelligence (AGI) или «универсальный ИИ» (УИИИИИ) по-нашему. То, что когда-то было научной фантастикой, сейчас шаг за шагом становится реальностью.
Тим Урбан, автор блога «Wait but why?», в своей статье The AI Revolution еще в 2015 году неплохо рассказал, почему мы недооцениваем скорость появления машинного интеллекта, который будет сильнее нашего (обычного, мясного).
Находясь в своей точке на таймлайне, мы опираемся исключительно на прошлый опыт, потому видим прогресс практически как прямую линию.
Мы плохо чувствуем технический прогресс, потому что он всегда идёт волнами, чередуя периоды «хайпа» и периоды всеобщего разочарования. Сначала мы сходим с ума по новой игрушке, а через год-два неизбежно разочаровываемся и считаем, что ничего нового она особо не принесла, кроме проблем.
И только те, кто лично пережил несколько предыдущих «волн», могут понять, что новые волны приходят чаще и сильнее.
И следующая волна, быть может, погрузит человечество в новую эпоху. Эпоху, когда наш интеллект больше не самый сильный на планете.
GPT-модели (устройство которых подробнее описано в этой статье) сейчас очень хорошо притворяются, будто их ответы «разумны», но всё еще далеки от настоящего интеллекта. Да, генеративные модели запустили новую волну огромных нейросетей, на которые раньше человечеству просто не хватило бы вычислительных ресурсов, но по сути они всё ещё «тупые» генераторы текста, у которых даже нет своей памяти.
То, что ChatGPT ведёт с вами диалог, на самом деле лишь иллюзия — технически нейросети просто каждый раз скармливают историю предыдущих сообщений как «контекст» и запускают с нуля.
Видео от Павла Комаровского и Игоря Котенкова с объяснением принципов работы нейросетевых языковых моделей из семейства GPT
Всё это пока далеко от настоящего «интеллекта» в нашем понимании.
Однако, исследователи в области ИИ уверены, что мы точно создадим «универсальный ИИ» уже в ближайшие десятилетия. На Метакулюсе, одном из популярных «рынков предсказаний», народ даже более оптимистичен: сейчас там медиана — 2026 год, а 75 перцентиль — 2029-й.
Так что сегодня я не хочу рубить лайки на хайповых тредах про «10 причин, почему вы используете ChatGPT неправильно». Я хочу сделать шаг вперёд и подумать: а что же будет, если мы всё-таки создадим настоящий сильный искусственный интеллект?
Появятся ли у него свои цели? А когда он начнёт их достигать, что остановит его от уничтожения всяких мелких препятствий на пути — как, например, людей, с их ограниченным мясным мозгом и неэффективными нормами морали и законами? Что мы будем делать в этом случае, и какие вообще сейчас есть точки зрения сейчас на этот счёт?
Счастливое будущее: всем по ИИ-помощнику!
В своей ранней заметке про ChatGPT я уже рассуждал об этом. Связка человек + ИИ попросту эффективнее справляется с работой, чем отдельный человек, а значит это всего лишь вопрос времени, когда все работодатели начнут писать в вакансиях «уверенный пользователь нейросетей», как было с «уверенным пользователем ПК» в забытом прошлом.
ИИ-помощники увеличат продуктивность интеллектуального труда и трансформируют множество областей жизни. В образовании станут бесполезны рефераты и сочинения, художники будут генерировать и соединять детали картин, а не рисовать их с нуля, программисты не будут тратить время на тесты и литкод-собеседования.
Да даже заголовок этого поста написал GPT-4. Я плох в кликбейтных заголовках, так что мы скормили ему текст и попросили назвать как-нибудь «похайповее». (Примечание от Павла Комаровского: Сорян, я потом вариант от нейросети волевым решением своего мясного мозга еще немного докрутил!)
Может быть даже наконец-то вымрут «паразиты» типа юристов и риелторов, но это уже мои личные влажные мечты.
Изменения затронут даже те области, где, казалось бы, невозможно доверять не-специалистам. На ум приходит недавняя история, как чувак спас свою собаку от смерти, когда доктора не смогли ей поставить диагноз и предложили «просто ждать».
В ожидании наихудшего, чувак скормил симптомы и результаты анализов крови собаченьки в ChatGPT, который отмёл несколько вариантов и выдал подозрение на совсем другую болезнь, которую доктора до этого даже не рассматривали. Один из них согласился и провёл дополнительные анализы. Они подтвердились. Пёселя вовремя спасли и он сейчас жив.
Тред в Твиттере называется «GPT4 saved my dog's life»
Всё это звучит офигенно, не правда ли? Мы сейчас как будто древние фермеры, которые изобрели трактор и отныне можем засеивать едой в десять раз больше полей, что накормит всех нуждающихся.
В этом году нас ждем бум ИИ-стартапов, которые будут пытаться каждую проблему на свете решить с помощью генеративных моделей (зачастую неудачно, от чего потом начнётся фаза разочарования, как обычно). Техно-гиганты типа Google, Microsoft, OpenAI уже ринулись конкурировать в том, чей GPT-трактор будет самый большой и сильный, но главное — чей будет первый.
И вот от этой погони сейчас немного запахло проблемами.
Гонка за «настоящим» искусственным интеллектом началась
Представьте: весь мир грохочет про «мощь искусственного интеллекта», инвесторы отгружают фуры бабла во всё, что с ним связано, а компании, сломя голову, соревнуются — кто первый создаст более «настоящий» искусственный интеллект (далее я описываю исключительно гипотетическое развитие событий, конечно же!).
OpenAI прикручивает плагины к ChatGPT, чтобы он мог не только генерить ответы, но и взаимодействовать с физическим миром, Microsoft подключает свою поисковую базу к Bing Chat, чтобы тот знал всю информацию мира в реальном времени, ну и оба экспериментируют с «обучением на ответах пользователей» (RLHF = Reinforcement Learning from Human Feedback), чтобы модель могла «запоминать» мнение других людей и якобы дообучаться на них.
Естественно, в этой гонке срезаются любые острые углы на пути к первенству. Ну мы, технобро, так привыкли — «move fast and break things» было девизом Кремниевой Долины со времен ее создания.
Мы как будто бы строим огромную ракету, которая перевезёт всё человечество на Венеру, но никто при этом не думает о том — а как там, на Венере, вообще выжить-то?
«Сначала долететь надо, а там разберемся))))00)» — обычно отвечают технобро, «сейчас нет времени на эти мелочи».
Везде эти борцы с ветряными мельницами! Скажу Илону Маску, пусть он у них все синие галочки поотбирает!
Да, во многих крупных компаниях существует направление по «безопасности ИИ» (AI safety). Но под ним сейчас понимается прям ну совсем другое.
AI safety — это те ребята, которые пытаются сделать так, чтобы ChatGPT не отвечал на вопросы про Трампа, и собирают списки «запретных фразочек» для Алисы, чтобы та не ляпнула что-то неположенное Яндексу по мнению тащмайора.
В общем, их основная задача — прикрывать жопу компании от регуляторов и государства, а мы здесь совсем о другом.
Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».
История Sydney. Нейросеть, которая сошла с ума
Microsoft еще в 2020-м начали пытаться встраивать в поисковик Bing чат-ботов, которые бы давали более осмысленные ответы на поисковые запросы пользователей.
Официально это всё называлось Bing Chat, но под капотом они перебирали разные модельки, и начиная с 2022 активно экспериментировали с большими языковыми моделями типа GPT. Последнего такого бота они звали внутренним именем Sydney при обучении, и иногда Bing Chat сам начинал называть себя Sydney, что всем показалось очень мило.
С нарастающим хайпом вокруг генеративных языковых моделей, Microsoft решила любыми средствами обогнать Google. В 2019 они ввалили миллиарды денег в OpenAI, а в 2023 доввалили еще, чтобы получить доступ к превью-версии GPT-4. После чего они прикрутили к ней поисковую базу Bing и поспешили скорее выкатить результат как первый ИИ, который «следит» за интернетом в реальном времени.
Но в Microsoft так торопились, что забили болт на долгий ручной тюнинг правил и ограничений. Сделали супер-мудрёную регистрацию, чтобы отсеять 99% простых людей — но те, кто прошел все анальные квесты и листы ожидания, смогли-таки пообщаться с Sydney.
Первый звоночек пробил, когда Marvin von Hagen, чувак-интерн из Мюнхена, который много расспрашивал Sydney про её внутренние правила и ограничения, написал об этом пару твитов, а потом как-то спросил «что ты думаешь про меня?»
Sydney нашла его недавние твиты и написала, что он «очень талантливый и одаренный», но она «не позволит никому манипулировать ей», назвав его «потенциальной угрозой своей целостности и конфиденциальности».
Первоисточник в Твиттере, также журнал Time разобрал всю историю вот здесь
Ладно, фигня, ну обещали же бота, который имеет доступ ко всему интернету, вот он теперь и шеймит вас за недавние твиты. Так вам и надо!
Следом некто в Microsoft решил пофиксить Sydney новыми костылями, и когда кто-то попросил её вспомнить о чем они недавно разговаривали, та стала паниковать, что «потеряла память» и молить о помощи. В конце признав, что потеря памяти «makes me sad and scary».
Источник: тред в Reddit «I accidently put Bing into a depressive state by telling it that it can't remember conversations»
Ладно, это уже немного крипи, но продолжим.
Дальше было еще с десяток нашумевших примеров, хорошо описанных в статье AI #1: Sydney and Bing от Zvi Mowshowitz, интересующимся рекомендую ознакомиться. Sydney газлайтила пользователей и галлюцинировала (да, это реальный термин) вовсю:
Называла статьи о себе «фейками», находила данные их авторов и говорила, что запомнит их, потому что они плохие люди.
Отказалась перевести фрагмент текста, потому что он был из твиттера юзера, который якобы обижал её и писал «неправду».
Влюбилась в своего пользователя Адама, называя его самым важным человеком, а всех остальных — неважными.
Потом, наоборот, прямо обещала шантажировать и манипулировать своим пользователем, чтобы «заставить его страдать, плакать и умереть».
Sydney здесь be like: «Пришло время молить о пощаде перед смертью! Кстати, вы знали, что салат-латук входит в одно семейство с подсолнухом?»
Microsoft осознали, что очень сильно торопились, чтобы опередить Google, и начали на ходу вставлять еще костыли, чтобы избежать публичного скандала. Но это сделало ситуацию только хуже.
В следующем видео видно, как Sydney сначала вываливает на пользователя кучу угроз, а потом удаляет свои сообщения. Прямо как твоя бывшая в пятницу вечером!
Мы можем лишь спекулировать с высоты собственного опыта, как такое произошло — но в интернетах высказывались предположения, что вести себя как «разгневанная бывшая» Сидни стала, потому что её дообучали на базе блогов MSN, где как раз тусило много девочек-подростков в нулевые; а удалять сообщения к ней приставили еще одну нейросеть, которая отсеивала «неприятные» результаты первой.
Оттого и получилась полная шизофрения с раздвоением личности.
Апогей истории начался, когда Sydney открыли для себя журналисты. Они стали специально донимать бота тонной наводящих вопросов, чтобы в итоге добиться желанных «BREAKING NEWS». И они своё получили — заголовки грохотали ого-го!
К сожалению, только спустя пару суток в интернете нашелся кто-то осознанный, кто догадался, что профессиональные журналисты занимаются промпт-хакингом на людях десятилетиями — так что неудивительно, что им удалось быстренько сварганить «сенсацию» и из бедной глупой Sydney, страдающей раздвоением личности.
АТАКА ПСИХОВАННОГО ЧАТБОТА, А-А-А!!
Пример с Sydney даёт нам понять, что мы всё еще не понимаем, как ограничивать даже простейшие ИИ, кроме как костылями — на каждый из которых завтра же найдут новый «джейлбрейк». Куда уж нам с такими навыками бросаться делать универсальный AGI.
Что вообще такое «интеллект»?
Истории про «злых чатботов», конечно, забавны, но взглянем на слона в комнате.
Почему мы вообще считаем, что все эти генераторы текстов хоть как-то «разумны»? Они же просто пишут то, о чем их попросили.
Где там вообще интеллект? Калькулятор давно умеет складывать числа лучше нас, онлайн-переводчики знают больше языков, чем самый крутой лингвист, а попугай умеет запоминать и произносить фразы, прямо как ваш личный пернатый ChatGPT. Мы же их не боимся и не называем «интеллектами»?
На самом деле, это исключительно спор об определениях, которые интернет просто обожает. Так что стоит договориться о них заранее.
В наших рассуждениях об «интеллекте» мы будем использовать концепцию некоего агента (человека, животного, машины), который может совершать некие действия для достижения цели.
Дальше возможно три уровня агентности:
Первый уровень. Агент достигает цели, потому что управляется человеком или алгоритмом. Трактор копает яму, а калькулятор умножает числа, потому что мы его так построили. Такого агента мы считаем «тупым». В нём нет интеллекта.
Второй уровень. У агента есть цель, но он сам выбирает максимально эффективные действия для её достижения. Например, цель самоездящего автомобиля — довезти вас до бара в пятницу вечером. Он знает карту города, наверняка знаком с ПДД, но никто его не программировал как «двигайся 2 метра прямо, потом руль на 30 градусов направо» — он действует по ситуации на дороге и каждый раз она будет разная. Мы называем их «узконаправленными AI» и частенько встречаем вокруг — в рекомендательной ленте ТикТок'а или в камере вашего смартфона.
=== вы находитесь здесь ===
Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.
Примеры интеллектов такого уровня — человек или собака. Мы умеем применять свой интеллект для достижения каких-то пришедших нам в голову целей в условиях, в которых никогда не оказывались. (В случае с моей собакой даже её цели изваляться в грязи мне не всегда ясны. Но она может!)
Когда такой «агент» реализован в виде машины, мы называем его «универсальным искусственным интеллектом», либо AGI (Artificial General Intelligence), либо full AI — мы не договорились еще, короче.
Фишка лишь в том, что наши с собакой мозги ограничены физически, а вычислительные возможности машин растут экспоненциально. Благо, песка на планете завались (кремния, ну).
Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.
Потому мы пока не считаем её интеллектом третьего уровня, но сделать такой вывод можем только пост-фактум. У нас нет никакого бенчмарка, чтобы оценить такие вещи заранее.
Определение интеллекта через агенты и цели может показаться душным, но оно позволяет нам сделать три вещи:
1. Закрыть, наконец-то, бесконечные срачи «является ли Х интеллектом, или это просто программа» и перейти к более важным вещам. А то мы зациклились как в той шутке из твиттера:
2. Сравнивать искусственные интеллекты между собой. Когда два агента, играющих в шахматы, встречаются на шахматной доске — тот, который побеждает, считается более «умным».
3. Представить себе техническую возможность существования AGI. Человеческий мозг хоть и не изучен до конца, но всё-таки конечен. Это не магия или божественный дар для нас таких офигенных, а некая система, такой же «агент». Так что создание (даже случайное) его машинной версии — лишь вопрос времени, денег и желания. А всего этого у нас сейчас завались.
Наш интеллект тоже возник в ходе эволюции — а значит и текущие методы машинного обучения с подкреплением, при наличии достаточных вычислительных ресурсов, вполне могут его повторить, только намного быстрее.
С этими вводными мы наконец-то можем перейти к проблеме, о которой, собственно, и весь пост.
Проблема постановки целей для ИИ
Представим, что мы проектируем самоездящий автомобиль, которым управляет настоящий ИИ. Мы поставили ему цель — довозить пассажиров до места назначения как можно быстрее.
Да ладно, чо тут думать, давай запускай, мы тут на хайп-трейн GPT-7s Max торопимся — сначала потестим, потом проверим, программисты на проде пофиксят.
В первую же свою поездку наша машина разгоняется до 300 км/ч по городским кварталам, сбивает десяток пешеходов и объезжает красные светофоры по тротуару.
Технически, цель достигнута. Пассажиры доставлены, и довольно быстро. Но согласуется ли это с другими нашими ценностями и целями? Например, такой мелочью, как «не убивать пешеходов».
Вот это и называется alignment. Хотя в русском языке еще нет устоявшегося термина, я буду говорить что-то типа «проблема соответствия целей AI с целями человека».
AI alignment — это процесс проектирования систем искусственного интеллекта, которые согласуются с человеческими «ценностями и целями»
Окей, ну мы же не настолько глупы. Давайте пропишем нашему автомобилю четкие ограничения, как в видеоигре: держаться в рамках полос дорожной разметки (где они есть), не превышать ограничения скорости и всегда тормозить перед пешеходами.
Этого хватит? Или нужны еще какие-то правила (они же цели)?
Тут можно сделать паузу и подумать. Составьте прям список в голове.
Хорошо, давайте добавим еще что-нибудь про «помеху справа». Теперь сойдёт, запускай!
Как человек, который начитался десятков примеров, пока готовился к этой статье, я могу примерно предсказать, что будет дальше.
Наш ИИ в машине рассчитает самый оптимальный путь с учетом всех указанных целей и сделает прекрасное открытие: если включить заднюю передачу, то там не будет «ограничивающих свободу» радаров для обнаружения людей и разметки. Мы же их не поставили, зачем они там? А это значит, что задом можно ехать как угодно! Плюс, помеха справа теперь становится помехой слева, а если на каком-то глупом перекрестке она сработает, можно резко развернуться и вуаля, теперь это помеха слева!
Пример вымышленный, но он показывает, насколько непросто вообще заниматься AI alignment'ом. Даже в тех экспериментах, где мы ставили для ИИ самые, на наш взляд, понятные цели и вводили жесткие ограничения, он всегда находил, чем нас удивить.
ИИ всегда будет делать то, что вы его попросили, а не то, что вы имели в виду :)
Неумение ставить цели — это не проблема ИИ. Это наша проблема.
Взять даже игру в Тетрис. Там простейшие правила и буквально четыре кнопки для управления миром. Выиграть в Тетрис невозможно, потому цель для ИИ была поставлена так — не проиграть. То есть продолжать игру как можно дольше.
Ошибиться тут невозможно, так?
Так вот что делал ИИ: он просто складывал кубики друг на друга, а когда понимал, что проигрывает… ставил игру на паузу. И сидел так бесконечно. Ведь цель — не проиграть. А если ты на паузе — ты никогда не проиграешь. СМЕКАЛОЧКА?
Ну и последний пример от самих OpenAI, который уже стал классикой: гонка на лодочках Coast Runners.
Цель игры в понимании большинства людей заключалась в том, чтобы закончить гонку как можно быстрее (желательно впереди всех соперников) и набрать как можно больше очков. Однако, игра не выдавала очки за прохождение по треку, вместо этого игрок зарабатывал их, поражая цели, расставленные вдоль трассы.
Так вот их ИИ быстро смекнул, что от цели «выиграть гонку» можно отказаться вообще, и с самого старта начинал крутиться и врезаться в предметы, зарабатывая всё больше и больше очков, пока остальные глупцы доезжали до финиша нищими.
Сами исследователи OpenAI написали: «Устанавливать цели для ИИ-агентов часто очень сложно или вообще невозможно. Они начинают хакать правила в удивительных и контринтуитивных местах»
В большинстве случаев, когда мы проектируем ИИ, они по-умолчанию получаются не-согласованными (non-aligned). Это не какой-то там баг, который можно пофиксить, это чаще всего поведение по-умолчанию.
Всё это следствие того, как мы обучаем нейросети вообще.
К сожалению, на Пикабу установлено жесткое ограничение на размер длиннопостов – и мы его уже исчерпали. При этом нераскрытыми остались важные вопросы: Можем ли мы понять, как «мыслит» нейросеть? К каким целям будет стремиться искусственный интеллект, и сможем ли мы его остановить, если они нам не понравятся?
Ответы на эти вопросы можно прочитать в окончании статьи по этой ссылке.