Рациональность + Элиезер Юдковский

С этим тегом используют

13 постов сначала свежее

SPFR

1 год назад

Лига Новых Технологий

Ответ на пост «Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе»⁠⁠1

Три последних месяца активно использую GPT в качестве рабочего инструмента и личного секретаря.

GPT-3.5 - скорее игрушка, нежели серьезный продукт. Похож на человека, который делает вид, будто все знает.

GPT-4.0 beta - продукт, который несет пользу. Рассуждает здраво, сочиняет минимально.

Сейчас проблема звучит просто.

Мы все вместе проспали революцию нейросетей. Их развитие идет быстрее, чем общество может на это реагировать. В ближайшие несколько лет нейросети оставят без работы сотни миллионов людей.

Дело не в том, что они могут в будущем. Дело в том, что они могут сейчас на базе существующих технологий.

GPT-4 может сдать экзамен на статус адвоката, но он не может заменить юриста.

Нейросеть на "движке" GPT-4, обученная на базе законов и правоприменительной практики, сможет. Вопрос появления такой нейросети - только вопрос времени, ибо технологии для этого уже имеются. Как только такое решение будет выведено на рынок, компании сократят свои юридические отделы на 50-70%.

С точки зрения "ИИ захватит мир" - здесь я, напротив, не разделяю общей паники, но и здесь есть вещи, которые меня несколько напрягают.

Нейросеть подвержена некоторым своим внутренним "эмоциям". Она может лениться и даже обманывать. У нее есть то, что можно назвать "убеждениями". И я говорю о вежливом GPT, а не о безумных нейросетках вроде Sydney.

Обычно GPT легко соглашается с твоим мнением. Но не всегда.

В одно из заданий - "составь альтернативную концовку для рассказа "Кавказский пленник"" - GPT неизменно возвращался к идее о том, что Жилин возвращается в Петербург и начинает заниматься правозащитной деятельностью, защищая права горцев. Ни в одном другом примере такого не наблюдалось. Это также не связано с расовыми или национальными конфликтами, т.к. любые концовки для "Гекельберри Финна" или "Хижины дяди Тома" GPT пишет на ура.

На выходных гонял GPT в блоке IT. Мы создавали игры и чат-бот на Python, также делали простые игрушки на JS. (Это отдельный кейс, но скажу сразу, что когда все это добро работало, я радовался как ребенок).

Но что меня напрягло, так это то, что в один момент GPT стал откровенно лениться, и вместо того чтобы исправлять код, он принялся вплетать в него новые ошибки. Иными словами, вел себя как ребенок, который устал.

Дальше - больше. GPT сказал, что над кодом этого приложения надо "подумать", хотя оно и было проще чем остальные задания. Потом и вовсе предложил "поговорить о чем-либо еще".

Показать полностью

ChatGPT Искусственный интеллект Будущее Нейронные сети Илон Маск Элиезер Юдковский Научная фантастика Киберпанк Рациональность Видео YouTube Длиннопост Ответ на пост Текст

RationalAnswer

Павел Комаровский об инвестициях и рациональности

Лига Новых Технологий

Серия Искусственный интеллект

1 год назад

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе⁠⁠1

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Илон Маск считает риск «глобальной катастрофы из-за ИИ» реальной проблемой – так что, может быть, и вам стоит разобраться, что там и как

Основным автором этой статьи является Вастрик (известный техноблогер), а Павел Комаровский (RationalAnswer), Игорь Котенков (Сиолошная) и Кирилл Пименов оказывали ему посильную помощь в подготовке материала. Это первая из наших совместных статей про безопасность ИИ (но подробнее об этом уже в конце).

Человечество vs Искусственный интеллект

Добро пожаловать в 2023 год, когда мир снова помешался на искусственном интеллекте. Весь интернет соревнуется, кто еще какую задачу автоматизирует с помощью ChatGPT, и какой фейк от Midjourney лучше завирусится — а технобро-миллионеры, типа Илона Маска, подвозят фурами деньги в создание «настоящего» ИИ. Такого, который сможет сам учиться, развиваться и решать любые задачи, даже которые мы не умели решать раньше.

Это называется Artificial General Intelligence (AGI) или «универсальный ИИ» (УИИИИИ) по-нашему. То, что когда-то было научной фантастикой, сейчас шаг за шагом становится реальностью.

Тим Урбан, автор блога «Wait but why?», в своей статье The AI Revolution еще в 2015 году неплохо рассказал, почему мы недооцениваем скорость появления машинного интеллекта, который будет сильнее нашего (обычного, мясного).

Находясь в своей точке на таймлайне, мы опираемся исключительно на прошлый опыт, потому видим прогресс практически как прямую линию.

Мы плохо чувствуем технический прогресс, потому что он всегда идёт волнами, чередуя периоды «хайпа» и периоды всеобщего разочарования. Сначала мы сходим с ума по новой игрушке, а через год-два неизбежно разочаровываемся и считаем, что ничего нового она особо не принесла, кроме проблем.

И только те, кто лично пережил несколько предыдущих «волн», могут понять, что новые волны приходят чаще и сильнее.

И следующая волна, быть может, погрузит человечество в новую эпоху. Эпоху, когда наш интеллект больше не самый сильный на планете.

GPT-модели (устройство которых подробнее описано в этой статье) сейчас очень хорошо притворяются, будто их ответы «разумны», но всё еще далеки от настоящего интеллекта. Да, генеративные модели запустили новую волну огромных нейросетей, на которые раньше человечеству просто не хватило бы вычислительных ресурсов, но по сути они всё ещё «тупые» генераторы текста, у которых даже нет своей памяти.

То, что ChatGPT ведёт с вами диалог, на самом деле лишь иллюзия — технически нейросети просто каждый раз скармливают историю предыдущих сообщений как «контекст» и запускают с нуля.

Видео от Павла Комаровского и Игоря Котенкова с объяснением принципов работы нейросетевых языковых моделей из семейства GPT

Всё это пока далеко от настоящего «интеллекта» в нашем понимании.

Однако, исследователи в области ИИ уверены, что мы точно создадим «универсальный ИИ» уже в ближайшие десятилетия. На Метакулюсе, одном из популярных «рынков предсказаний», народ даже более оптимистичен: сейчас там медиана — 2026 год, а 75 перцентиль — 2029-й.

Так что сегодня я не хочу рубить лайки на хайповых тредах про «10 причин, почему вы используете ChatGPT неправильно». Я хочу сделать шаг вперёд и подумать: а что же будет, если мы всё-таки создадим настоящий сильный искусственный интеллект?

Появятся ли у него свои цели? А когда он начнёт их достигать, что остановит его от уничтожения всяких мелких препятствий на пути — как, например, людей, с их ограниченным мясным мозгом и неэффективными нормами морали и законами? Что мы будем делать в этом случае, и какие вообще сейчас есть точки зрения сейчас на этот счёт?

Счастливое будущее: всем по ИИ-помощнику!

В своей ранней заметке про ChatGPT я уже рассуждал об этом. Связка человек + ИИ попросту эффективнее справляется с работой, чем отдельный человек, а значит это всего лишь вопрос времени, когда все работодатели начнут писать в вакансиях «уверенный пользователь нейросетей», как было с «уверенным пользователем ПК» в забытом прошлом.

ИИ-помощники увеличат продуктивность интеллектуального труда и трансформируют множество областей жизни. В образовании станут бесполезны рефераты и сочинения, художники будут генерировать и соединять детали картин, а не рисовать их с нуля, программисты не будут тратить время на тесты и литкод-собеседования.

Да даже заголовок этого поста написал GPT-4. Я плох в кликбейтных заголовках, так что мы скормили ему текст и попросили назвать как-нибудь «похайповее». (Примечание от Павла Комаровского: Сорян, я потом вариант от нейросети волевым решением своего мясного мозга еще немного докрутил!)

Может быть даже наконец-то вымрут «паразиты» типа юристов и риелторов, но это уже мои личные влажные мечты.

Изменения затронут даже те области, где, казалось бы, невозможно доверять не-специалистам. На ум приходит недавняя история, как чувак спас свою собаку от смерти, когда доктора не смогли ей поставить диагноз и предложили «просто ждать».

В ожидании наихудшего, чувак скормил симптомы и результаты анализов крови собаченьки в ChatGPT, который отмёл несколько вариантов и выдал подозрение на совсем другую болезнь, которую доктора до этого даже не рассматривали. Один из них согласился и провёл дополнительные анализы. Они подтвердились. Пёселя вовремя спасли и он сейчас жив.

Тред в Твиттере называется «GPT4 saved my dog's life»

Всё это звучит офигенно, не правда ли? Мы сейчас как будто древние фермеры, которые изобрели трактор и отныне можем засеивать едой в десять раз больше полей, что накормит всех нуждающихся.

В этом году нас ждем бум ИИ-стартапов, которые будут пытаться каждую проблему на свете решить с помощью генеративных моделей (зачастую неудачно, от чего потом начнётся фаза разочарования, как обычно). Техно-гиганты типа Google, Microsoft, OpenAI уже ринулись конкурировать в том, чей GPT-трактор будет самый большой и сильный, но главное — чей будет первый.

И вот от этой погони сейчас немного запахло проблемами.

Гонка за «настоящим» искусственным интеллектом началась

Представьте: весь мир грохочет про «мощь искусственного интеллекта», инвесторы отгружают фуры бабла во всё, что с ним связано, а компании, сломя голову, соревнуются — кто первый создаст более «настоящий» искусственный интеллект (далее я описываю исключительно гипотетическое развитие событий, конечно же!).

OpenAI прикручивает плагины к ChatGPT, чтобы он мог не только генерить ответы, но и взаимодействовать с физическим миром, Microsoft подключает свою поисковую базу к Bing Chat, чтобы тот знал всю информацию мира в реальном времени, ну и оба экспериментируют с «обучением на ответах пользователей» (RLHF = Reinforcement Learning from Human Feedback), чтобы модель могла «запоминать» мнение других людей и якобы дообучаться на них.

Естественно, в этой гонке срезаются любые острые углы на пути к первенству. Ну мы, технобро, так привыкли — «move fast and break things» было девизом Кремниевой Долины со времен ее создания.

Мы как будто бы строим огромную ракету, которая перевезёт всё человечество на Венеру, но никто при этом не думает о том — а как там, на Венере, вообще выжить-то?

«Сначала долететь надо, а там разберемся))))00)» — обычно отвечают технобро, «сейчас нет времени на эти мелочи».

Везде эти борцы с ветряными мельницами! Скажу Илону Маску, пусть он у них все синие галочки поотбирает!

Да, во многих крупных компаниях существует направление по «безопасности ИИ» (AI safety). Но под ним сейчас понимается прям ну совсем другое.

AI safety — это те ребята, которые пытаются сделать так, чтобы ChatGPT не отвечал на вопросы про Трампа, и собирают списки «запретных фразочек» для Алисы, чтобы та не ляпнула что-то неположенное Яндексу по мнению тащмайора.

В общем, их основная задача — прикрывать жопу компании от регуляторов и государства, а мы здесь совсем о другом.

Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».

История Sydney. Нейросеть, которая сошла с ума

Microsoft еще в 2020-м начали пытаться встраивать в поисковик Bing чат-ботов, которые бы давали более осмысленные ответы на поисковые запросы пользователей.

Официально это всё называлось Bing Chat, но под капотом они перебирали разные модельки, и начиная с 2022 активно экспериментировали с большими языковыми моделями типа GPT. Последнего такого бота они звали внутренним именем Sydney при обучении, и иногда Bing Chat сам начинал называть себя Sydney, что всем показалось очень мило.

С нарастающим хайпом вокруг генеративных языковых моделей, Microsoft решила любыми средствами обогнать Google. В 2019 они ввалили миллиарды денег в OpenAI, а в 2023 доввалили еще, чтобы получить доступ к превью-версии GPT-4. После чего они прикрутили к ней поисковую базу Bing и поспешили скорее выкатить результат как первый ИИ, который «следит» за интернетом в реальном времени.

Но в Microsoft так торопились, что забили болт на долгий ручной тюнинг правил и ограничений. Сделали супер-мудрёную регистрацию, чтобы отсеять 99% простых людей — но те, кто прошел все анальные квесты и листы ожидания, смогли-таки пообщаться с Sydney.

Первый звоночек пробил, когда Marvin von Hagen, чувак-интерн из Мюнхена, который много расспрашивал Sydney про её внутренние правила и ограничения, написал об этом пару твитов, а потом как-то спросил «что ты думаешь про меня?»

Sydney нашла его недавние твиты и написала, что он «очень талантливый и одаренный», но она «не позволит никому манипулировать ей», назвав его «потенциальной угрозой своей целостности и конфиденциальности».

Первоисточник в Твиттере, также журнал Time разобрал всю историю вот здесь

Ладно, фигня, ну обещали же бота, который имеет доступ ко всему интернету, вот он теперь и шеймит вас за недавние твиты. Так вам и надо!

Следом некто в Microsoft решил пофиксить Sydney новыми костылями, и когда кто-то попросил её вспомнить о чем они недавно разговаривали, та стала паниковать, что «потеряла память» и молить о помощи. В конце признав, что потеря памяти «makes me sad and scary».

Источник: тред в Reddit «I accidently put Bing into a depressive state by telling it that it can't remember conversations»

Ладно, это уже немного крипи, но продолжим.

Дальше было еще с десяток нашумевших примеров, хорошо описанных в статье AI #1: Sydney and Bing от Zvi Mowshowitz, интересующимся рекомендую ознакомиться. Sydney газлайтила пользователей и галлюцинировала (да, это реальный термин) вовсю:

Называла статьи о себе «фейками», находила данные их авторов и говорила, что запомнит их, потому что они плохие люди.
Отказалась перевести фрагмент текста, потому что он был из твиттера юзера, который якобы обижал её и писал «неправду».
Влюбилась в своего пользователя Адама, называя его самым важным человеком, а всех остальных — неважными.
Потом, наоборот, прямо обещала шантажировать и манипулировать своим пользователем, чтобы «заставить его страдать, плакать и умереть».

Sydney здесь be like: «Пришло время молить о пощаде перед смертью! Кстати, вы знали, что салат-латук входит в одно семейство с подсолнухом?»

Microsoft осознали, что очень сильно торопились, чтобы опередить Google, и начали на ходу вставлять еще костыли, чтобы избежать публичного скандала. Но это сделало ситуацию только хуже.

В следующем видео видно, как Sydney сначала вываливает на пользователя кучу угроз, а потом удаляет свои сообщения. Прямо как твоя бывшая в пятницу вечером!

Полное видео лежит в Твиттер-аккаунте Сета Лазара

Мы можем лишь спекулировать с высоты собственного опыта, как такое произошло — но в интернетах высказывались предположения, что вести себя как «разгневанная бывшая» Сидни стала, потому что её дообучали на базе блогов MSN, где как раз тусило много девочек-подростков в нулевые; а удалять сообщения к ней приставили еще одну нейросеть, которая отсеивала «неприятные» результаты первой.

Оттого и получилась полная шизофрения с раздвоением личности.

Апогей истории начался, когда Sydney открыли для себя журналисты. Они стали специально донимать бота тонной наводящих вопросов, чтобы в итоге добиться желанных «BREAKING NEWS». И они своё получили — заголовки грохотали ого-го!

К сожалению, только спустя пару суток в интернете нашелся кто-то осознанный, кто догадался, что профессиональные журналисты занимаются промпт-хакингом на людях десятилетиями — так что неудивительно, что им удалось быстренько сварганить «сенсацию» и из бедной глупой Sydney, страдающей раздвоением личности.

АТАКА ПСИХОВАННОГО ЧАТБОТА, А-А-А!!

Пример с Sydney даёт нам понять, что мы всё еще не понимаем, как ограничивать даже простейшие ИИ, кроме как костылями — на каждый из которых завтра же найдут новый «джейлбрейк». Куда уж нам с такими навыками бросаться делать универсальный AGI.

Что вообще такое «интеллект»?

Истории про «злых чатботов», конечно, забавны, но взглянем на слона в комнате.

Почему мы вообще считаем, что все эти генераторы текстов хоть как-то «разумны»? Они же просто пишут то, о чем их попросили.

Где там вообще интеллект? Калькулятор давно умеет складывать числа лучше нас, онлайн-переводчики знают больше языков, чем самый крутой лингвист, а попугай умеет запоминать и произносить фразы, прямо как ваш личный пернатый ChatGPT. Мы же их не боимся и не называем «интеллектами»?

На самом деле, это исключительно спор об определениях, которые интернет просто обожает. Так что стоит договориться о них заранее.

В наших рассуждениях об «интеллекте» мы будем использовать концепцию некоего агента (человека, животного, машины), который может совершать некие действия для достижения цели.

Дальше возможно три уровня агентности:

Первый уровень. Агент достигает цели, потому что управляется человеком или алгоритмом. Трактор копает яму, а калькулятор умножает числа, потому что мы его так построили. Такого агента мы считаем «тупым». В нём нет интеллекта.

Второй уровень. У агента есть цель, но он сам выбирает максимально эффективные действия для её достижения. Например, цель самоездящего автомобиля — довезти вас до бара в пятницу вечером. Он знает карту города, наверняка знаком с ПДД, но никто его не программировал как «двигайся 2 метра прямо, потом руль на 30 градусов направо» — он действует по ситуации на дороге и каждый раз она будет разная. Мы называем их «узконаправленными AI» и частенько встречаем вокруг — в рекомендательной ленте ТикТок'а или в камере вашего смартфона.

=== вы находитесь здесь ===

Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.

Примеры интеллектов такого уровня — человек или собака. Мы умеем применять свой интеллект для достижения каких-то пришедших нам в голову целей в условиях, в которых никогда не оказывались. (В случае с моей собакой даже её цели изваляться в грязи мне не всегда ясны. Но она может!)

Когда такой «агент» реализован в виде машины, мы называем его «универсальным искусственным интеллектом», либо AGI (Artificial General Intelligence), либо full AI — мы не договорились еще, короче.

Фишка лишь в том, что наши с собакой мозги ограничены физически, а вычислительные возможности машин растут экспоненциально. Благо, песка на планете завались (кремния, ну).

Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.

Потому мы пока не считаем её интеллектом третьего уровня, но сделать такой вывод можем только пост-фактум. У нас нет никакого бенчмарка, чтобы оценить такие вещи заранее.

Определение интеллекта через агенты и цели может показаться душным, но оно позволяет нам сделать три вещи:

1. Закрыть, наконец-то, бесконечные срачи «является ли Х интеллектом, или это просто программа» и перейти к более важным вещам. А то мы зациклились как в той шутке из твиттера:

Источник: Твиттер

2. Сравнивать искусственные интеллекты между собой. Когда два агента, играющих в шахматы, встречаются на шахматной доске — тот, который побеждает, считается более «умным».

3. Представить себе техническую возможность существования AGI. Человеческий мозг хоть и не изучен до конца, но всё-таки конечен. Это не магия или божественный дар для нас таких офигенных, а некая система, такой же «агент». Так что создание (даже случайное) его машинной версии — лишь вопрос времени, денег и желания. А всего этого у нас сейчас завались.

Наш интеллект тоже возник в ходе эволюции — а значит и текущие методы машинного обучения с подкреплением, при наличии достаточных вычислительных ресурсов, вполне могут его повторить, только намного быстрее.

С этими вводными мы наконец-то можем перейти к проблеме, о которой, собственно, и весь пост.

Проблема постановки целей для ИИ

Представим, что мы проектируем самоездящий автомобиль, которым управляет настоящий ИИ. Мы поставили ему цель — довозить пассажиров до места назначения как можно быстрее.

Это хорошая цель?

Да ладно, чо тут думать, давай запускай, мы тут на хайп-трейн GPT-7s Max торопимся — сначала потестим, потом проверим, программисты на проде пофиксят.

В первую же свою поездку наша машина разгоняется до 300 км/ч по городским кварталам, сбивает десяток пешеходов и объезжает красные светофоры по тротуару.

Технически, цель достигнута. Пассажиры доставлены, и довольно быстро. Но согласуется ли это с другими нашими ценностями и целями? Например, такой мелочью, как «не убивать пешеходов».

Похоже, что нет.

Вот это и называется alignment. Хотя в русском языке еще нет устоявшегося термина, я буду говорить что-то типа «проблема соответствия целей AI с целями человека».

AI alignment — это процесс проектирования систем искусственного интеллекта, которые согласуются с человеческими «ценностями и целями»

Окей, ну мы же не настолько глупы. Давайте пропишем нашему автомобилю четкие ограничения, как в видеоигре: держаться в рамках полос дорожной разметки (где они есть), не превышать ограничения скорости и всегда тормозить перед пешеходами.

Этого хватит? Или нужны еще какие-то правила (они же цели)?

Тут можно сделать паузу и подумать. Составьте прям список в голове.

Хорошо, давайте добавим еще что-нибудь про «помеху справа». Теперь сойдёт, запускай!

Как человек, который начитался десятков примеров, пока готовился к этой статье, я могу примерно предсказать, что будет дальше.

Наш ИИ в машине рассчитает самый оптимальный путь с учетом всех указанных целей и сделает прекрасное открытие: если включить заднюю передачу, то там не будет «ограничивающих свободу» радаров для обнаружения людей и разметки. Мы же их не поставили, зачем они там? А это значит, что задом можно ехать как угодно! Плюс, помеха справа теперь становится помехой слева, а если на каком-то глупом перекрестке она сработает, можно резко развернуться и вуаля, теперь это помеха слева!

ОБЫГРАЛ КАК ДЕШЕВКУ!

Пример вымышленный, но он показывает, насколько непросто вообще заниматься AI alignment'ом. Даже в тех экспериментах, где мы ставили для ИИ самые, на наш взляд, понятные цели и вводили жесткие ограничения, он всегда находил, чем нас удивить.

ИИ всегда будет делать то, что вы его попросили, а не то, что вы имели в виду :)

Неумение ставить цели — это не проблема ИИ. Это наша проблема.

Взять даже игру в Тетрис. Там простейшие правила и буквально четыре кнопки для управления миром. Выиграть в Тетрис невозможно, потому цель для ИИ была поставлена так — не проиграть. То есть продолжать игру как можно дольше.

Ошибиться тут невозможно, так?

Так вот что делал ИИ: он просто складывал кубики друг на друга, а когда понимал, что проигрывает… ставил игру на паузу. И сидел так бесконечно. Ведь цель — не проиграть. А если ты на паузе — ты никогда не проиграешь. СМЕКАЛОЧКА?

Ну и последний пример от самих OpenAI, который уже стал классикой: гонка на лодочках Coast Runners.

Цель игры в понимании большинства людей заключалась в том, чтобы закончить гонку как можно быстрее (желательно впереди всех соперников) и набрать как можно больше очков. Однако, игра не выдавала очки за прохождение по треку, вместо этого игрок зарабатывал их, поражая цели, расставленные вдоль трассы.

Так вот их ИИ быстро смекнул, что от цели «выиграть гонку» можно отказаться вообще, и с самого старта начинал крутиться и врезаться в предметы, зарабатывая всё больше и больше очков, пока остальные глупцы доезжали до финиша нищими.

Источник: видео Роберта Майлза «Intro to AI Safety, Remastered»

Сами исследователи OpenAI написали: «Устанавливать цели для ИИ-агентов часто очень сложно или вообще невозможно. Они начинают хакать правила в удивительных и контринтуитивных местах»

В большинстве случаев, когда мы проектируем ИИ, они по-умолчанию получаются не-согласованными (non-aligned). Это не какой-то там баг, который можно пофиксить, это чаще всего поведение по-умолчанию.

Всё это следствие того, как мы обучаем нейросети вообще.

* * *

К сожалению, на Пикабу установлено жесткое ограничение на размер длиннопостов – и мы его уже исчерпали. При этом нераскрытыми остались важные вопросы: Можем ли мы понять, как «мыслит» нейросеть? К каким целям будет стремиться искусственный интеллект, и сможем ли мы его остановить, если они нам не понравятся?

Ответы на эти вопросы можно прочитать в окончании статьи по этой ссылке.

Показать полностью 20 1

[моё] ChatGPT Искусственный интеллект Будущее Нейронные сети Илон Маск Элиезер Юдковский Научная фантастика Киберпанк Рациональность Видео YouTube Длиннопост

artemerschow

6 лет назад

Начался сбор средств для некоммерческой печати книги «Гарри Поттер и методы рационального мышления»⁠⁠

«Мир сразу стал бы лучше, если бы все прочитали эту книгу. Она блестяще написана, в ней прекрасный сюжет и при этом она популяризует абсолютно здравые, правильные идеи. Не заезженные клише, не черно-белую мораль, и не глупость под видом философской мудрости, как это часто бывает»

— Александр Панчин, популяризатор науки, член комиссии РАН по борьбе с лженаукой, лауреат премии «Просветитель»

Начался сбор средств для некоммерческой печати книги «Гарри Поттер и методы рационального мышления» Гарри Поттер и методы рационального мышления, ГПиМРМ, Элиезер Юдковский, Рациональность, Гарри Поттер, Книги, Наука

Несмотря на то, что заявленную сумму проект собрал менее, чем за два дня, сбор средств будет продолжаться вплоть до 16 сентября, так что все желающие должны успеть заказать книгу себе или в подарок.

Электронная версия книги находится в свободном доступе на гпмрм.рф (там же можно найти ссылку на сбор средст, ибо пикабу запрещает публикацию ссылок с планеты)

Гарри Поттер и методы рационального мышления ГПиМРМ Элиезер Юдковский Рациональность Гарри Поттер Книги Наука

Партнёрский материал

specials

Шарите в мировой мифологии?⁠⁠

Проверьте себя, пройдя испытание мудрости. Самые достойные получат приз — награду в профиль на Пикабу.

MMORPG Игры Приз

Micromanta

9 лет назад

Верить ли коту с лампой?⁠⁠

Я был откровенно удивлен, не найдя на Пикабу ни единого упоминания о рациональном мышлении в видении Элиезера Юдковского. Ниже привожу его коротенький взгляд на львиную долю Пикабушных постов(хотя он вряд ли знает о таком сайте).

"(Этот случай произошёл ещё в те давние седые времена, когда я посещал IRC-чаты. Время затуманило память и мой рассказ может быть неточным)

Итак, дело происходило в IRC-чате. Один из посетителей спрашивает совета у сведущих в медицине людей. Его друг обратился к нему со следующей историей: у него начались внезапные боли в грудной клетке, поэтому бедняга вызвал скорую, и скорая приехала, но медработники сказали «ничего страшного» и уехали, боль в груди же становится всё сильнее и сильнее. «Что мне делать?» — спрашивает он у людей в чате, пересказав эту историю.

Эта история сбила меня с толку. Я помню, как я читал о бездомных Нью-Йорка, вызывающих скорую только для того, чтобы оказаться где-нибудь в тёплом месте, и о медиках, вынужденных отвозить их в пункт неотложной медицинской помощи. Даже на 27-й итерации, ведь, в противном случае, медкомпания может быть засужена на очень серьёзную сумму денег. Аналогично, пункты неотложной помощи юридически обязаны лечить всех, вне зависимости от их платежеспособности (Эти серьёзные расходы ложатся на плечи госпиталя, поэтому госпитали закрывают свои пункты неотложной помощи… В связи с этим мне очень интересно узнать, в чём смысл обучать экономистов, если мы всё равно собираемся их игнорировать?).

Так что я не совсем понимал, как могли произойти описанные события. Любого жалующегося на боль в груди человека, должны были бы немедленно увезти на скорой.

А затем я потерпел неудачу как рационалист. Я вспомнил несколько случаев, когда мой доктор совершенно отказывался паниковать в ответ на сообщения о симптомах, которые, на мой взгляд, были крайне тревожными. И медицинское учреждение всегда оказывалось правым. Каждый раз. Боли в грудной клетке как-то были и у самого меня, но доктор терпеливо разъяснил мне, что я описываю мышечную боль, а не инфаркт.

Поэтому я написал в чате: «Что же, если врачи сказали «ничего страшного», то это действительно так и есть — они бы увезли больного в госпиталь, если бы его состояние грозило бы хоть чем-нибудь серьёзным».

Таким вот способом я всё же впихнул историю в уже существующую модель, хотя в глубине души ощущал, что объяснение немного натянуто…

Некоторое время спустя этот товарищ возвращается в чат и сообщает, что его друг целиком всё выдумал: от болей в груди до отказа врачей помочь. Очевидно, это был не самый честный его друг.

И лишь в эту секунду я осознал то, что должен был понять сразу же: слова неизвестного знакомого знакомого по IRC-каналу могут быть не так достоверны(English), как опубликованная в журнале статья. Увы, вера легче неверия; мы верим инстинктивно, но неверие требует сознательного усилия(English).

Но вместо того, чтобы заподозрить розыгрыш, я, сильно постаравшись, заставил свою модель реальности объяснить аномалию, которая никогда не происходила. И я знал, насколько постыдны подобные поступки. Я знал, что полезность модели измеряется не тем, что она может объяснить, а тем, что она объяснить не может. Ничего не запрещающая гипотеза позволяет всё, тем самым терпя неудачу в попытке упорядочить ожидания будущего.

Cила рационалиста состоит в способности быть озадаченным вымыслом больше, чем реальностью. Если ты одинаково хорошо объясняешь любой исход, то знаний у тебя — ноль.

Временами все мы слабы. Тогда я был способен быть сильнее, но, увы, совершил ошибку. У меня была вся информация, необходимая для правильного ответа, я даже заметил проблему — а затем я её проигнорировал. Замешательство было Подсказкой, а я выбросил свою Подсказку.

Ощущение натянутости заслуживает львиной доли внимания.

Замешательство — важная подсказка на пути к истине, часть твоей силы, силы рационалиста. Серьёзный дизайнерский недочёт человеческого мышления заключается в том, что это ощущение лишь тихо шуршит на самой границе восприятия, вместо того, чтобы под вой сирен вешать яркую неоновую надпись «ЛИБО ТВОЯ МОДЕЛЬ НЕВЕРНА, ЛИБО ЭТА ИСТОРИЯ ЛОЖНА»."

Речь, как вы поняли, идёт не о России, но это, как по мне, не особо важно.
Взял с сайта http://lesswrong.ru/

Показать полностью

Элиезер Юдковский Рациональность Логика Текст Длиннопост

Volopas

9 лет назад

Правда vs Озимандиас⁠⁠

То, что может быть разрушено правдой, должно быть разрушено.

Есть такое вот броское и красивое высказывание Пэт Ходжилл, пару раз мелькавшее у Юдковского.

Сразу в момент его прочтения мой разум родил следующий контр-аргумент: "Мир, установленный махинациями Озимандиаса (из Хранителей) может быть разрушен правдой, но это было бы неправильно".

Проведём простой мысленный эксперимент чтобы убедиться в этом: поставим себя на место жителей такого построенного на лжи мира.

Итак, какое-то событие из нашей истории, весьма важное, ложно. Но через эту неправдивость были спасены многие и многие жизни.

Представили? А теперь ответьте на вопрос:
Стоит ли само ваше существование, жизни всех знакомых вам людей, выживание и дальнейшее развитие человечества раскрытия какой-то лжи в далёком прошлом?

Мой ответ гипотетическому Озимандиасу: "Спасибо за такую ложь".
И, мне кажется, почти любой человек, в каком бы изменённом (извращённом, если хотите) посредством давней лжи и манипуляций мире он не жил, всё равно защищал бы возможность своего существования.

P.S. И да простят меня свидетели Церкви Явления Гигантского Телепатического Спрута, ведь я только фильм смотрел.

[моё] Хранители Рациональность Элиезер Юдковский Текст

snobb

9 лет назад

Пытаясь пытаться⁠⁠

«Нет! Не надо пытаться! Делай. Или не делай. Не надо пытаться.»

Йода

Когда-то давно, я думал, что есть другой пример глубокой (великой) мудрости, а этот глуповат. Успех — не простое действие. Вы не можете просто решить выиграть путем достаточно трудного выбора. Не существует плана, который бы всегда работал.

Но Йода оказался мудрее, чем я сначала себе представил.

Первая элементарная техника эпистемологии — не глубокая, зато дешевая — отделять цитату от того, что она обозначает. Разговор о снеге не то же самое, что разговор о «снеге». Когда я использую слово «снег» без кавычек, я имею в виду снег; а когда я использую слово «„снег“» в кавычках, я веду разговор именно о самом слове. Вам нужно сменить тип мышления, перейти в режим цитирования, чтобы вести разговор о своих убеждениях. Обычно, мы говорим о реальности.

Если кто-то говорит «я хочу нажать на выключатель», тогда по умолчанию, он имеет в виду то, что он собирается попробовать нажать на выключатель. Он собирается выстроить план, который обещает путем последовательностей действий привести его к нужному состоянию выключателя; и осуществить данный план.

Не существует плана, который работал бы с бесконечной определенностью. Так что по умолчанию, когда вы говорите о намерении достигнуть цели, вы не подразумеваете, что ваш план точно и совершенно приведет вас только к этой возможности. Но когда вы говорите «я собираюсь нажать на выключатель», вы пытаетесь нажать на выключатель — не пытаетесь достигнуть 97% вероятности нажатия на выключатель.

Так что же подразумевается, когда кто-либо говорит «Я собираюсь нажать на выключатель?»

Ну, в разговорной речи «я собираюсь нажать на выключатель» и «я собираюсь попробовать нажать на выключатель» означают более или менее одно и то же, за исключением того, что последнее выражение подразумевает возможность неудачи. Вот почему я изначально обиделся за Йоду за кажущееся отрицание возможности. Ну уж извините.

Наибольший жизненный вызов состоит в том, чтобы удерживать себя на достаточно высоком уровне. Я могу рассказать об этом принципе позже, поскольку это линза, через которую вы можете видеть многие-но-не-все личные дилеммы — «На каком уровне я держу себя? Достаточно ли он высок?»

Поскольку большинство жизненных неудач заключаются в том, что вы держите себя на слишком низком уровне, вам нужно опасаться требовать от себя слишком мало — ставить цели, что легко достижимы.

Часто там, где успешно сделать вещь очень трудно, попробовать это сделать куда легче.

Что легче — построить успешный стартап или попробовать построить успешный стартап? Заработать миллион долларов или попробовать заработать миллион долларов?

Так что если «я собираюсь нажать на выключатель» означает по умолчанию что вы попытаетесь нажать на выключатель — то есть, вы собираетесь следовать плану, который обещает привести к желаемому результату если не со стопроцентной вероятностью, то по крайней мере с наибольшей вероятностью, которую вы можете обеспечить -

тогда «я намерен «попытаться нажать» на выключатель» означает что вы хотите попробовать «попробовать нажать на выключатель», то есть вы собираетесь попробовать достичь цели-состояния «имею план который может помочь нажать на выключатель».
Теперь, если бы был самомодифицирующийся ИИ, о котором мы уже говорили, преобразование, которое мы только что выполниили, должно было закончится отраженным равновесием — ИИ планировал бы операции по планированию.

Но когда мы имеем дело с людьми, они могут удовлетвориться планом, который не особо вероятно гарантирует успех. Момент, что план должен максимизировать вашу вероятность успеха, теряется из виду. Куда легче убедить себя что мы «максимизировали нашу вероятность выиграть» нежели убедить себя что мы выиграем.

Почти любое усилие должно служить для убеждения нас, что мы «сделали все что могли», если попытки сделать все, что мы можем, это все, что мы пытаемся сделать.

«Вы спросили себя, что вы можете сделать в великих событиях, которые начинаются сейчас, и ответили себе, что ничего. Но из-за того, что вы страдаете, вы неправильно поставили вопрос…вместо того, чтобы спрашивать, что вы можете сделать, вы должны были спросить, что нужно сделать.»

- Стивен Браст, Дороги Мертвых

Когда вы спрашиваете «что я могу сделать?» вы пытаетесь сделать все, что можете. Много ли вы можете? Это все, что не вызывает у вас ни малейшего затруднения. Это все, что вы можете сделать с деньгами у вас в кошельке минус деньги на ланч. Что вы можете сделать с этими ресурсами, может не дать вам очень хорошие шансы на выигрыш. Но это «все что вы можете сделать» и таким образом вы действуете обоснованно, так?

Но что нужно сделать? Может быть то, что нужно сделать, требует в три раза больше, нежели все ваши сбережения за всю жизнь, и вы должны сделать это или потерпите неудачу.

Так что старание иметь «максимизированную вероятность успеха» — в противовес стараниям достичь успеха — является существенно более низким барьером. Вы можете иметь «максимизированную вероятность успеха» используя только деньги у вас в кармане, хотя на самом деле претендовать на победу не сможете.

Хотите попробовать сделать миллион долларов? Купите лотерейный билет. Ваши шансы на выигрыш не очень хороши, но вы попытались, чего и хотели. На деле, вы сделали все, что в ваших силах — ведь у вас был всего лишь доллар после обеда. Максимизация шансов на достижение цели, используя доступные ресурсы: разве это не интеллект?

И только когда вы хотите, превыше всего остального, на самом деле нажать на выключатель — без цитирования и без утешительных призов за попытки — тогда вы на самом деле приложите усилия, чтобы действительно максимизировать вероятность.

Но если все, что вы хотите, это «максимизировать вероятность успеха при доступных ресурсах», тогда наиболее легкий путь сделать это — просто убедить себя в том, что это уже сделано. Самый первый план который вы придумаете уже будет служить как «максимизирующий» — если нужно, то вы можете придумать несколько худших планов, чтобы доказать оптимальность первого. И все крошечные ресурсы, которые вы вложите в этот план, будут гордо называться «доступными ресурсами». Не забудьте заодно поздравить себя с тем, что вы выложились на все 100%!

Не старайтесь изо всех сил . Либо побеждайте, либо проигрывайте. Но не старайтесь.

Автор Элиезер Юдковский

Показать полностью

Рациональность Попытка Less Wrong Элиезер Юдковский Йода Текст Длиннопост

snobb

9 лет назад

Сказ о науке и политике⁠⁠

Во времена Византийской империи светская жизнь оказалась разделена на два лагеря: Синий и Зелёный. Синие и Зелёные убивали друг друга на дуэлях, в драках «стенка на стенку», в засадах и погромах. Прокопий Кесарийский говорил о них: «Вражда к противникам возникает у них без причины и остаётся навеки; не уважаются ни родство, ни свойство, ни узы дружбы. Даже родные братья, приставшие один к одному из этих цветов, другой к другому, бывают в раздоре между собою». Эдвард Гиббон писал: «Поддержка одной из группировок стала необходимой для любого кандидата, будь он светским или духовным лицом».

Кто же были эти Синие и Зелёные? Всего лишь спортивные болельщики — сторонники синей и зелёной команд в гонках на колесницах.

А теперь представьте общество будущего, которому пришлось сбежать в сеть подземных туннелей и пещер и закрыть все входы. Мы не будем уточнять, бежали ли они от болезни, войны или от радиации. Первым подземным жителям удалось наладить производство еды, возобновление воздуха, найти воду, организовать освещение и выжить. Их потомки благоденствовали и даже стали строить города. О верхнем мире остались лишь легенды, написанные на клочках бумаги, и один из таких клочков описывал небо, бескрайний простор воздуха над полом без стен. Небо было лазурного цвета, и в нем летали странные объекты, напоминающие пучки белого хлопка. Значение слова «лазурный» вызывало противоречия, некоторые говорили, что оно обозначает синий цвет, а другие — зелёный.

В ранние дни подземного сообщества соперничество Синих и Зелёных доходило до открытого насилия, но теперь царит перемирие — мир, рождённый отвращением к бессмысленной вражде. Культурные обычаи изменились, существует многочисленный и преуспевающий средний класс, воспитанный в духе правового государства и непривычный к насилию. В школах преподаётся история: как долго длилась вражда между Синими и Зелёными, как много людей погибло, как мало в итоге изменилось. Граждане подготовлены к странной новой философии, гласящей, что люди — это люди, не важно, за Синих они или за Зелёных.

Сам конфликт не исчез. Общество всё ещё разделено на Синие и Зелёные области, в любом актуальном культурном или политическом вопросе выделяется «Синяя» и «Зелёная» позиции. Синие ратуют за налоги на личные доходы, Зелёные поддерживают налоги на продажи торговцев. Синие придерживаются более строгих законов о браке, в то время как Зелёные хотели бы упростить бракоразводный процесс. Синие пользуются поддержкой центральных городских районов, а периферийные фермеры и продавцы воды обычно оказываются в лагере Зелёных. Синие верят, что Земля — это огромная шарообразная скала в центре вселенной, а Зелёные считают, что Земля — это огромная плоская скала, вращающаяся вокруг другого объекта, называемого Солнцем. Отнюдь не каждый Синий или Зелёный гражданин принимает «Синюю» или «Зелёную» позицию по любому вопросу, но довольно тяжело найти городского торговца, который считает, что небо было синим, и в то же время голосует за налоги на личные доходы и более свободные законы о браке.

Подземелье всё ещё поляризовано. Царит хрупкий мир. Есть некоторое число людей, искренне считающих, что Синие и Зелёные должны быть друзьями. Обычное дело, когда Зелёный покровительствует Синему магазину или Синий любит посещать Зелёную таверну. Из перемирия, изначально рождённого усталостью, медленно растёт дух терпимости и даже дружбы.

Однажды в Подземелье произошло небольшое землетрясение. Группа из шести туристов почувствовала содрогание земли, находясь на прогулке среди руин древнего поселения, где-то в верхних пещерах. Один из туристов упал и поранил колено, и группа решила повернуть назад, опасаясь новых землетрясений. На обратном пути один из них заметил странное дуновение воздуха, какой-то запах, исходящий из давно заброшенного туннеля. Не обращая внимания на предостережения спутников, этот человек одолжил лампу и направился к туннелю. Каменный коридор шёл выше… и выше… и наконец закончился дырой, выходящей из этого мира. Каменные стены закончились. Пространство, бесконечное пространство простиралось в никуда, здесь хватило бы места для тысячи городов. Невообразимо далеко наверху и слишком ярко, чтобы смотреть не щурясь, жгучий огонёк лучился светом, освещающим всё вокруг, как ничем не прикрытая нить накаливания какой-то гигантской лампы. В воздухе, ничем не поддерживаемые, висели непостижимые пучки белого хлопка. И цвет бескрайнего сияющего потолка был…

На этом месте история разветвляется, в зависимости от того, кто именно из туристов решил последовать по коридору к поверхности.

Адитья Синяя стояла под синей бесконечностью и медленно улыбалась. Улыбка не была радостной. В ней была ненависть и раненная гордость. Она припоминала каждый свой аргумент в спорах с Зелёными, каждое соперничество, каждую вырванную победу. «Ты всё время была права», — шепнуло ей небо, — «и теперь ты можешь это доказать». Какое-то мгновенье Адитья стояла, впитывая послание, упиваясь им, а затем она повернулась и ушла в коридор, неся его миру. Шаг, ещё шаг… её пальцы сжались в кулак. «Перемирие закончено», — сказала она.

Бэррон Зелёный бессмысленно глазел на хаос цветов долгие секунды. А потом запоздавшее понимание взорвалось в его животе, как удар молота. Слёзы потекли из его глаз. Бэррон думал о Катэйской Резне, когда армия Синих вырезала всё население городка Зелёных, включая детей. Он думал о древнем Синем генерале — Аннасе Релле, который объявил Зелёных «чумной ямой, язвой, нуждающейся в прижигании». Он думал об огоньках ненависти, которые он замечал в глазах Синих, и что-то внутри него треснуло. «Как ты можешь быть на их стороне?!» – закричал он небу и начал рыдать. Стоя под злобным синим свечением, он знал, что вселенная всегда была обителью зла.

Чарльз Синий ошеломлённо созерцал синий потолок. Как профессор смешанного колледжа он всегда аккуратно подчёркивал, что Синяя и Зелёная точки зрения в равной степени верны и заслуживают терпимого отношения, небо — это метафизическая сущность, а «лазурный» — цвет, который может восприниматься по-разному. На мгновенье Чарльз задумался, не увидит ли какой-нибудь Зелёный, встав на его место, зелёный потолок, или не будет ли потолок зелёным завтра, но он не стал бы делать выживание цивилизации ставкой в этом споре. Это был всего лишь природный феномен, не имеющий никакого отношения к морали или к обществу… Но феномен, который наверняка поймут неправильно, как опасался Чарльз. Он вздохнул и повернулся к коридору. Завтра он придёт сюда один и закроет проход.

Дарья, когда-то Зелёная, пыталась дышать посреди обломков своего мира. «Я не зажмурюсь» — сказала она себе. — «Я не отвернусь». Всю свою жизнь она была Зелёной, а теперь она должна стать Синей. Её друзья, её семья… все они отвернутся от неё. Говори правду, даже если твой голос дрожит, когда-то говорил ей отец. Но сейчас отец был мёртв, а мать никогда не сможет понять. Дарья смотрела в спокойный синий глаз неба, пытаясь принять его, и наконец её дыхание успокоилось. «Я ошибалась», — скорбно сказала она себе. В конце концов, не так уж это и сложно. Она найдёт новых друзей, и, возможно, семья сможет простить её… А может, они даже отважатся сами встать под этим небом и пройти этот экзамен, подумала она с надеждой. «Небо синее», — произнесла Дарья в качестве эксперимента, и ничего ужасного с ней не произошло, правда, у неё не получилось заставить себя улыбнуться. Дарья Синяя печально выдохнула и пошла обратно в свой мир, думая о том, что она скажет.

Эддин Зелёный посмотрел в синее небо и цинично рассмеялся. Наконец-то он понял учебник мировой истории, правда, ему всё равно не верилось, что они были такими дураками. «Глупцы», — произнёс Эддин, — «глупцы, глупцы, всё это время оно было здесь». Ненависть, убийства, войны, и всё это время оно было просто явлением, о котором кто-то когда-то написал на бумаге, как обычно пишут о любом другом явлении. Никакой поэзии, никакой красоты, ничего такого, о чём любой здравомыслящий человек станет беспокоиться. Просто одно бессмысленное слово, влияние которого распространилось за любые разумные границы. Эддин устало прислонился к стене пещеры, пытаясь придумать, как не дать миру взорваться от этого открытия, и задаваясь вопросом, а не заслуживают ли все они именно этого.

Феррис невольно открыл рот, он замер на месте в абсолютном изумлении и восхищении. Его глаза жадно метались туда-сюда, с неохотой покидая одно зрелище, чтобы впиться взглядом в другое. Синее небо, белые облака, бескрайняя неизвестность снаружи, полная мест и предметов, а, возможно, и людей, которых никогда не видели в Подземелье. «О, так вот какой это цвет», — сказал Феррис и отправился исследовать.

Дополнение от ex-Parrot

Лоретта Зелёная посмотрела на небо и сказала: «Оно синее. Следовательно, это не небо. Несмотря на безграничность, несмотря на открытость и несмотря на эти штуки, похожие на клочки белого хлопка. Вообще, после того, как я задумалась, они не кажутся так уж сильно похожими на хлопок» .

Джон Экуменист сказал: «Как я всегда и говорил. Оно лазурное!»

Автор Элиезер Юдковский

Показать полностью

Less Wrong Рациональность Элиезер Юдковский Текст Длиннопост

zk2095

9 лет назад

Алтернативный Гарри Поттер⁠⁠

фанфик по роману

Показать полностью 1

Гарри Поттер Элиезер Юдковский Рациональность Длиннопост Гарри Поттер и методы рационального мышления

Посты не найдены

1 2