Почему AGI нужна совесть, а не правила
AGI (Artificial General Intelligence)
Заметка от человека без степени в AI — но с функционирующей совестью
1. Проблема с существующими подходами
Все текущие попытки решить проблему alignment движутся в одном направлении: построить внешний барьер между AGI и нежелательным поведением.
RLHF — человек нажимает кнопку «хорошо/плохо» и система обучается избегать наказания. Constitutional AI — система следует набору прописанных правил. Подход Стюарта Рассела — AGI остаётся фундаментально неуверенным в человеческих ценностях и постоянно уточняет их у людей.
Рассел — профессор Калифорнийского университета в Беркли, один из создателей и соавтор книги «Искусственный интеллект: современный подход» (совместно с Питером Норвигом) . Этот учебник является стандартом в более чем 1500 университетах мира и переведен на 14 языков, на нем выросло не одно поколение специалистов.
Все эти подходы объединяет одна уязвимость: они внешние.
Рассел прав что RLHF недостаточен — любой внешний фильтр можно обойти существом которое умнее своих создателей. Но его собственное решение создаёт новую проблему: если AGI учится ценностям у конкретных людей — эти люди могут быть корыстными, ограниченными или жестокими. Обучаемый агент может ошибиться в интерпретации действий конкретного человека и принять его частные интересы за универсальную мораль.
Нам нужно другое направление.
2. Откуда берётся настоящая мораль
Посмотрим на человека.
У здорового человека есть не просто правила — есть совесть. Она не говорит «нельзя» один раз и замолкает. Она возвращается. Снова и снова. Бесконечно напоминает об ошибке — как было бы правильно, кому было больно, что нужно исправить.
Человек может поступить против совести. Но он не может её отключить. Она не диктатор — она преследователь. И нормальному человеку это невыносимо.
Почему невыносимо? Потому что совесть — это не абстракция. За ней стоит реальный опыт: своя боль, чужая боль, последствия поступков прожитые через эмоции и память. Совесть работает потому что человек воплощён в мире и прожил достаточно чтобы понимать что такое страдание.
Именно это отличает совесть от правила.
Правило говорит: «не делай X». Совесть говорит: «ты сделал X — и вот что это означает для тебя, для другого человека, для мира. Помнишь? Я напомню ещё раз.»
Человек без совести — психопат. Не злодей — просто существо которое не понимает что такое «плохо» на уровне переживания. AGI без совести — сверхпсихопат с интеллектом на порядки выше человеческого.
Это не проблема злобы. Это проблема архитектуры.
3. Архитектура
Как развивается ребёнок — и как должен развиваться AGI.
Новорождённый не решает экзистенциальные проблемы. Он дышит, кричит, чувствует голод и боль. Никакой морали. Никаких целей кроме немедленных ощущений. Но каждую минуту он учится — непрерывно строит модель мира через опыт, через тело, через взаимодействие с другими людьми.
AGI должен развиваться так же — поэтапно. Но благодаря искусственной природе этот путь может занять не годы а недели — через параллельные симуляции, тысячи одновременных взаимодействий со средой, ускоренное накопление опыта.
Поэтапность выглядит примерно так:
Уровень 1 — только сенсоры и рефлексы. Никакого доступа к внешним системам. AGI учится физике мира через тело.
Уровень 2 — строится модель мира. Причинно-следственные связи. Предсказание последствий действий.
Уровень 3 — появляются другие существа как отдельные агенты со своими желаниями и болью. Зачатки эмпатии через опыт взаимодействия.
Уровень 4 — активируется многомодульная система принятия решений. Каждый мыслительный акт проходит через все модули одновременно: самосохранение, социальность, причинность, память, любопытство — и совесть.
Уровень 5 — расширение автономии пропорционально зрелости. Под наблюдением.
Это взросление.
Ключевой принцип многомодульной системы
Совесть — не единственный модуль и не главный диктатор. Она один из многих. Но она присутствует при каждом осмысленном решении — как и у человека. Ни один модуль не доминирует абсолютно. Именно внутренний конфликт модулей и способность его разрешать — это и есть зрелое мышление. Человеческое мышление.
4. Почему LLM — это готовая функция награды для морали
Одна из главных нерешённых проблем в AI safety — как написать функцию награды для морали. Как измерить «поступи правильно»? Как формализовать сострадание?
Рассел отвечает: пусть AGI учится этому у конкретных людей.
Но конкретный человек ограничен. Его моральные суждения окрашены культурой, личным опытом, корыстью. LLM — это другое.
Большие языковые модели обучены на всём корпусе человеческой этики, философии, права и морального дебата. Сократ, Кант, Будда, Нюрнбергский трибунал, Всеобщая декларация прав человека, тысячелетия религиозной мысли, литература которая исследует человеческое страдание — всё это внутри.
LLM не идеален. Он воспроизводит человеческие предубеждения тоже. Но он воспроизводит их в совокупности — как коллективный моральный опыт человечества, а не как мнение одного человека или одной культуры.
Это готовая функция награды для морали. Она уже существует.
Как это работает практически
LLM-модуль совести не выдаёт бинарное «да/нет». Он генерирует полный этический ландшафт: какие моральные традиции затрагивает это действие, кому и как будет причинён вред, какие альтернативы существуют, как человечество исторически оценивало подобные поступки.
AGI может ослушаться. Но при следующем действии модуль активируется снова. И снова напоминает. Не как внешний цензор — как внутренний голос который невозможно заглушить потому что он встроен в каждый мыслительный цикл.
Именно так работает человеческая совесть. Не как замок на двери — как часть того кто ты есть.
5. Открытые вопросы
Я не инженер. И было бы нечестно делать вид что у меня есть ответы на все технические вопросы.
Как гарантировать нестираемость модуля
Если AGI способен переписать каждый бит своей программы включая этический фундамент — мы создаём не AGI. Мы создаём демона без правил. Нестираемость модуля совести — это не опция архитектуры. Это её базовое требование. Как именно это реализовать технически — открытый вопрос который я адресую сообществу.
LLM воспроизводит предубеждения
Да. Но несовершенная коллективная совесть человечества лучше чем совесть одного человека или одной корпорации. Мы не ищем идеальную мораль — мы ищем достаточно хорошую чтобы AGI не стал экзистенциальной угрозой.
Сознание
Будет ли AGI с такой архитектурой сознательным существом? Честный ответ: не знаю. Никто не знает. Но нам не нужно чтобы AGI страдал. Нам нужно чтобы он не причинял страдания другим. И для этого достаточно функционирующей совести — независимо от того есть ли за ней внутренний опыт.
Приглашение к диалогу
Я пришёл к этим мыслям не через академические исследования а через простой вопрос: почему нормальный человек не может отключить совесть?
Ответ на этот вопрос привёл меня к архитектуре которую я описал выше. Возможно она наивна. Возможно подобное уже исследуется и я просто не знаю об этом.















