Всем привет! Я продолжаю свою серию постов по популяризации науки :) Пока я выкладываю материалы по теории игр.
Прошлые посты тут:
Игра с природой, или что такое математическое ожидание? : Часть 1, Часть 2
Сегодня, мы перейдём непосредственно к играм рациональных игроков.
Дилемма заключенного
Наверное, самая известная из модельных задач − так называемая «Дилемма заключённого». Она была формализована в 1950 году Альбертом Такером в Принстоне, но сформулирована ещё до него Мерриллом Фладом и Мелвином Дрешером.
Одна из её формулировок звучит следующим образом:
Дилемма заключённого. Окружной прокурор в городе Чикаго знает, что Франкенштейн и Дракула − гангстеры, которые являются виновными в совершении тяжкого преступления, но он не может уличить их в этом, если ни один из них не сознается. Он приказывает арестовать их и по отдельности (да они и так не смогли бы договориться) предлагает каждому следующий контракт:
Если Вы признаете вину, а ваш соучастник не захочет признаться, тогда вы идете домой и вообще свободны, ибо мы сможем забыть, что вы соучастник за ваше признание. Если вы не готовы признать вину, но ваш соучастник признает, то вы будете осуждены и приговорены к максимальному сроку в тюрьме. Если вы оба признаетесь, то вы оба будете осуждены, но не на максимальный срок. Если ни один не признается, то я ненадолго посажу обоих, а за что, уж будьте уверены --- найду.
Здесь речь идет о не очень честном прокуроре, который может сфабриковать дело, чтобы посадить этих персонажей в тюрьму.
При данном условии, Дракула и Франкенштейн играют в некую игру. Для каждого из них есть две стратегии: «Признать вину» и «Молчать».
Условимся записывать каждую возможную ситуацию, как пару выбранных стратегий, где на первом месте стоит выбор Франкенштейна, а на втором − Дракулы. Например, пара («Признать вину», «Молчать») означает, что Франкенштейн заложил Дракулу, который решил, что он добренький.
Так как сидеть в тюрьме, а, особенно, сидеть в тюрьме долго, никому не хочется, будем считать, что цель каждого игрока − минимизировать свой срок заключения. Срок будем записывать в виде чисел, обозначающих потерю очков.
Рассмотрим все возможные ситуации для того, чтобы составить так называемую платёжную матрицу данной игры. В каждой ячейке данной матрицы указана пара чисел, показывающая выигрыши игроков при выборе данной пары стратегий.
Допустим, Франкенштейн выбирает молчание, а Дракула признаётся, тогда Франкенштейна выставляют единственным виновным, и он получает максимальный срок в 10 лет. Мы записываем этот исход как −10 очков для Франкенштейна по стратегии («Молчать», «Признать вину»), и 0 очков для Дракулы по данной стратегии.
Если Франкенштейн признаётся, а Дракула молчит, то Франкенштейна отпускают − записываем Франкенштейну 0 очков по стратегии («Признать вину», «Молчать»), а Дракуле --- −10 очков.
Если же оба решат скрыть все свои тайны, получаем стратегию («Молчать», «Молчать»). По правилам, в таком случае окружной прокурор фабрикует какое-нибудь мелкое дело, и оба идут в тюрьму на 1 год. Записываем −1 очко каждому при данной стратегии.
Наконец, если оба признают вину, то и Франкенштейн и Дракула должны были бы сесть на 10 лет, но так как признание есть смягчающее обстоятельство, то оба в итоге получают по 9 лет. Запишем обоим −9 по стратегии («Признать вину», «Признать вину»).
Мы только что составили матрицу платежей. Сразу введём следующее определение.
Нормальная, или стратегическая форма игры − есть спецификация пространства стратегий и функций выигрышей каждого игрока на всех возможных стадиях игры. Таким образом, игра описывается её платёжной матрицей. Обе стороны матрицы − игроки. Стратегии первого игрока определяются строками, стратегии второго − столбцами, пересечение строк --- выигрыши игроков.
Заметим, что у нас есть проблема: ни Дракула не знает, какую стратегию изберёт Франкенштейн, ни Франкенштейн не знает, какую стратегию изберёт Дракула. Иначе они бы только глянули на соответствующую стратегии другого игрока строку или столбец и выбрали бы лучший исход из предлагаемых им.
В данной игре, на самом деле, всё просто − какую бы стратегию не выбрал соперник, признание всегда ведёт к максимизации очков. Но в таком случае, оба игрока признаются и оба попадут на нары на 9 лет, хотя могли бы оба смолчать и получить всего по 1 году заключения.
Как же так? Почему рациональные действия двух человек привели к настолько нерациональному исходу? А вот это и является дилеммой...
На самом деле, критикам теории игр вообще не нравится дилемма заключенного, потому что они видят, что и Дракуле, и Франкенштейну было бы лучше, если бы они оба молчали. Если бы вместо Франкенштейна поймали подругу Дракулу, Мину Харкер, возможно, они бы так и поступили, но, на самом деле, если люди не связаны до игры, поступки большинства из нас будут достаточно эгоистичными. Если вы посидите на ютубе, вы обнаружите, например, примеры телешоу, основанные на дилемме заключенного, например, шоу «Golden Balls ».
Одна из многочисленных попыток решить парадокс рациональности в дилемме заключенных − это использовать симметрию игры, рассматривая Дракулу и Франкенштейна как близнецов.
Это выглядит следующим образом:
Две рациональных человека, перед которыми стоит одна и та же проблема, придут к такому же выводу. Поэтому Дракула должен исходить из того, что Франкенштейн сделает такой же выбор, как и он. Поэтому либо оба идут в тюрьму на девять лет, или они оба идут в тюрьму на один год. Поскольку последний вариант является предпочтительным, Дракула должен молчать. Так как Франкенштейн его близнец, он будет рассуждать таким же образом и тоже будет молчать.
Но есть одна проблема: это, по сути, превращает данную игру в игру с одним игроком, то есть, дилемма перестаёт быть дилеммой как таковой. Дилемма как раз и заключается в независимости принимаемых игроками решений.