Теория игр: Дилемма заключенного
Итак, теория игр — это теория математических моделей принятия решений в условиях неопределенности, когда принимающий решение субъект («игрок») располагает информацией лишь о множестве возможных ситуаций, в одной из которых он в действительности находится, о множестве решений («стратегий»), которые он может принять, и о количественной мере того «выигрыша», который он мог бы получить, выбрав в дан‑ной ситуации данную стратегию
В теории игр используется мощный математический аппарат. Это значит, что можно написать или придумать симуляцию для каждой игры и посмотреть на возможные результаты при разных стратегиях игры. Часть стратегий получает строгое математическое доказательство, другая — процентную вероятность успеха при выборе той или иной стратегии.
Оптимальной стратегией игрока называется такая стратегия, которая при многократном повторении игры обеспечивает данному игроку максимально возможный средний выигрыш (или, что равносильно, минимально возможный средний проигрыш). При выборе игроком этой стратегии за основу берется предположение, что его противник является вполне разумным и делает все, что‑ бы помешать ему добиться своей цели.
Дилемма заключенного
В политическом реализме сценарий дилеммы часто используется для иллюстрации проблемы двух государств, вовлечённых в гонку вооружений. Предполагается, что у каждой страны есть выбор между высоким или низким уровнем вооружений.
3 сентября 1949 года американский самолет для наблюдения за погодой взял пробы воздуха над Японией. В этих пробах были обнаружены следы радиоактивных материалов. Военно-морской флот быстро собрал и протестировал пробы дождевой воды со своих кораблей и баз по всему миру. Они также обнаружили небольшое количество церия-141 и иттрия-91. Но период полураспада этих изотопов составляет один-два месяца, поэтому они, должно быть, были получены недавно, и единственное место, откуда они могли появиться, - это ядерный взрыв. Но в тот год США не проводили никаких испытаний, поэтому единственным возможным выводом было то, что Советский Союз придумал, как создать ядерную бомбу. Это была новость, которой боялись американцы. Их военное превосходство, достигнутое благодаря Манхэттенскому проекту, быстро сходило на нет.
С ядерным оружием нужно было что-то делать, и быстро. Но что? В 1950 году базирующийся в США аналитический центр RAND Corporation изучал этот вопрос. И в рамках этого исследования они обратились к теории игр. В том же году два математика из RAND изобрели новую игру, которая, о чем они тогда не подозревали, очень напоминала американо-советский конфликт. Эта игра теперь известна как "дилемма заключенного".
Итак, давайте поиграем в игру. Банкир с сундуком, полным золотых монет, приглашает вас и другого игрока сыграть друг против друга. У каждого из вас есть два варианта. Вы можете сотрудничать или дезертировать. Если вы оба будете сотрудничать, каждый из вас получит по три монеты. Если один из вас сотрудничает, а другой отказывается, то тот, кто дезертировал, получает пять монет, а другой не получает ничего. И если вы оба откажетесь, то каждый из вас получит по монете. Цель игры проста: собрать как можно больше монет.
Что ж, вы можете сотрудничать и не получить ни одной монеты, а можете дезертировать и получить хотя бы одну монету. Так что, что бы ни делал ваш оппонент, лучшим вариантом для вас всегда будет дезертировать. Теперь, если ваш оппонент также рационален, он придет к такому же выводу и, следовательно, тоже отступит. В результате, когда вы оба действуете рационально, вы оба оказываетесь в неоптимальной ситуации, получая по одной монете каждый, тогда как могли бы получить три.
В случае с США и Советским Союзом это привело к тому, что обе страны создали огромные ядерные арсеналы, насчитывающие десятки тысяч единиц ядерного оружия в каждом, которых было более чем достаточно, чтобы многократно уничтожить друг друга. Но поскольку у обеих стран было ядерное оружие, ни одна из них не могла его использовать. И обе страны потратили на разработку этого оружия около 10 триллионов долларов. Обоим было бы лучше, если бы они объединились и согласились не развивать эту технологию дальше. Но поскольку они оба действовали в своих собственных интересах, в итоге они оказались в ситуации, когда всем стало хуже.
Наиболее предпочтительный исход для каждой страны - это когда они выбирают высокое вооружение, а их соперники низкое, получая явное военное преимущество. Наименее предпочтительный исход - обратный. Однако второй лучший исход для каждого из них - это когда оба выбирают низкий уровень; если преимущество не достигается, предполагается, что это дешевле и безопаснее, чтобы избежать гонки вооружений.
Повторяющаяся дилемма заключенного
Импалы, обитающие в лесах Африки и саваннах, подвержены заражению клещами, которые могут привести к инфекционным заболеваниям, параличу и даже смерти. Поэтому для импал важно удалять клещей, и они делают это, но не могут добраться до всех мест на своем теле, и поэтому нуждаются в помощи другой импалы.
Это требует затрат слюны, электролитов, времени и внимания - всех жизненно важных ресурсов под жарким африканским солнцем, где хищник может напасть в любой момент. Итак, все импалы стоят перед выбором: ухаживать им друг за другом или нет? Другими словами, они должны сотрудничать или дезертировать? Ну, если они взаимодействуют только один раз, то рациональным решением всегда будет дезертировать.Но особенность многих проблем в том, что они не являются дилеммой одного заключенного. Импалы видят друг друга изо дня в день, и одна и та же ситуация повторяется снова и снова. Это меняет суть проблемы, потому что вместо того, чтобы играть в "дилемму заключенного" всего один раз, теперь вы играете в нее много-много раз. И если я дезертирую сейчас, то мой оппонент узнает, что я дезертировал, и сможет использовать это против меня в будущем. Итак, какова наилучшая стратегия в этой повторяющейся игре? Вот что хотел выяснить Роберт Аксельрод, политолог.
В 1970-х годах Роберт Аксельрод вывел игру на следующий логический этап и инициировал повторяющуюся дилемму заключенного.Предметом своего анализа автор выбрал классическую игровую модель, известную как “дилемма заключенного”, которая требует от игроков постоянно выбирать между сотрудничеством и предательством.
Имея возможность проанализировать выбор, сделанный в предыдущем раунде, каждый игрок может подумать о намерениях или манере игры соперника: ‘хороший’ (сотрудничающий) или ‘подлый’ (перебежчик).
Аксельрод получил четырнадцать дискет с программами своих ученых коллег, заинтересовавшихся соревнованием. У каждой программы были различные законы поведения (у самых простых код поведения умещался в две строчки, у самых сложных – в сотню строк). Они различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.
Турнир Аксельрода был организован таким образом, что взаимное сотрудничество приносило 3 очка, взаимное отступничество - 1 очко, эксплуатация кооператора приносила 5 очков.
С учетом этого предательство для играющего по горизонтали выгодно всегда и вне зависимости от того, какой выбор сделает его противник. Следовательно, оптимальная стратегия игры – предательство, а не сотрудничество. Такая же логика имеет силу и для второго игрока, который тоже должен неизменно выбирать предательство. Таким образом, желая всегда оставаться в выгоде, обе стороны всякий раз должны предавать друг друга. Однако при таком сценарии игроки набирают лишь по одному очку. Это гораздо меньше, чем можно получить, выбрав сотрудничество, за которое начисляется три очка. Получается самый настоящий парадокс: рациональное поведение игроков ведет к получению ими наименьшей выгоды. В этом и состоит суть “дилеммы заключенного”.
Логика этой игры радикально меняется, если количество раундов становится неограниченным. В ситуации, когда игроки не знают, какой ход будет последним, сотрудничество оказывается более выигрышной стратегией, чем предательство
В ситуации неопределенности сотрудничество становится возможным, так как оба игрока понимают, что в дальнейшем им придется еще неоднократно вступать во взаимодействие. Иными словами, будущее здесь влияет на настоящее. Впрочем, как и в реальной жизни, выгоды, получаемые игроком сейчас, кажутся более привлекательными, чем те, которые будут получены в будущем.
“На самом деле источником желания сотрудничать является не доверие людей друг к другу, а длительность взаимодействия”.
«Жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более альтруистические стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.
Каждая программа была 200 раз противопоставлена каждому из конкурентов.
Всех победила программа Анатолия Рапапорта, оборудованная правилом поведения СВП (сотрудничество, взаимоуважение, прощение), также называемая «Око за око».
Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: начать с сотрудничества, а затем имитировать предыдущий ход противника, быть милым, прощающим, мстительным и ясным.
Более того. Программа СВП, помещенная наугад среди других программ, вначале проигрывала агрессивным программам, но в итоге побеждала и даже становилась «заразной», если ей давали достаточно времени. Соседние программы, видя, что она наиболее эффективна, в конце концов начинали применять тот же подход. Так что в долговременной перспективе правило СВП является наиболее рентабельным.
Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:
Добрая. Важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми.
Мстительная. Успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример прощающей стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая. Другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завидуйте: сосредоточьтесь на максимизации собственного "балла", а не на том, чтобы ваш балл был выше, чем у вашего "партнера".
Уроки, описанные выше, применимы в средах, поддерживающих сотрудничество, но поддерживается ли сотрудничество вообще, в решающей степени зависит от вероятности (называемой ω [омега]) того, что игроки встретятся снова. Когда ω невелико – то есть у игроков есть ничтожно малый шанс встретиться снова – каждое взаимодействие фактически представляет собой игру с дилеммой заключенного с одним выстрелом. Но в повторяющемся PD ценность повторяющихся кооперативных взаимодействий может стать больше, чем выгода от единичного использования .
Но все-таки в повторяющейся дилемме заключенного нет единой наилучшей стратегии. Стратегия, которая работает наилучшим образом, всегда зависит от других стратегий, с которыми она взаимодействует.Например, если вы применяете принцип "Око за око" в среде, где есть только самые отъявленные хулиганы из "always defect", то принцип "Око за око" стоит на последнем месте.
Представьте себе мир, который является действительно неприятным местом для жизни, более или менее населенный игроками, которые постоянно дезертируют, за исключением небольшой группы игроков, сражающихся друг с другом, которые живут в своего рода ядре, и им приходится много играть друг с другом, потому что они географически изолированы. Они начнут набирать обороты, а также, поскольку это приводит к появлению потомства, они начнут захватывать население.
Таким образом, Аксельрод показал, что маленький островок сотрудничества может возникнуть и распространиться и в конечном итоге захватить весь мир. Как может возникнуть сотрудничество среди игроков, которые руководствуются личными интересами? Вам не обязательно быть альтруистами. Вы могли бы заботиться о себе и своих интересах. И все же сотрудничество все еще возможно, потому что приносит пользу обоим.Некоторые утверждают, что это может объяснить, как мы перешли от мира, полного абсолютно эгоистичных организмов, где каждый заботился только о себе, к миру, где возникло и процветало сотрудничество
Что произойдет, если в игре возникнет небольшая случайная ошибка?
Некоторые помехи в системе. Например, один из игроков пытается сотрудничать, но это воспринимается как дезертирство. Подобные мелкие ошибки случаются в реальном мире постоянно.
Как и в 1983 году, советская спутниковая система раннего предупреждения зафиксировала запуск межконтинентальной баллистической ракеты из США, но США ничего не запустили. Советская система приняла солнечный свет, отраженный от облаков на большой высоте, за баллистическую ракету. К счастью, Станислав Петров, советский дежурный офицер, отклонил сигнал тревоги. Но этот пример показывает потенциальную цену ошибки в сигнале
Если одно сотрудничество воспринимается как отступничество, то другой "Око за око" принимает ответные меры, и это запускает цепочку чередующихся ответных мер. И если очередное сотрудничество воспринимается как дезертирство, то остальная часть игры - это постоянное взаимное дезертирство. Таким образом, в долгосрочной перспективе оба участника получат лишь треть от того количества баллов, которое они получили бы в идеальных условиях. Взаимность может привести от очень хороших результатов к плохим.