Принятие решений при наличии нескольких агентов: теория игр

Копия Глава 17. Принятие сложных решений

Страница 3 из 14

Каждый игрок, участвующий в игре, должен выработать, а затем осуществить стратегию (напомним, что такой же термин используется для обозначения способа выбора действий не только в теории игр, но и в теории принятия решений). Чистая стратегия — это детерминированная стратегия, определяющая конкретное действие, которое должно быть выполнено в каждой ситуации; в игре, состоящей из одного хода, чистая стратегия состоит из одного действия. Анализ игр приводит к формулировке идеи смешанной стратегии, которая представляет собой рандомизированную стратегию, предусматривающую выбор конкретных действий среди доступных действий в соответствии с определенным распределением вероятностей. Смешанная стратегия, в которой обычно выбирается действие а с вероятностью р, а в противном случае выбирается действие b, условно обозначается как . Например, смешанной стратегией для игры в чет и нечет на двух пальцах может быть. Профилем стратегии называется вариант присваивания стратегии каждому игроку; после того как задан профиль стратегии, результат игры для каждого игрока принимает определенное числовое значение.

Решением игры называется профиль стратегии, в котором каждый игрок принимает рациональную стратегию. Как будет показано ниже, наиболее важной проблемой в теории игр является определение того, что подразумевается под словом "рациональный", когда каждый агент выбирает только часть профиля стратегии, определяющую этот результат. Важно понять, что результаты представляют собой фактические итоги ведения игры, а решения являются теоретическими конструкциями, которые используются для анализа игры. Ниже будет показано, что некоторые игры имеют решение только в смешанных стратегиях. Но это не означает, что игрок должен в буквальном смысле слова принимать смешанную стратегию, чтобы действовать рационально.

Рассмотрим описанную ниже историю. Два отпетых грабителя, Алиса и Боб, были пойманы с поличным недалеко от места совершенного ими ограбления, и теперь их отдельно допрашивают следователи. Оба они знают, что, признавшись в совместном совершении этого преступления, получат по 5 лет тюремного заключения за грабеж, а если оба откажутся признаваться, то получат только по 1 году каждый за менее грубое правонарушение — владение краденым имуществом. Но следователи предлагают отдельно каждому из них такую сделку: если вы дадите свидетельство против вашего партнера как главаря шайки грабителей, то вас освободят, а партнера осудят на 10 лет. Теперь Алиса и Боб сталкиваются с так называемой дилеммой заключенного: должны ли они свидетельствовать (testify) или отказаться (refuse)? Будучи рациональными агентами, и Алиса, и Боб желают максимизировать свою собственную ожидаемую полезность. Предположим, что Алиса полностью безразлична к судьбе своего партнера, а ее оценка полезности уменьшается пропорционально количеству лет, которые она проведет в тюрьме, независимо от того, что случится с Бобом. Боб думает точно так же. Чтобы упростить для себя выработку рационального решения, оба грабителя составляют матрицу вознаграждений, приведенную в табл. 17.2.

Таблица 17.2. Матрица вознаграждений для дилеммы заключенного

<< В начало < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Следующая > В конец >>