죄수의 딜레마란 무엇인가?

교도소 딜레마는 게임 이론에서 논제로섬 게임의 대표적인 사례로 개인의 최적 선택이 집단의 최적 선택이 아니라는 것을 반영한다. 곤경 자체는 하나의 모델일 뿐이지만 실제 가격 경쟁과 환경 보호에서도 비슷한 상황이 자주 발생할 수 있다.

단일 죄수의 딜레마의 결과는 반복되는 죄수의 딜레마의 결과와 같지 않을 것이다.

반복되는 죄수의 곤경 속에서 게임이 반복되었다. 따라서 각 참가자는 이전 라운드에서 다른 참가자의 비협조적인 행동을 "처벌" 할 수 있는 기회를 갖게 됩니다. 이때 협력은 균형 잡힌 결과를 가져올 수 있다. 부정행위의 동기는 처벌의 위협에 의해 극복될 수 있으며, 이로 인해 더 나은 협력 결과를 초래할 수 있다. 양이 무한대에 반복적으로 접근했을 때, 내쉬 균형은 파레토가 가장 좋은 경향이 있다.

죄수의 딜레마의 주요 사상은 죄수들이 서로 협력하면 모든 사람에게 최대의 이익 (무죄 석방) 을 가져다 줄 수 있지만, 정보가 알려지지 않은 경우, 동료를 팔아서 자신에게 이익을 가져다 줄 수 있고 (형기 단축), 동료가 자신에게 이익을 가져다 줄 수 있기 때문에 상대를 배신하는 것이 가장 큰 이익이라는 것이다. 그러나 실제로 법 집행부는 모든 범인의 자백을 유도하기 위해 이런 상황을 설정할 수 없다. 범인은 형기 이외의 요인을 고려해야 하기 때문이다. (동료를 배신하면 보복 등을 받을 수 있기 때문이다. ) 그리고 법 집행 기관이 설정한 이익 (형기) 을 충분히 고려할 수 없다.

고전적인 죄수의 딜레마

[이 단락 편집]

1950 년, 메릴 플로드 (Merrill Flood) 와 Y 랜더 (Ylander) 에 근무하는 멜빈 드레서 (Melvin Dresher) 가 관련 딜레마 이론을 연구해 상담가인 알버트 터크 (Albert Tucker) 고전적인 죄수의 딜레마는 다음과 같습니다:

경찰은 두 용의자, A 와 B 를 체포했지만, 그들을 고발할 충분한 증거가 없었다. 그래서 경찰은 용의자를 따로 가두고, 각각 만나, 쌍방에 다음과 같은 선택권을 제공했다.

한 사람이 죄를 시인하고 (관련 용어는' 배신' 이라고 함) 고발을 증언하지만 상대방이 침묵을 지키면 그 사람은 즉시 석방되고 침묵하는 사람은 10 년형을 선고받게 된다.

두 사람 모두 침묵을 지키면 (관련 용어는 서로' 협력' 이라고 불림), 징역 6 개월을 선고받았다.

두 사람 모두 상대를 신고하면 ('상대를 팔아라') 징역 2 년을 선고해야 한다.

다음 표에 요약되어 있습니다.

침묵 (협력) 고백 (배신)

둘째, 침묵 (협력), 두 사람은 모두 6 개월 형을 복역한 후 바로 석방된다. B 복역 10 년.

B 고백 (배신), a 복역 10 년; B 즉시 풀려났고, 두 사람 모두 감옥에서 2 년을 복역했다.

평론

게임 이론의 다른 예와 마찬가지로, 죄수의 딜레마는 모든 참가자 (즉, "죄수") 가 자기 이익이라고 가정합니다. 즉, 그들은 모두 다른 참가자의 이익에 신경 쓰지 않고 자신의 이익을 극대화하고 있다고 가정합니다. 어떤 전략의 수익이 어떤 상황에서도 다른 전략보다 낮다면, 이런 전략을' 엄격한 열세' 라고 부르며, 이성적인 참가자들은 결코 그것을 선택하지 않을 것이다. 또한 개인 결정에 방해가 되는 다른 힘은 없으며 참가자는 자신의 뜻에 따라 전략을 선택할 수 있습니다.

개인형기를 최소화하기 위해 범인은 어떤 전략을 선택해야 합니까? 두 명의 죄수가 격리되어 수감되어 상대방의 선택을 알지 못했다. 그리고 말을 할 줄 안다고 해서 반드시 상대방이 말대꾸를 하지 않는다는 것을 믿을 수 있는 것은 아니다. 개인의 이성적 선택으로 볼 때 배신을 신고한 형기는 영원히 침묵보다 낮다. 두 명의 이성적인 죄수들이 어떻게 딜레마에서 선택을 할 것인지 상상해 보십시오.

상대방이 침묵하고 배신하면 나는 석방될 것이다. 그래서 나는 배신을 선택할 것이다.

상대방이 나를 배신한 혐의로 기소한다면, 나도 상대방이 비교적 가벼운 형기를 받았다고 고발할 것이기 때문에 나도 배신을 선택할 것이다.

두 사람이 직면한 상황은 동일하기 때문에 그들의 이성적 사고는 같은 결론에 이르게 된다. 배신을 선택한다. 배신은 두 전략 중 주도적인 전략이다. 그래서 이 게임에서 유일하게 가능한 내쉬 균형은 양측 참가자들이 모두 서로를 배신한 결과 두 사람 모두 2 년을 복역했다는 것이다.

이 게임의 내쉬 균형은 분명히 집단의 이익을 고려한 파레토의 최적 해결책이 아니다. 전반적인 이익으로 볼 때, 만약 두 참가자가 모두 협력해서 침묵을 지킨다면, 두 사람은 모두 반년만 선고하고, 전반적인 이익은 더 높으며, 결과는 서로 배신하여 2 년 형을 선고하는 것보다 낫다. 그러나 상술한 가설에 따르면 두 사람은 모두 이성 개인으로 자신의 개인적 이익만 추구한다. 균형 잡힌 상황은 두 죄수들이 모두 배신을 선택한 결과 두 사람의 판단이 협력보다 높았고 전반적인 이익은 협력보다 낮았다. 이것이 바로' 딜레마' 입니다. 이 예는 파레토의 최적과 내쉬 균형이 논제로섬 게임에서 충돌한다는 것을 아름답게 증명한다.

통식

[이 단락 편집]

죄수의 딜레마의 기본 게임 구조를 빗질하면 죄수의 딜레마를 더 명확하게 분석할 수 있다. 실험 경제학은 종종 이 게임의 일반적인 형식으로 각종 화제를 분석한다. 다음은 일반적인 형태의 구현의 예 중 하나입니다.

두 명의 참가자와 한 명의 은행가가 있다. 각 참가자는 두 장의 카드를 가지고 있는데, 한 양식에 두 개씩, 각각' 협력' 과' 배신' 이 찍혀 있다. 참가자들은 각각 한 장을 카드 발급자 앞에 내려놓았다. 얼굴을 아래로 향하면 참가자들이 서로의 선택을 알 가능성이 배제된다. 그런 다음 딜러는 참가자 카드 두 장을 열고 다음 규칙에 따라 이익을 지불합니다.

한 사람이 한 사람을 배신하고 협력하다: 배신자는 5 점 (배신 유혹), 협력자는 0 점 (사기 지불) 을 받는다.

두 사람이 협력하다: 각각 3 점 (협력 인센티브).

둘 다 배신했다: 각각 1 점 (배신 처벌).

지급 매트릭스 테이블을 사용하여 다음과 같이 지급을 표시합니다 (두 참가자는 각각 빨간색과 파란색으로 표시됨).

죄수의 딜레마는 일반적으로 지불 매트릭스의 협동 배신이다.

협력 3,30,5

배신 5, 0 1, 1

기호' T, R, P, S' 는 협력과 배신을 나타낸다.

협력 r, r, s, t

배신 t, s, p, p

"이기다" 라는 단어로 협력과 배신을 표현하다

협력승리-큰 손실-큰 승리.

승리를 배반하다-대패하다

간단한 게임에서 얻은 포인트는 몇 가지 일반적인 결론을 도출할 수 있다.

T, r, p, s 기호 테이블

영어-중국어 기호 점수의 설명 (비 용어)

유혹은 유혹을 배신하고 성공을 배반했다.

R 3 보상 협력 인센티브 * * * 협력 수입

P 1 처벌 배신 처벌 * * * 같은 배신 소득.

S 0 봉이 속아서 혼자 배신당한 것에 대해 돈을 지불해야 한다.

T (유혹) = 배신 유혹, R (보상) = 협력 보상, P (처벌) = 배신 처벌, S (봉봉) = 사기 지불, 개인 선택 점수에 대해서는 다음과 같은 부등식을 얻을 수 있다.

T>R>P>S

(솔루션: 5>3>1> 위의 불평등을 얻기 위해 0)

총점의 경우 다음과 같은 부등식을 얻을 수 있다.

2R & gtT+S 또는 2R & gt2P

(용액: 2 × 3 >; 5+0 또는 2 × 3 >; 2x1; 두 사람은 합작하여 6 점을 받았고, 상대를 배신한 사람과 2 점을, 단독 배신한 사람과 5 점을 맞췄다. 분명히 협력은 배신보다 득점이 높다. 협력은 집단의 주도적 전략이다. ) 을 참조하십시오

게임을 반복하거나 죄수의 딜레마를 반복하면 참가자들이 T>R>P>S 를 2R & gtT+S 에 주목하게 된다. 즉, 참가자들을 곤경에서 벗어나게 한다는 것이다. 이 이론은 더글라스 호프슈타트가 창립한 것이다.

현실의 예

[이 단락 편집]

위의 예는 부자연스러워 보이지만, 현실에서는 인간 사회와 자연계가 죄수의 딜레마와 같은 예를 찾아 그 결과를 같은 지불 매트릭스로 나눌 수 있다. 사회과학의 경제학, 정치학, 사회학, 자연과학의 동물행동주의와 진화생물학은 모두 죄수의 딜레마 분석을 통해 생물이 직면한 끝없는 죄수의 딜레마 게임을 시뮬레이션할 수 있다. 죄수의 딜레마가 광범위하게 적용될 수 있다는 것은 이 게임의 중요성을 알 수 있다. 다음은 각 업종의 예입니다.

정치의 한 예: 군비 경쟁

정치학에서 양국의 군비 경쟁은 죄수의 딜레마로 형용할 수 있다. 양국은 군비 증가 (배신) 또는 무기 감축 협정 (협력) 의 두 가지 옵션이 있다고 주장할 수 있다. 양국은 상대방이 협의를 준수할 것이라고 확신할 수 없기 때문에 양국은 결국 군비를 늘리는 경향이 있다. 역설적이게도 군비를 늘리는 것은 양국의' 이성' 이 될 수 있지만 결과는' 비이성' 이다 (예: 쌍방 경제에 손해를 끼칠 수 있는 등). ) 이것은 억제론의 추론으로 볼 수 있다. 즉 강력한 군사력으로 상대의 공격을 억제하여 평화의 목적을 달성하는 것이다.

경제 예: 관세전.

두 나라는 관세에 대해 두 가지 선택을 할 수 있다.

관세를 올려 너의 상품을 보호하라. (배신)

서로 관세 협의를 달성하여 관세를 낮추어 각 상품의 유통을 용이하게 하다. (협력)

한 나라가 어떤 이유로 관세협정을 지키지 않고 단독으로 관세를 올리면 다른 나라도 같은 반응 (배신) 을 해 관세전을 일으키며 양국의 상품이 상대방의 시장을 잃고 자국 경제에 손해를 끼칠 수 있다 (결과적으로 * * * 배신). 그런 다음 양국은 새로운 관세 협정에 도달했다. (반복되는 게임의 결과는 발견과 * * * 협력수익이 가장 크다는 것이다. ) 을 참조하십시오

비즈니스 사례: 광고전

상업 활동에서도 각종 죄수의 딜레마의 예가 나타난다. 광고 경연대회를 예로 들다.

두 회사는 서로 경쟁하고, 그들의 광고는 서로 영향을 미친다. 즉, 한 회사의 광고가 고객이 더 쉽게 받아들일 수 있다면, 다른 회사의 수입의 일부를 가져가게 된다. 그러나 비슷한 품질의 광고를 동시에 게시하면 수입은 거의 증가하지 않지만 비용은 증가합니다. 그러나 광고의 질을 높이지 않으면 장사는 상대방에 의해 빼앗길 것이다.

두 회사는 두 가지 옵션을 가질 수 있습니다.

서로 협의하여 광고 비용을 줄이다. (협력)

광고 비용을 늘리고, 가능한 한 광고의 질을 높이고, 상대방을 압도하다. (배신)

두 회사가 서로 불신하고 협력하지 못하고 배신이 주도전략이 되면 두 회사는 광고대전에 빠지고 광고비의 증가는 두 회사의 이윤을 손상시킬 수 있다. 이것이 죄수의 딜레마다. 현실에서 서로 경쟁하는 두 회사는 협력 협의를 달성하기 어렵고 대부분 죄수의 곤경에 빠진다.

자전거 경기의 예

자전거 경기의 경쟁 전략도 게임이다. 그 결과는 죄수의 딜레마 연구 성과로 설명할 수 있다. 예를 들어, 매년 열리는 투르 프랑스 자전거 경기에서는 참가자들이 종점에 도착하기 전에 종종 큰 팀 (영어: Peloton) 으로 전진하는데, 이들은 낙오되지 않고 적당한 노력을 하기 위해 이런 전략을 채택하고 있다. 앞을 달리는 사람은 바람을 맞을 때 가장 힘들기 때문에 앞을 선택하는 것이 가장 나쁜 전략이다. 처음에는 모두 앞으로 나아가고 싶지 않은 (* * * * 협동 배신) 이 나타나 팀 전체의 속도를 늦추고, 두 명 이상의 선수가 일반적으로 앞으로 올라간 다음 일정 기간 동안 전선의 위치를 교환하여 바람저항 (* * * 협력) 을 분담하여 팀 전체의 속도를 높인다. 이때, 앞의 한 선수가 앞의 위치 (배신), 다른 선수와 대대를 유지하려고 하면, 보통 앞의 수가 가장 많은 선수가 결국 뒷선수에게 따라잡히게 된다. 뒷선수가 이전 선수의 질주에 비교적 힘들지 않기 때문이다.

죄수의 딜레마와 관련된 사건

[이 단락 편집]

판타지

윌리엄 파운드 스톤은 그의 작품에서 뉴질랜드의 예시로 죄수의 곤경을 설명했다. 뉴질랜드에서는 신문정이 관리하지도 잠그지도 않고 신문을 사는 사람이 돈을 내려놓고 가져간다. 물론, 어떤 사람들은 돈을 지불하지 않고 신문을 가져갈 수도 있지만, 모든 사람이 신문을 훔치면 앞으로 불편과 해로운 결과를 초래할 수 있다는 것을 알고 있기 때문에 이런 일은 거의 일어나지 않는다. 이 예의 특별한 점은 뉴질랜드 사람들이 다른 어떤 요인의 영향을 받지 않고 죄수의 곤경에서 벗어날 수 있다는 것이다. 신문 노점에 특별히 주의를 기울이는 사람은 없다. 사람들이 규칙을 준수하는 것은 배신의 결과를 피하기 위해서이다. 죄수의 딜레마를 피하는 이런 흔한 추리나 생각을' 신기한 사고' 라고 부른다. [3]

"죄를 인정하고 형량을 감형하는 것" 은 실현 가능하지 않다.

죄수의 딜레마의 결론은 변호 거래가 많은 나라에서 금지된 이유 중 하나이다. 죄수의 딜레마는 두 명의 범죄자가 있는데, 그 중 한 명은 범죄, 다른 한 명은 무죄, 범인은 모든 것을 고백하고 심지어 무고한 사람 (배신만) 을 억울하게 하여 형량을 감형한다는 결론을 내렸다. 최악의 경우, 만약 그들이 모두 투옥된다면, 솔직한 범죄자는 짧은 형기를 받게 되고, 무고한 범죄자는 긴 형기를 받게 된다.

공공재의 비극

실제 게임에 참여하는 참가자가 한 명 이상이며, 여러 참가자의 죄수의 딜레마가 나타날 것이다. 개렛 제임스 하딩 (Garrett James Hardin) 의' 공공재의 비극' 이 그 예이다.' 공공재의 비극은 대부분의 사람들에게 속한 공공재가 가장 중시되지 않는 경우가 많다는 것을 의미한다.' 예를 들어, 고기잡이와 같은 공해의 물고기는 일반인에 속하며, 남획을 과도하게 하지 않는다는 개념하에 어민들은 남획을 과도하게 하여 해양 생태를 파괴한다. 그러나 다방면의 죄수의 딜레마에 대한 제법은 아직 논의되지 않았다. 왜냐하면 그것은 항상 고전적인 양방 죄수의 딜레마로 분해될 수 있기 때문이다. 즉, 죄수의 딜레마는 양면에 불과하며 많은 면이 없다는 것이다. 이른바 다방면 죄수의 딜레마는 여러 쌍방의 죄수의 딜레마가 섞여 만들어진 허상에 지나지 않는다.

반복되는 죄수의 딜레마

[이 단락 편집]

그의 저서' 협력의 진화' 에서 로버트 악셀로드는 고전 죄수의 딜레마의 확장을 탐구하며' 반복되는 죄수의 딜레마' (IPD) 라고 불렀다. 이 게임에서 참가자들은 서로 관련된 전략을 반복해서 선택하고 그들의 이전 대항을 기억해야 한다. 아크셀로드는 세계 각지에서 온 학술 동료들을 초청하여 컴퓨터 전략을 설계하고 반복되는 죄수의 딜레마 경기에서 서로 경쟁했다. 경기 절차의 차이는 알고리즘의 복잡성, 초기 대항, 용서 능력 등 여러 방면에서 광범위하게 존재한다.

악셀로드는 이러한 대립이 서로 다른 전략을 선택한 모든 참가자들에 의해 오랫동안 반복될 때' 탐욕' 전략은 감소하는 경향이 있고' 이타적인' 전략은 더 많이 채택된다는 것을 발견했다. 그는 자연 선택을 통해 이타적인 행동의 메커니즘이 원래의 순전히 이기적인 메커니즘에서 진화할 수 있다는 것을 설명하기 위해 이 게임을 사용했다.

최고의 확실성 전략은' 이로 갚는다' 라고 하는데, 이는 Anatol Rapoport 가 개발한 한 가지 방법으로 선수권 대회에 적용된다. 그것은 모든 참가 절차 중 가장 간단하며, 4 줄의 기본 언어만 포함하고 경기에서 이겼다. 이 전략은 반복 게임이 시작될 때 협력하고 상대방의 이전 전략을 채택하는 것일 뿐이다. (알버트 아인슈타인, 도전명언) 더 좋은 전략은' 이로 갚는다' 가 상대가 배신할 때, 어쨌든 다음 라운드에서 작은 확률 (약 1%~5%) 을 맞춰야 한다는 것이다. 가끔 순환 배신의 사기에서 회복해야 한다는 점을 감안하는 것이다. 게임에 잘못 소개되었을 때' 타격에 대한 용서' 가 최고다. 이것은 때때로 당신의 행동이 당신의 상대에게 잘못 전달된다는 것을 의미합니다: 당신은 협력했지만, 당신의 상대는 당신이 배신했다고 들었습니다.

악셀로드는 높은 점수에 대한 분석을 통해 전략 성공에 필요한 몇 가지 조건을 지정했다.

우호적인

가장 중요한 조건은 전략이 반드시 우호적이어야 한다는 것이다. 즉 상대가 배신할 때까지 배신하지 말라는 것이다. 거의 모든 높은 점수 전략은 우호적이다. 그러므로 완전히 이기적인 전략은 단지 이기적인 이유일 뿐, 결코 상대를 먼저 공격하지 않을 것이다. (윌리엄 셰익스피어, 이기심, 이기심, 이기심, 이기심, 이기심, 이기심, 이기심)

보복

그러나, 아크셀로드는 성공적인 전략이 맹목적으로 낙관적이어서는 안된다고 생각한다. 늘 보복하다. 보복성 전략의 한 예는 협력이다. 이것은 매우 나쁜 선택이다.' 더러운' 전략이 이런 바보를 잔인하게 착취하기 때문이다.

용서하다

성공 전략의 또 다른 특징은 용서받아야 한다는 것이다. 비록 그들은 보복하지 않지만, 만약 상대가 계속 배신하지 않는다면, 그들은 한 번에 한 번씩 합작으로 돌아갈 것이다. 이는 장기적인 보복과 반보복을 제지하고 득점점을 극대화했다.

질투하지 않다

마지막 품질은 질투하지 않는 것이다. 즉 상대보다 더 높은 점수를 얻으려 하지 않는 것이다. (이는' 우호' 전략으로는 불가능하다. 즉' 우호' 전략은 상대보다 더 높은 점수를 얻을 수 없다.)

따라서 악셀로드는 이기적인 개인이 종종 우호적이고 관용적이며 이기적인 이익 때문에 질투하지 않는다는 유토피아적인 결론을 내렸습니다. 악셀로드는 죄수의 딜레마를 반복하는 연구에 대한 중요한 결론은 우호적인 사람이 먼저 거래를 완성할 수 있다는 것이다.

고전적인 죄수의 딜레마 절에 제시된 군비 경쟁 모델을 재고하다. 결론은 이성적인 전략만이 군사력을 증강시켰다는 것이다. 양국은 버터가 아닌 총포에 GDP 를 쓰는 것을 선호하는 것 같다. 흥미롭게도, 반대 국가들이 실제로 이런 방식으로 경쟁하고 있다는 것을 증명하려고 하는 것 ('죄수의 딜레마가설 반복' 하에서 각기 다른 시기의 군비 지출이 모두' 높음' 과' 낮음' 사이에 있다는 것) 은 종종 가설적인 군비 경쟁이 예상대로 나타나지 않는다는 것을 보여준다. (예를 들어, 그리스인과 터키인의 군비 지출은' 이로 갚는다' 는 반복되는 죄수의 딜레마를 따르지 않고 국내 정책에 이끌릴 가능성이 더 높다. 이것은 일회성 게임과 반복 게임에서 서로 다른 이성적인 행동의 한 예일 수 있다.

일회성 죄수의 딜레마 게임에서 최고의 전략 (포인트 최대화) 은 배신이다. 앞서 언급했듯이 상대의 행동이 무엇이든 간에 이것은 사실이다. 하지만 반복되는 죄수의 딜레마 게임에서 가장 좋은 전략은 가능한 상대의 전략과 배신과 협력에 대처하는 방법에 달려 있다. 예를 들어, 한 무리의 사람들을 생각해 보십시오. 그 중 한 명은 매번 배신을 합니다. 단, 첨예한 상대 전략을 따르는 사람은 예외입니다. 이 사람은 1 라운드에서 져서 약간 열세에 처해 있다. 이런 사람들 중에서 이 사람의 가장 좋은 전략은 매번 배신하는 것이다. 총 반역자가 일정 비율을 차지하고 나머지 사람들이 첨예하게 맞서는 인구 가운데 개인의 최선의 전략은 이 비율과 게임의 길이에 달려 있다.

일반적으로 두 가지 방법으로 최상의 전략을 얻을 수 있습니다.

베이지안 내쉬 균형: 대결 전략의 통계적 분포를 결정할 수 있다면 (예: 50% 를 띠로, 50% 는 항상 협력한다), 수학적으로 최고의 상대전략 [4] 을 얻을 수 있다.

일단 몬테카를로 시뮬레이션 군중, 낮은 개인이 사라지고, 높은 점수 개체 반복 (최고의 전략을 얻을 수 있는 천재 알고리즘) 이 있었다. 최종 군중의 알고리즘 합성은 일반적으로 예비 집단의 알고리즘 합성에 따라 달라집니다.

이로 갚는 것이 가장 믿을 만한 기본 전략으로 여겨졌지만, 죄수의 딜레마를 반복한 지 20 주년을 맞아 영국 사우샘프턴 대학의 한 팀 (Nicholas Jennings [1] 이 이끄는 팀) 에는 Rajdeep Dash, Sarva Pall 이 포함되어 있다. 이 전략은 프로그램 간의 협력에 의존하며 단일 프로그램에 대해 가장 높은 점수를 얻습니다. Southampton University 는 경쟁에 참여하기 위해 60 개의 프로그램을 제출했습니다. 이러한 프로그램의 시작은 5 부터 10 까지의 동작 세트로 서로를 식별하도록 설계되었습니다. 일단 이런 감정들이 이루어지면, 한 절차는 항상 협조하고, 다른 절차는 항상 배신하여 반역자가 가장 큰 가산점을 받을 수 있도록 보장한다. 프로그램이 Southampton 이 아닌 참가자를 조작하고 있다는 것을 인식하면 프로그램은 경쟁 절차의 점수를 최소화하려고 계속 배신할 것이다. 결과 [5], 이 전략은 상위 3 으로 경쟁을 끝냈고, 바닥에 가까운 위치도 많이 얻었다. 이 전략은 첨예한 대립보다 더 효과적이라는 것이 분명하지만, 이런 특수한 경쟁에서 여러 채널을 허용하는 사실을 이용하기 때문이다. 한쪽이 단일 플레이어만 통제할 수 있는 경쟁에서 이를 갚는 것이 더 좋은 전략이다.

죄수의 딜레마를 반복하면 n 번 반복되고 n 이 상수라는 것을 알면 또 다른 재미있는 사실이 나타난다. 내쉬 균형은 매번 배신이다. 이것은 귀납법으로 쉽게 증명할 수 있다. 너도 마지막 라운드에서 배신할 수 있다. 왜냐하면 너의 상대는 너를 처벌할 기회가 없을 것이기 때문이다. 그래서, 마지막 라운드에서 당신들은 모두 배신할 것입니다. 이 때, 너는 꼴찌에서 두 번째 라운드에서 배신할 수 있다. 왜냐하면 네가 마지막에 무엇을 하든, 너의 상대는 배신할 것이기 때문이다. 이런 것들이죠. 요청을 유지하기 위해 협력하기 위해서는 미래가 두 참가자에게 불확실해야 한다. 한 가지 해결책은 총 게임 수 N 을 무작위로 만드는 것입니다. 미래에 대한 기대는 확실히 불확실하다.

또 다른 단독 예는' 끝이 없다' 는 죄수의 딜레마이다. 이 게임은 여러 번 반복되는데, 너의 점수는 평균이다.

죄수의 딜레마 게임은 인류 협력과 신뢰 이론의 기초이다. 죄수의 딜레마가 신뢰가 필요한 두 사람 사이의 교류를 시뮬레이션할 수 있다고 가정하면, 집단의 협력 행위는 여러 참가자들이 반복되는 게임의 변종으로 시뮬레이션할 수 있다. 이것은 많은 학자들의 지속적인 흥미를 불러일으켰다. 65438 에서 0975 까지 Grofman 과 Pool 은 2000 개 이상의 학술 문장 들이 이 연구에 전념할 것으로 예상하고 있습니다.

심리학과 게임 이론을 배우다

게임 참가자가 다른 참가자가 배신할 가능성을 추정하는 법을 배울 수 있을 때, 자신의 행동은 다른 사람의 경험에 영향을 받는다. 간단한 통계에 따르면 전반적으로 경험이 없는 참가자와 다른 참가자 간의 상호 작용은 전형적이거나 전형적인 나쁜 것으로 나타났다. 만약 그들이 이러한 경험을 근거로 행동한다면, 그들은 향후 거래에서 손실을 입을 수 있다 (더 많은 배신이나 협력을 통해). 경험이 늘어남에 따라 그들은 배신의 가능성에 대해 더욱 진실한 인상을 받았고, 게임에서 더욱 성공하게 되었다. 미성숙 참가자가 경험한 조기 거래는 성숙한 참가자가 경험한 거래보다 미래의 참여에 더 큰 영향을 미칠 수 있습니다. 이 원칙 섹션에서는 젊은 사람들의 성장 경험이 왜 그렇게 영향력이 있는지, 왜 그들이 특히 왕따에 취약한지, 때로는 그들 자신도 결국 왕따자가 될 수 있는지 설명합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 남녀명언)

집단 내 배신의 가능성은 협력의 경험을 통해 [6] 을 약화시킬 수 있다. 이전 게임이 신뢰를 쌓았기 때문이다. 따라서, 자기희생 행위는 예를 들면 집단의 도덕적 자질을 강화하는 것과 같다. 만약 집단이 작다면, 긍정적인 행동은 상호 긍정적인 방식으로 피드백을 받을 가능성이 더 높다. 즉, 이 집단의 개인이 계속 협력하도록 독려한다. 이것은 비슷한 딜레마와 관련이 있다: 당신이 도울 사람들을 위험에 빠뜨릴 수 있는 행동으로부터 만족을 얻도록 격려하라. (존 F. 케네디, 노력명언) 이 방법은 주로 호혜이타주의, 집단 선택, 혈연 선택, 도덕철학 연구에 관한 것이다.

관련 게임

[이 단락 편집]

봉지 거래를 폐쇄하다

호프슈타트 2 는 죄수의 딜레마와 같은 문제를 간단한 게임으로 설명하면 더 쉽게 이해할 수 있다고 제안했다. 예를 들어, 그는 간단한 게임인' 폐쇄봉지 거래' 로 이 주제를 설명했다.

두 사람은 닫힌 가방을 얼굴을 맞대고 교환하며 돈을 넣으면서 물건을 내놓는 것을 알고 있다. 쌍방은 약속대로 가방 안의 물건을 성실하게 교환할 수 있다. 또는 빈 가방을 상대방에게 넘겨주고 배신을 선택하십시오.

이 게임에서는 배신이 큰 이익을 얻을 수 있기 때문에 많은 사람들이 배신을 선택하게 된다. 이는 이성적인 상인들이 이런 거래를 하지 않기 때문에' 폐포거래' 는 역선택으로 시장을 잃게 된다는 뜻이다.

친구냐 적이냐?

"친구냐 적이냐?" 이것은 2002 년부터 2005 년까지 미국 게임 프로그램 네트워크에서 방영된 경기 공연 프로그램이다. 이것은 실제 사람들이 하는 죄수의 딜레마 게임의 한 예이지만, 상황은 인위적이다. 이번 경기 공연에는 세 쌍의 선수가 참가한다. 각 부부가 탈락했을 때, 그들은 죄수의 딜레마 게임을 하면서 상금을 어떻게 분배할 것인지를 결정하였다. (윌리엄 셰익스피어, 햄릿, 남녀명언) 만약 그들이 모두 협력한다면 ("친구"), 그들의 상금은 균등하게 분배될 것이다. 한 사람이 협력하고, 다른 사람이 배신하면 ("적"), 배신하는 사람은 모든 상을 받고, 협력하는 사람은 아무것도 얻지 못한다. 만약 쌍방이 모두 배신한다면, 쌍방 모두 아무것도 얻지 못할 것이다. 이 지불 매트릭스는 위에서 언급한 표준 지불 매트릭스와는 다릅니다.' 쌍방 모두 배신' 과' 내가 협력, 상대 배신' 의 경우 손실이 같기 때문입니다. 표준 죄수의 딜레마의 안정된 균형에 비해' 모든 배신' 은 약한 균형이다. 상대방이' 적' 이 될 수 있다는 것을 알고 있다면, 당신의 선택은 당신의 상품에 영향을 미치지 않을 것이다. (존 F. 케네디, 원수명언) 어떤 의미에서' 적' 은' 죄수의 딜레마' 와' 닭' 사이에 있는 유료 패턴을 가지고 있다.

이 지불 매트릭스는 다음과 같습니다.

모든 참가자가 협력하면 누구나+1 을 받게 됩니다.

모든 사람이 배신한다면, 모든 사람은 0 을 받아야 한다.

A 가 협력하면 B 가 배신하고 A 는 0, B 는 +2 를 얻는다.

적이 친구인지' 는 죄수의 딜레마에 대한 현실적인 분석을 원하는 사람들에게 유용할 것이다. 플레이어는 한 번만 놀 수 있기 때문에 반복되는 게임과 관련된 모든 관점은 적용되지 않으며' 이로 갚는다' 는 전략도 전개할 수 없다.

적인지 친구인지' 에서 쌍방이 비밀리에 합작할지 배신할지를 결정하기 전에 각 참가자는 성명을 발표하여 다른 절반의 친구들에게 그의 우호를 믿게 했다. 시스템을 깨는 가능한 방법은 참가자들이 상대에게 "나는 적이 될 것이다" 라고 말하는 것이다. 만약 내가 앞으로 이 상을 당신과 함께 나눌 것이라고 믿는다면, 친구가 될 것을 선택하세요. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 친구명언) 그렇지 않으면, 만약 네가 적이 되기로 선택한다면, 우리는 모두 빈손으로 돌아올 것이다. " 더 탐욕스러운 주장은 "나는 적이 되기로 선택할 것이다." 제가 x% 를 드리겠습니다. 나머지 (100-X) 는 제 것입니다. 그래서, 할 것인지 안 할 것인지, 우리 모두 어떤 것을 얻든지, 아니면 우리 모두 아무것도 얻지 못한다. 최후통첩 게임에서. ) 이제 비결은 X% 를 최소화하고 다른 경쟁업체가 여전히 친구가 되도록 하는 것입니다. 기본적으로 참가자들은 이 한계를 알아야 한다. 만약 그가 성공한다면, 그의 상대는 그가 확실히 이길 돈보다 아무것도 없는 것을 보고 더 많은 것을 얻는다. (존 F. 케네디, 돈명언)

이 방법은 게임에서 결코 시도하지 않았습니다. 판사가 허락하지 않을 수도 있고, 허락하더라도 불평등혐오는 이 규칙을 사용했기 때문에 예상 수익이 낮아질 수도 있다. (최후통첩 게임에서 이런 방법을 시도해 보니 높고 불평등한 입찰을 거부한 경우도 있다. 어떤 경우에는 두 참가자가 아무것도 얻지 못할 때까지 2 주에 해당하는 임금을 거부한다. ) 을 참조하십시오

주다주석을 달다

[이 단락 편집]

주 1: 다른 사람의 전략을 아는 것을 고려하지 않는 이유는 누군가가 다른 사람의 전략을 알 수 있더라도' 배신' 이 여전히 최선의 전략이기 때문이다. 상대방이' 협력' 을 선택하든' 배신' 을 선택하든. 인간의 이기심이 변하지 않는다면, 죄수의 딜레마는 여전히 존재하며, 집단의 최대 이익은 영원히 실현될 수 없다. 그래서 다른 사람의 전략이 죄수의 딜레마의 존재에 큰 영향을 미치지 않는다는 것을 알고 있다.

주 2: 더글라스 호프슈타트 (1985). 사고와 패턴의 본질에 의문을 제기하다. Dell 출판 그룹. 국제 표준서 번호 0-46-504566-9. -제 29 장 참조: 죄수의 딜레마에서 컴퓨터 경쟁과 협력의 진화.

사소한 절도가 없다고 설명하는 것 외에도, 기발한 생각은 자발적 투표 (투표하지 않는 사람은 히치하이킹으로 여겨지는 사람) 와 같은 것을 설명하는 데 사용된다. 아마도 이것은 또한 위키피디아의 공헌을 설명하는 데 사용될 수 있습니다. 즉, 아무도 기여하지 않으면 비슷한 사람들이 기여하지 않을 것이라고 가정하는 경우 (즉, 효과에서 원인에 이르는 논증) 텍스트가 추가됩니다. 또는 설명은 예측 가능한 미래 행동에 달려 있습니다 (마법의 연결이 필요하지 않음). 미래의 교류를 시뮬레이션하려면' 반복되는 죄수의 딜레마' 절에서 제시한 바와 같이 제한된 차원을 늘려야 한다.

4. 예를 들어, 2003 년 Bayeux 의' Snash 균형' 에 대한 연구를 참조하십시오. 가설적인 통계 검사: 개념에 대한 논의와 그것이 실제 경제나 통계에 적용될 수 있는지 여부 (텔아비브 대학에서).

5.2004 년 죄수딜레마선수권대회 결과에 따르면 사우스샘프턴 대학의 고보 럼진의 전략은 그리임의 전략에 비해 승리가 적고 실패가 많았지만 상위 3 위였다. 죄수의 딜레마 선수권대회에서 게임의 목표는' 승리' 게임이 아니라는 점에 유의해야 한다. 잦은 배신을 통해 쉽게 이뤄질 수 있다. 또한 Southampton University 의 팀이 개발한 소프트웨어 전략 사이에 함축적인 결론이 없더라도 이를 갚는다고 해서 항상 주어진 경쟁의 절대적인 승자는 아니라는 점도 지적해야 한다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 스포츠명언) 더 정확히 말하자면, 일련의 경기에서 최종 성적을 거둔 것이다. 어떤 종목에서든 주어진 전략은 첨예한 상대보다 경쟁에 좀 더 잘 적응할 수 있지만 첨예한 대립이 더 안정적이다. 용서변수와 기타 최고의 전략으로 첨예하게 맞서는 데도 동일하게 적용된다. 어느 날에도 대항전략의 특수한 조합을' 승리' 하지 못할 수도 있다.

6. 이 논란-신뢰에서 나온 협력의 발전-대중의 지혜에서 비롯된 것으로, 장기 자본주의가 퀘이커교도의 핵심을 둘러싸고 형성될 수 있다는 것을 보여준다. 퀘이커교도들은 항상 사업 파트너와 떳떳하게 거래한다 (배신과 약속 위반 대신). 이런 현상은 초기의 비강제적인 장기 해외 계약을 방해한다. 이는 믿을 만한 상인과의 거래로 밈이 다른 상인들에게 전파되고, 이들 상인들은 고위층 협력이 일반 상업 활동에서 수익성 전략이 될 때까지 더 먼 곳으로 밈을 전파한다는 것을 보여준다.

핵심 아이디어: 모든 게임을 잃고 윈-윈 협력.

응용 팁: 협력에주의를 기울이고 윈-윈 상황을 위해 노력하십시오. 전략 선택에 치중하고, 생각을 바꾸는 데 능하다.

응용 분야: 정치, 경제, 군사, 기업관리, 사회생활, 조직관리.

上篇: 형사 사건에 변호사를 어떻게 초빙하는가

下篇: 얼마나 많은 주차 적립금 대출을 빌릴 수 있습니까?

죄수의 딜레마란 무엇인가?

相关文章