책/사회

협력의 진화 / 로버트 엑설로드

삼긱감밥 2021. 7. 13. 15:11
반응형

 

 

 

 

1. 소개

이 책은 죄수의 딜레마를 파훼하는 전략 팃포탯에 대한 책이다. 죄수의 딜레마 상황과 그 결과, 이를 파훼하기 위해 공모한 컴퓨터간의 전략프로그램대회, 그 전략프로그램대회의 1등 전략인 팃포탯에 대해 설명한다.

 

그리고 팃포탯의 어떤 요소가 이런 좋은 전략이 되도록 했는지, 이를 다른 분야에 어떻게 적용할 수 있는지, 호혜적 요소로서의 팃포탯을 잘 활용하는 방법은 무엇인지에 대해 논한다. 

 

2. 내용

 

*죄수의 딜레마

 

죄수의 딜레마는 다음과 같은 상황을 가정한 것이다. 같이 범죄를 저지른 2명의 죄수 A와 B (사실 미결수가 맞는 느낌이긴한데)가 감옥안에 나뉘어 있다고 치자. 각 죄수는 서로 연락을 주고받을 방법이 없다. 각 죄수에게 경찰이 가서 범죄를 자백해주면 형량을 엄청나게 깎아주겠다고 한다.

 

만약 두 죄수가 둘다 자백을 하지 않는다면, 둘다 증거불충분으로 얼마 안가 풀려난다. 만일 한명만 자백하고 한명은 자백하지 않는다면, 자백한 죄수는 바로 풀려나고 자백하지않은 죄수는 오랫동안 갇혀있게 된다. 둘다 자백하면 둘다 갇혀있게 된다. 단, 한명만 자백하고 한명만 자백하지않았을 때보다는 덜 갇혀있는다.

 

이걸 각 개인의 이득을 기준으로 따져보면, 나만 자백>둘다 자백안함>둘다 자백>쟤만 자백 순이 된다.

둘다 자백안할때의 이득을 3,3 한명만 자백했을때의 이득을 5,0 둘다 자백했을때의 이득을 1,1로 하자.

 

 


 A-자백하지않는다  A-자백한다
 B-자백하지않는다  A 3 B 3  A 5 B 0
 B-자백한다  A 0 B 5  A 1 B 1

 

내가 A라고 치자. 나한테 이득이 되는 행동을 하고 싶다. 그럼 B가 무슨 행동을 하든 관계없이 항상 자백하는 것이 이득이다. 왜냐면 B가 자백하지 않고 나도 안하면 3의 이득을 갖는데 나만 자백하면 5만큼의 이득을 가지니까 말이다. B가 자백하고 내가 자백을 안하면 0의 이득, B가 자백하고 내가 자백을 하면 1의 이득이기 때문에 B가 자백을 하든 안하든 무조건 난 자백하는게 유리하다.

 

문제는 B도 같은 생각을 하는 것이다. 그래서 둘다 3,3의 이득을 얻는 둘다 자백하지않는다가 총합6, 각 개인 3의 이득을 주는데 이걸 선택하지 못하고 둘다 자백하고 총합 2, 각 개인 1의 이득을 얻게 된다.

 

이 게임은 언제 끝날지 알 수 있게 유한번 게임을 한다면 무조건 처음부터 다 배신만 하게 되어있다. 10000번한다 치면 계속 협력하다가 10000번째에는 무조건 배신하는게 이득이다. 더이상 할 게임이 없어지니까. 근데 상대방도 그럴 것이기 때문에 10000번째에는 상대방이 배신할 것을 나도 안다. 그러면 10000번째 값이 정해져있으니 9999번째도 배신하는게 이득이다. 이런 식으로 1번까지 결국 다 서로 배신만 하게 된다.

 

이런 상황에서 가장 이득을 볼 수 있는 전략은 무엇일까?

 

*컴퓨터 프로그램 대회-팃포탯

 

그래서 각 정치,경제,게임이론 전문가들을 모셔서 어떤 식으로 죄수의딜레마를 타파할 전략을 만들 수 있을지 한번 만들어보라고 시켰다. 다양한 전략이 나왔다.

 

-다우너

상대가 내 협력 뒤에 협력할 확률과, 배반 후에 협력할 확률을 계산한다음, 장기 보상값을 극대화시키는 방법으로 움직인다. 두 확률이 같으면 배반한다. 상대방이 협력때만 협력하면 나도 협력. 맨 처음엔 상대가 어떻게 움직일지 모르니까 배반하게 된다.

 

-프리드먼

상대가 배신할 때까지 협력한다. 상대가 한번이라도 배신하면 남은 게임 전부 다배신한다.

 

-팃포탯

처음엔 협력한다. n번부터는 n번부터는 n-1번에 상대가 한 것을 그대로 내는 것이다.

 

-요스

처음엔 협력한다. n번부터는 n번부터는 n-1번에 상대가 한 것을 그대로 내는 데, 내가 협력을 내야 할 타이밍에 10%확률로 배신하고 90%확률로 협력한다.

 

라운드로빈 방식으로 다른 전략과도 해보고, 나랑 똑같은 프로그램이랑도 해보고, 랜덤이랑도 해봐서 200판씩 서로 죄수의딜레마 게임을 했다. 그러면 최대점수는 1000점, 최소점수는 0점인데 평균 500점대로  팃포탯이라는 전략이 우승했다.

 

팃포탯이 좋은 점은 일단 신사적인 전략이라는 점이다. 팃포탯은 먼저 배신하지 않는다. 따라서 상호 협력해서 오랫동안 게임하면서 협력하여 서로 점수가 증진될 수 있다. 이 게임에서 비신사적인 전략은 별로 좋은 점수를 얻지 못했다. 또한 상대가 날 배신하면 무조건 그대로 따라하기 때문에 상대의 배신을 보복할 수 있다. 여기에 명료하고 단순하기까지 하다. 상대가 배신하고 난 후에 보복하고 상대가 나랑 협력하려고 하면 이걸 용서해줘서 장기적으로 이득이기도 하다.

 

1차 대회에서 팃포탯의 우승으로 끝나고, 2차 대회에서 사람들에게 1차대회 결과를 알리고 또 해봤다.

 

이번에도 다양한 전략이 나왔는데

 

-테스터

일단 배신한다. 배신했는데 상대가 그것에 대해 보복하면 협력한다. 근데 만약 내가 배신했는데 상대가 협력하면 배신과 협력을 번갈아서 한다.

 

-트랜퀼라이저

계속 서로 협력한다. 협력해서 서로 상호 협력의 단계를 밟아가면 전체 게임에서 최대 25%로 배신하기 시작한다. 

 

이 두가지 전략때문에 팃포투탯(팃포탯의 변형버전, 상대가 두번 배신해야 내가 보복)을 비롯한 관대한 전략 상당수가 박살이 났다. 자꾸 뒷통수쳐서 배신하려하는 전략 때문에 관대한 전략이 살아남기 힘들었던 것이다.

 

그러나 또 우승은 팃포탯이 했다. 팃포탯은 장기적으로도 좋은 전략이었는데, 시간이 지날수록 보복을 잘 안하는 관대한 전략들을 잡아먹고 큰 비신사적인 전략들이 잡아먹을 전략이 없어져서 사멸하기 때문이다. 그러나 팃포탯은 자신과 비슷하거나 협력적인 전략이랑 있어도 많은 이득을 본다.

 

팃포탯은, 팃포탯을 채택한 적은 수의 조직이 있어도 큰 조직안에 침투해서 살아남는게 가능하다. 또한 팃포탯을 제외한 다른 전략과 싸워도 살아남으며, 어느정도 집단이 강고해진 다음에도 다른 비협력적인 전략이 침투해오는 것을 버틸 수 있다.

 

물론 팃포탯도 단점이 있는 전략이다. 미래의 게임이 의미가 없으면 그 전 게임에서의 배신의 충동이 커지기 때문이다. 이번 게임은 중요하지만 다른 게임은 안중요하다면 배신할 확률이 높아지기 때문이다. 또한 상대가 한번이라도 보복하면 나도 보복하고, 만약 이것에 상대가 따라하면 무한 보복게임이 되어버리는 위험도 있다.

 

*그 외

-1차세계대전 서부전선에서 영국군과 독일군 부대들이 서로 공격하지 않고 전쟁하는 척 한 것도 이런 팃포탯전략으로 볼 수 있다. 협력하고, 서로 보복할 수 있다는 것을 알고 장기적으로 서로에게 이득인 전략이다. (군부는 화나겠지만)

 

-상호 협력을 증진시킬 수 있는 방안은 미래를 중요하게 만들고, 보수의 크기를 바꾸고, 협력을 증진시킬수 있는 가치관을 가르치는 것이다.

 

-이외에 이 책은 이것을 진화나 생물에 관해 설명한 내용도 있다.

 

-홉스적인 세계에서 이기적인 인간들도 장기적 이익에 따라 협력을 진화시킬 수 있다는 점을 제시했다.

 

-팃포탯을 이용하는 동안은 질투하지 말고, 먼저 배신하지 말고, 협력이든 배반이든 그대로 갚고, 지나치게 영악스럽게 굴지 말아야 한다.

 

-이 내용은 꼬리표,고정관념,신분체계와 학교 선후배간을 이해하는데에도 도움이 될 수 있다.

반응형