ทฤษฎีเกมคืออะไร?

ก่อนอื่นต้องบอกว่าในที่นี้ไม่ใช่ทฤษฎีในการเขียนเกมคอมพิวเตอร์นะครับ แต่มันคือ ทฤษฎีที่อธิบายการตัดสินใจในสถานการณ์ที่เรียกว่าเกม ซึ่งเกมนั้นต้องมีผู้เล่นมากกว่าหนึ่งคน นั่นก็คือ เราไม่ได้ติดสินใจอยู่คนเดียว แต่การตัดสินใจของเราต้องคำนึงถึงการตัดสินใจของผู้อื่นที่มีความคิดด้วย ซึ่งผู้ตัดสินใจแต่ละคนก็ย่อมต้องการให้เกิดประโยชน์กับตนเองมากที่สุดด้วยเช่นกัน

ภาพยนตร์ที่มีการพูดถึงทฤษฎีเกม ที่ดังๆ ก็มีเรื่อง A Beautiful Mind นี่แหละครับ

ตัวอย่างทฤษฎีเกมที่มีชื่อเสียง

เกมความลำบากใจของนักโทษ (Prisoner’s dilemma)

คนร้ายสองคนคือนาย A และ B ถูกตำรวจจับข้อหาฆาตกรรม แต่ตำรวจไม่สามารถดำเนินคดีกับคนร้ายทั้งสองได้เพราะไม่มีพยาน ตำรวจจึงใช้วิธีแยกไปสอบปากคำคนละห้อง

คนร้ายแต่ละคนมีทางเลือกสองทางคือ 1. รับสารภาพ หรือ 2.ไม่รับสารภาพ โดยมีผลลัพธ์ที่ตามมาดังนี้…

  • ถ้าคนร้ายคนหนึ่งรับสารภาพแต่อีกคนไม่รับ จะปล่อยตัวคนที่รับสารภาพไป แล้วคนที่ไม่รับสารภาพจะต้องถูกจำคุก 20 ปี
  • ถ้าทั้งสองคนรับสารภาพ จะได้รับการลดโทษเหลือจำคุกคนละ 10 ปี
  • แต่ถ้าทั้งสองคนไม่รับสารภาพ ตำรวจจะสามารถส่งฟ้องได้เพียงข้อหาเล็กน้อยเท่านั้นซึ่งมีโทษจำคุก 1 ปี….

แล้วถ้าคุณเป็นนาย A คุณจะทำยังไง??? ไว้รอดูการวิเคราะห์ในช่วงหลังนะครับ

ว่าด้วยทฤษฎีของทฤษฎีเกม

หัวใจของทฤษฎีเกม

หลักการใหญ่ที่สุดของทฏษฎีเกมก็คือ การเอาใจเขามาใส่ใจเรา (Put yourself in the other player’s shoes) ซึ่งก็คือ คิดว่าถ้าเราเป็นอีกคนหนึ่งเราจะทำอย่างไร?? จริงๆ ถ้าคุณสามารถคิดแบบนี้ได้ คุณจะสามารถวางแผนและตัดสินใจโดยใช้กลยุทธ์ที่ดีที่สุดได้ทันที โดยไม่ต้องเรียนรู้ทฤษฎีเกมอะไรให้มากความเลย

Scope เรื่องระยะเวลาของเกม

แบ่งได้เป็น 2 อย่าง ใหญ่ๆคือ

  1. เกมที่เล่นทีเดียวจบ ผู้เล่นจะเลือกทางเลือกเพื่อให้ตนได้ประโยชน์สูงสุด ไม่ว่าจะต้องใช้วิธีที่ดูเลวร้ายแค่ไหน (เช่น การที่เราต้องไปซื้อของชายแดน แล้วมักโดนของปลอม เพราะผู้ขายไม่คิดว่าจะได้เจอเราอีกแล้ว)
  2. เกมที่ต้องเล่นซ้ำหลายๆ รอบ ผู้เล่นมีแนวโน้มมากขึ้นที่จะเลือกทางเลือกที่ได้ผลประโยชน์ทั้งสองฝ่ายในระยะยาว เพราะหากเราใช้วิธีที่รุนแรง เราก็จะโดนโต้ตอบด้วยวิธีที่รุนแรงเช่นกัน ซึ่งจะทำให้เสียประโยชน์ทั้งคู่ (เช่น คู่แข่งทางธุรกิจ จะไม่อยากใช้วิธีสงครามหั่นราคา เนื่องจากจะเสียผลประโยชน์ทั้งคู่ในที่สุด)

ปล. ความเห็นส่วนตัว เกมที่เราเล่นอยู่ อาจเป็นส่วนหนึ่งของเกมที่ใหญ่กว่า (ทั้งนี้ผมคิดว่า คนที่เชื่อเรื่องบาป บุญ คุณ โทษ และชีวิตหลังความตาย จะมองชีวิตปัจจุบันเป็นเพียงส่วนหนึ่งของเกมเวียนว่ายตายเกิด ซึ่งใหญ่กว่ามากๆ)

ลักษณะการตัดสินใจทางกลยุทธ์ในเกม

สามารถแบ่งออกเป็น 2 แบบใหญ่ๆ คือ 1. ผลัดกันตัดสินใจ 2. ตัดสินใจพร้อมกัน

1. ผลัดกันตัดสินใจ (Sequential Move)

คือการที่แต่ละคนจะผลัดกันตัดสินใจ มีลำดับแน่นอน โดยที่แต่ที่แต่ละฝ่ายรู้ว่าฝ่ายตรงข้ามได้ตัดสินใจอะไรในตาก่อนหน้า (เช่น เกมส์ OX , การเล่นหมากรุก) ซึ่งการเล่นแบบนี้จะสามารถหาวิธีการเล่นที่ดีที่สุดได้โดย การคิดย้อนกลับ (Backward Thinking) ซึ่งอาจใช้การวิเคราะห์ แผนภูมิการตัดสินใจแบบต้นไม้(Tree Diagram) โดยหาผลลัพธ์ที่ดีที่สุดที่ปลายทาง (ต้องพิจารณาแล้วว่าอีกฝ่ายก็ได้เลือกทางที่ดีที่สุดสำหรับอีกฝ่ายเช่นกัน) แล้วไล่ย้อนกลับมาจนถึงการตัดสินใจแรกสุด

ตัวอย่าง หากคุณมีเพื่อนเป็นนักธุรกิจที่เก่งมากมายืมเงินคุณ 1 ล้านบาท บอกว่าจะเอาไปลงทุน ซึ่งคาดว่าใน 1 ปีจะได้เงินคืนมาทั้งหมด 5 ล้านบาท โดยจะแบ่งเงินกันครึ่งๆ คุณจะให้เงินเค้าไปลงทุนหรือไม่??

หากวาด Tree Diagram จะออกมาว่า…

จะเห็นว่าหากเราให้ยืมเงิน เพื่อเราจะต้องโกง เพราะเค้าได้ผลตอบแทนดีกว่า คือได้ 5ลบ. เทียบกับ 2.5 ลบ. (หากเค้าคิดว่าเล่นทีเดียวจบ) ดังนั้นการที่เราได้เลือกก่อน ทางเลือกที่ดีที่สุดของเราคือไม่ให้เงิน เพราะได้ผลตอบแทนที่ดีกว่า คือ 0 เทียบกับ -1 ลบ. นั่นเอง

ตัวอย่าง 2 อันนี้เอามาจากในหนังสือ The Art of Strategy โดยเป็นตัวอย่างเกมที่สามารถแก้ได้โดยการคิดย้อนกลับ ซึ่งเป็นเกมในรายการ Survivor ที่มีผู้เข้าแข่งขัน 2 ทีม

กติกา : มีธงอยู่ทั้งหมด 21 อัน แต่ละทีมสามารถดึงธงออกได้ทีละ 1,2, หรือ 3 อัน (ห้ามดึงมากกว่านี้ใน 1 ตา) โดยให้ผลัดกันเล่นคนละตา ทีมไหนเป็นคนดึงธงอันสุดท้ายได้เป็นคนชนะ

 ถ้าหากคุณเป็นทีมที่เริ่มต้นก่อน คุณจะดึงธงออกกี่อัน จึงจะชนะแน่นอน??? (ใครตอบได้ ลองไปตอบในคอมเมนท์นะครับ)

2. ตัดสินใจพร้อมๆ กัน (Simultaneous)

คือการเล่นเกมที่ต้องตัดสินใจพร้อมๆกัน หรืออาจไม่ได้พร้อมกันซักทีเดียว แต่ไม่รู้ว่าอีกฝ่ายเลือกอะไร เช่น การตัดสินใจในเกมความลำบากใจของนักโทษ (Prisoner’s Dilemma) ซึ่งนิยมใช้การวิเคราะห์โดยใช้ ตารางผลตอบแทน(Payoff Table)

ตัวอย่าง 1 : ในกรณี Prisoner’s Dilemma

B รับสารภาพ B ไม่รับสารภาพ
A รับสารภาพ -10, -10 0, -20
A ไม่รับสารภาพ -20, 0 -1, -1

* เลขในตารางคือผลตอบแทนของแต่ละคน ซึ่งเป็นผลจากการตัดสินใจแต่ละแบบ คือ (ผลตอบแทนนาย A, ผลตอบแทนนาย B)

สมมติว่าเราเป็น A จะเห็นว่า ไม่ว่าอีกฝ่ายจะเลือกอะไร การที่เราสารภาพ จะได้ผลตอบแทนมากกว่าเสมอ (-10 เทียบกับ -20 และ 0 เทียบกับ -1) ซึ่งเราจะเรียก การสารภาพ ว่าเป็น กลยุทธเด่น (Dominant Strategy) ของ A (ในทำนองเดียวกัน กลยุทธ์เด่นของ B ก็คือการสารภาพเช่นกัน) และเมื่อทั้งสองทำตามกลยุทธ์เด่นของตนเอง ผลลัพธ์ก็คือ ทั้งคู่สารภาพ จนในที่สุดก็ต้องจำคุกไปคนละ 10 ปีนั่นเอง… และนี่ก็คือความลำบากใจของนักโทษครับ

หลักการที่สำคัญก็คือ เกมที่เล่นครั้งเดียวจบแบบนี้ ถ้าหากผู้เล่นคนไหนมีกลยุทธ์เด่น ผู้เล่นคนนั้นก็ควรจะทำตามกลยุทธ์เด่นเสมอ (เช่น ถ้าเกมไหนที่เราไม่มีกลยุทธ์เด่น แต่อีกฝ่ายหนึ่งมี เราก็ควรจะ assume ว่าอีกฝ่ายก็ต้องเลือกกลยุทธ์เด่นของตัวเองแน่นอน แล้วเราก็ควรจะเลือกการโต้ตอบที่ให้ผลดีที่สุดสำหรับเรา)

ตัวอย่าง 2 : ผมเอามาจากหนังสือ เอาตัวรอดด้วยทฤษฎีเกม นะครับ เล่มนี้อ่านเข้าใจง่ายมาก

มีสถานีโทรทัศน์อยู่ 2 ช่อง ต้องแข่งกัน และต้องตัดสินใจว่าจะวางผังรายการยังไงโดยที่ไม่รู้ผังของอีกฝั่งหนึ่ง แต่ได้ทำการประมาณการ rating ไว้ดังตาราง
เพื่อนๆ คิดว่าสุดท้ายแล้ว ผลสรุปจะออกมาแบบไหนกันครับ??

สถานีช่อง2
rating เกมโชว์ ละครน้ำเน่า รายการเพลง
สถานีช่อง 1 เกมโชว์ 35,65 10,90 60,40
ละครน้ำเน่า 45,55 55,45 65,35
รายการเพลง 40,60 10,90 75,25

ลองหากลยุทธ์เด่น….จะพบว่า หากเราเป็นสถานีช่อง 1 จะไม่มีกลยุทธ์เด่นเลย  ในทำนองเดียวกัน สถานีช่อง2 ก็ไม่มีกลยุทธ์เด่นเช่นเดียวกัน

แล้วอย่างงี้ทำไง?? ไม่ต้องห่วงครับ ถ้าหากผู้เล่นไม่มีกลยุทธ์เด่น ก็ลองหากลยุทธ์ด้อย (Dominated Strategy) ซึ่งก็คือ ทางเลือกที่ไม่ว่ายังไงก็ห่วยกว่าทางเลือกอื่นทั้งหมด ซึ่งถ้าเป็นคนมีเหตุผลพอ ก็จะต้องไม่เลือกทางนั้นครับ (อีกฝ่ายก็อาจมีกลยุทธ์ด้อยเช่นกัน)

ถ้าลองพิจารณาดูจะพบว่า กลยุทธ์ด้อยของสถานี 1 คือ เกมโชว์ ส่วน กลยุทธ์ด้อยของสถานี 2 ก็คือ รายการเพลง ที่นี้เราก็ตัดมันทิ้งไปเลยครับ จะเหลือตารางแค่

สถานีช่อง2
rating เกมโชว์ ละครน้ำเน่า
สถานีช่อง 1 ละครน้ำเน่า 45,55 55,45
รายการเพลง 40,60 10,90

ซึ่งถ้าพิจารณาแค่นี้ก็จะพบกลยุทธ์เด่นของสถานี 1 คือ ละครน้ำเน่า
ส่วนของสถานี 2 ไม่มีกลยุทธ์เด่น แต่เค้าจะมั่นใจว่าสถานี 1 ต้องเลือกละครน้ำเน่าแน่นอน ทำให้สถานี 2 ต้องเลือก เกมโชว์ ครับ

ซึ่งผลลัพธ์สุดท้ายคือ ละครน้ำเน่า,เกมโชว์ นี้จะเป็นจุดที่ผลตอบแทนของทุกฝ่ายมีเสถียรภาพ นั่นคือ ไม่สามารถมีใครได้ผลตอบแทนที่ดีกว่านี้โดยการเปลี่ยนไปเลือกทางเลือกอื่น จุดสมดุลที่ว่านี้เรียกว่า จุดสมดุลของแนช (Nash Equilibrium) อันโด่งดังนั่นเอง

จริงๆ มีอีกวิธีในการหา Nash Equilibrium
ซึ่งเราสามารถทำได้โดยการเลือกจุดใดจุดหนึ่งในตารางเริ่มต้น (จุดไหนก็ได้) เช่น จุด รายการเพลง,รายการเพลง (75,25)
จะเห็นว่าสถานี 2 ย่อมอยากจะเปลี่ยนไปฉาย ละครน้ำเน่า แทน ซึ่งจะได้เป็น รายการเพลง,ละครน้ำเน่า (10,90)
สถานี 1 ก็จะเปลี่ยนเป็น ละครน้ำเน่า แทน ซึ่งจะได้เป็น ละครน้ำเน่า,ละครน้ำเน่า (55,45)
สถานี 2 ก็จะเปลี่ยนเป็น เกมโชว์ แทน ซึ่งจะได้เป็น ละครน้ำเน่า,เกมโชว์ (45,55)
สถานี 1 ไม่สามารถเปลี่ยนเป็นอะไรที่ดีกว่านี้ได้อีกแล้ว (45 ดีที่สุดแล้ว) ดังนั้น จุดสมดุลของแนชก็คือ จุด ละครน้ำเน่า,เกมโชว์ (45,55) นั่นเอง

ข้อควรระวัง โลกแห่งความเป็นจริงไม่จำเป็นต้องได้ผลลัพธ์ออกมาตามที่ Nash Equilibrium บอกมาเสมอไป เนื่องจากผู้เล่นทั้งสองฝ่ายอาจไม่ได้มีแนวคิดที่มีเหตุผลตามในทฤษฎี แต่หากเล่นซ้ำหลายๆรอบแล้ว จุดสมดุลสุดท้ายมักจะเป็นที่ Nash Equilibrium เพราะผู้เล่นมีประสบการณ์มากพอที่จะมองเกมออกแล้ว

ในตอนนี้ผมขอพอแค่นี้ก่อน ไว้ตอนหน้าจะมาต่อกันที่สถานการณ์อื่นๆ เช่น เกมที่อาจมีจุดสมดุลย์ของแนชมากกว่า 1 จุด แล้วมาดูเราควรจะวิเคราะห์ยังไง?

Tagged on:                 

Comments

  1. ฉัตร says:

    โห…เตรียมจะไปเป็นนักลงทุนเหรอคะ??

  2. Shark says:

    ช่วยอธิบายตารางเปรียบเทียบของสถานีทั้ง 2 อย่างละเอียดให้หน่อยได้ไหมครับ

    พอดีไม่ค่อยจะเก็ทซักเท่าไรนัก ขอแบบว่า ช่องไหนมันคืออะไร และมันได้เปรียบ

    กันยังไงอะไนแบบนี็แหละครับ ….ช่วยหน่อย

  3. Sira Ekabut says:

    ตอบคุณ Shark

    ตารางเปรียบเทียบ 2 สถานี วิธีดูคือ
    เลขตัวหน้า เป็นคะแนนของสถานีที่ 1, เลขตัวหลัง คือ คะแนนของสถานีที่ 2
    แต่ละสถานีจะสามารถเลือกการกระทำของตัวเอง เพื่อให้ได้ผลตอบแทนที่สูงที่สุดเท่าที่ทำได้ (โดยต้องคำนึงถึงการเลือกของอีกฝ่ายด้วย)

    ถ้าลองอ่านดีๆ ทั้ง2 สถานีจะมีกลยุทธ์ด้อยอยู่ (ห่วยจนไม่ว่าอีกฝายจะเลือกอะไร ตัวเองก็จะไม่เลือกทางนี้) เราก็เลยสามารถตัดทางเลือกนั้นทิ้งได้ครับ พอตัดไปแล้วอะไรๆ ก็ดูง่ายขึ้น จนสถานี 1 มีกลยุทธ์เด่นขึ้นมา ทำให้สถานี 2 ก็ต้องเลือกทางที่ดีที่สุดในการต่อกรกับกลยุทธ์เด่นของสถานี 1 นั่นเอง