Share |

Παρασκευή 19 Ιουνίου 2026

τρίγωνο simplex.

3 στρατηγικές σημαίνει πραγματικό τρίγωνο simplex.

Πάμε με το πιο καθαρό παράδειγμα: Rock–Paper–Scissors (Πέτρα–Ψαλίδι–Χαρτί).

1. Το παιχνίδι (3 στρατηγικές)

Παίκτης 1:

  • R = Πέτρα

  • P = Χαρτί

  • S = Ψαλίδι

Παίκτης 2: ίδια.

Πίνακας αποδόσεων Παίκτη 1 (κλασικό):

A=(011101110)

(Ο Παίκτης 2 έχει το αντίθετο, μηδενικό άθροισμα.)

2. Μικτή στρατηγική και τρίγωνο simplex

Μικτή στρατηγική Παίκτη 1:

p=(pR,pP,pS),pR,pP,pS0,pR+pP+pS=1

Αυτός ο χώρος:

Δ2={(pR,pP,pS):pi0,  pi=1}

είναι τρίγωνο (2‑simplex).

Κάθε σημείο μέσα στο τρίγωνο είναι μια μικτή στρατηγική.

3. Αλγεβρική λύση Nash

Έστω ότι ο Παίκτης 2 παίζει:

q=(qR,qP,qS)

Απόδοση Παίκτη 1 αν παίξει:

  • R:

u1(R)=0qR+(1)qP+1qS=qP+qS
  • P:

u1(P)=1qR+0qP+(1)qS=qRqS
  • S:

u1(S)=(1)qR+1qP+0qS=qR+qP

Στην ισορροπία, ο Παίκτης 1 πρέπει να είναι αδιάφορος ανάμεσα σε R,P,S (για να μπορεί να παίζει και τις 3):

u1(R)=u1(P)=u1(S)

Άρα:

qP+qS=qRqS=qR+qP

Λύνοντας (και με qR+qP+qS=1) παίρνουμε:

qR=qP=qS=13

Ανάλογα για τον Παίκτη 2:

pR=pP=pS=13

👉 Ισορροπία Nash:

p\*=q\*=(13,13,13)

4. Γεωμετρικά: πώς φαίνεται στο τρίγωνο

  • Οι κορυφές του τριγώνου:

    • (1,0,0) → μόνο Πέτρα

    • (0,1,0) → μόνο Χαρτί

    • (0,0,1) → μόνο Ψαλίδι

  • Το σημείο:

(13,13,13)

είναι το κέντρο του τριγώνου (barycenter).

Εκεί:

  • καμία καθαρή στρατηγική δεν είναι καλύτερη από τις άλλες,

  • ο παίκτης είναι αδιάφορος,

  • άρα μπορεί να παίζει και τις 3 με ίση πιθανότητα.

5. Τι κερδίζεις από το τρίγωνο simplex

  • Βλέπεις όλο τον χώρο στρατηγικών σαν γεωμετρικό αντικείμενο.

  • Το Nash είναι ένα σημείο μέσα στο τρίγωνο.

  • Οι best‑response περιοχές είναι υποπεριοχές του τριγώνου.

  • Η τομή τους δίνει το σημείο ισορροπίας.


Το παιχνίδι που θα χρησιμοποιήσουμε είναι το Rock–Paper–Scissors, γιατί είναι το πιο καθαρό 3‑στρατηγικό παιχνίδι με μοναδικό μικτό Nash στο κέντρο του simplex.

🔴 1. ΟΡΙΣΜΟΣ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ (3 στρατηγικές)

Παίκτης 1:

  • R = Πέτρα

  • P = Χαρτί

  • S = Ψαλίδι

Παίκτης 2: ίδια.

Πίνακας αποδόσεων Παίκτη 1:

A=(011101110)

Ο Παίκτης 2 έχει το αντίθετο (μηδενικό άθροισμα).

🔵 2. Ο ΧΩΡΟΣ ΜΙΚΤΩΝ ΣΤΡΑΤΗΓΙΚΩΝ = ΤΡΙΓΩΝΟ SIMPLEX

Μικτή στρατηγική Παίκτη 1:

p=(pR,pP,pS),pi0,pR+pP+pS=1

Αυτός ο χώρος:

Δ2={(pR,pP,pS):pi0,  pi=1}

είναι τρίγωνο.

  • Κορυφή 1: (1,0,0) → μόνο Πέτρα

  • Κορυφή 2: (0,1,0) → μόνο Χαρτί

  • Κορυφή 3: (0,0,1) → μόνο Ψαλίδι

Κάθε σημείο μέσα στο τρίγωνο είναι μια μικτή στρατηγική.

🟣 3. ΑΛΓΕΒΡΙΚΗ ΛΥΣΗ NASH (βήμα‑βήμα)

Έστω ότι ο Παίκτης 2 παίζει:

q=(qR,qP,qS)

Απόδοση Παίκτη 1 αν παίξει:

  • R:

u1(R)=qP+qS
  • P:

u1(P)=qRqS
  • S:

u1(S)=qR+qP

Στην ισορροπία, ο Παίκτης 1 πρέπει να είναι αδιάφορος μεταξύ R, P, S:

qP+qS=qRqS=qR+qP

Με την κανονικοποίηση qR+qP+qS=1, λύση:

qR=qP=qS=13

Ανάλογα για τον Παίκτη 2:

pR=pP=pS=13

👉 Ισορροπία Nash:

p\*=q\*=(13,13,13)

🟢 4. ΜΗΤΡΩΙΚΗ ΛΥΣΗ

Μικτές στρατηγικές:

x=(pRpPpS),y=(qRqPqS)

Απόδοση Παίκτη 1:

U1=xTAy

Υπολογίζουμε:

Ay=(011101110)(qRqPqS)=(qP+qSqRqSqR+qP)

Στην ισορροπία, οι στρατηγικές που παίζονται με θετική πιθανότητα πρέπει να έχουν ίση απόδοση:

qP+qS=qRqS=qR+qP

Λύση:

qR=qP=qS=13

🟡 5. ΓΕΩΜΕΤΡΙΚΗ ΛΥΣΗ (best‑response regions)

Στο τρίγωνο:

  • κάθε σημείο αντιστοιχεί σε μια μικτή στρατηγική

  • οι best‑response περιοχές είναι 3 καμπύλες που χωρίζουν το τρίγωνο

  • η τομή τους είναι ένα σημείο: το κέντρο του τριγώνου

Αυτό το σημείο είναι:

(13,13,13)

🟤 6. LCP (Linear Complementarity Problem) — ιδέα

Το Nash γράφεται ως:

z0,Mz+q0,zT(Mz+q)=0

όπου:

  • z = πιθανότητες + dual μεταβλητές

  • M, q = κατασκευάζονται από τις μήτρες αποδόσεων

Ο αλγόριθμος Lemke–Howson βρίσκει το Nash ακολουθώντας ένα μονοπάτι σε πολυεδρικό γράφο.

Για το RPS, το μονοπάτι καταλήγει στο:

(13,13,13)

🟧 7. NASH ΩΣ ΣΤΑΘΕΡΟ ΣΗΜΕΙΟ BROUWER

Ορίζουμε μια συνεχή απεικόνιση:

f(p)=normalize(max(0,u(p)))

όπου u(p) είναι οι αποδόσεις των καθαρών στρατηγικών.

Το Nash είναι λύση της εξίσωσης:

f(p\*)=p\*

Το θεώρημα Brouwer εγγυάται ότι υπάρχει πάντα τέτοιο σημείο.

🟩 8. PPAD ΕΡΜΗΝΕΙΑ

Το Nash ανήκει στην κλάση:

PPAD

που σημαίνει:

  • υπάρχει πάντα λύση

  • αλλά δεν ξέρουμε αν βρίσκεται σε πολυωνυμικό χρόνο

  • η εύρεση Nash ισορροπίας είναι PPAD‑complete

  • άρα ισοδύναμη με εύρεση σταθερού σημείου Brouwer

🟥 9. ΤΕΛΙΚΗ ΣΥΝΘΕΣΗ — ΟΛΑ ΣΥΓΚΛΙΝΟΥΝ ΣΤΟ ΙΔΙΟ ΣΗΜΕΙΟ

ΑναπαράστασηΤι δείχνειΠού οδηγεί
ΑλγεβρικήΙσοτιμία αποδόσεων1/3,1/3,1/3
ΜήτρεςΓραμμική μορφή1/3,1/3,1/3
SimplexΓεωμετρίαΚέντρο τριγώνου
Best‑responsesΤομέςΚέντρο
LCPΣυμπληρωματικότητα1/3,1/3,1/3
BrouwerΣταθερό σημείο1/3,1/3,1/3
PPADΠολυπλοκότηταΊδιο σημείο

Όλα καταλήγουν στο:

(1/3,1/3,1/3)

Ο αλγόριθμος Lemke–Howson βρίσκει το Nash ακολουθώντας ένα μονοπάτι σε πολυεδρικό γράφο.


Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου