Ideone.com

download

copy

import numpy as np
import random
np.set_printoptions(precision=4, suppress=True)
 
ROCK, PAPER, SCISSORS = 0, 1, 2
NUM_ACTIONS = 3
 
 
def normalize(strategy):
    strategy = np.copy(strategy)
    normalizingSum = np.sum(strategy)
    if normalizingSum > 0:
        strategy /= normalizingSum
    else:
        strategy = np.ones(NUM_ACTIONS) / NUM_ACTIONS
    return strategy
 
 
def get_strategy(regret_sum):
    return normalize(np.maximum(regret_sum, 0))
 
 
def get_action(strategy):
    strategy = strategy / np.sum(strategy)
    return np.searchsorted(np.cumsum(strategy), random.random())
 
 
def value(p1, p2):
    if p1 == p2:
        return 0
    elif p1 == ROCK and p2 == SCISSORS:
        return 1
    elif p1 == SCISSORS and p2 == PAPER:
        return 1
    elif p1 == PAPER and p2 == ROCK:
        return 1
    return -1
 
 
def train(iterations):
    oppStrategy = np.array([1/3, 1/3, 1/3])
    regretSum = np.zeros(NUM_ACTIONS)
    strategySum = np.zeros(NUM_ACTIONS)
    action_utility = np.zeros(NUM_ACTIONS)
    for i in range(iterations):
 
        # Get regret-matched mixed-strategy actions
        strategy = get_strategy(regretSum)
        strategySum += strategy
        myAction = get_action(strategy)
        otherAction = get_action(oppStrategy)
 
        # Compute action utilities
        action_utility[otherAction] = 0
        action_utility[(otherAction + 1) % NUM_ACTIONS] = 1
        action_utility[(otherAction - 1) % NUM_ACTIONS] = -1
 
        # Accumulate action regrets
        regretSum += action_utility - action_utility[myAction]
    return strategySum
 
 
def train2p(iterations):
    regretSum1 = np.zeros(NUM_ACTIONS)
    strategySum1 = np.zeros(NUM_ACTIONS)
    action_utility = np.zeros(NUM_ACTIONS)
 
    regretSum2 = np.zeros(NUM_ACTIONS)
    strategySum2 = np.zeros(NUM_ACTIONS)
    for i in range(iterations):
        # Get regret-matched mixed-strategy actions
        strategy1 = get_strategy(regretSum1)
        strategy2 = get_strategy(regretSum2)
        strategySum1 += strategy1
        myAction = get_action(normalize(strategy1))
        otherAction = get_action(normalize(strategy2))
 
        # Compute action utilities
        action_utility[otherAction] = 0
        action_utility[(otherAction + 1) % NUM_ACTIONS] = 1
        action_utility[(otherAction - 1) % NUM_ACTIONS] = -1
 
        # Accumulate action regrets
        regretSum1 += action_utility - action_utility[myAction]
        regretSum2 += -(action_utility - action_utility[myAction])
    return strategySum1, strategySum2
 
 
if __name__ == "__main__":
    ITERATIONS = 10000
    trained_strategy = train(ITERATIONS)
    print(normalize(trained_strategy))
 
    trained_strategy1, trained_strategy2 = train2p(ITERATIONS)
    print(normalize(trained_strategy1), normalize(trained_strategy2))

aW1wb3J0IG51bXB5IGFzIG5wCmltcG9ydCByYW5kb20KbnAuc2V0X3ByaW50b3B0aW9ucyhwcmVjaXNpb249NCwgc3VwcHJlc3M9VHJ1ZSkKClJPQ0ssIFBBUEVSLCBTQ0lTU09SUyA9IDAsIDEsIDIKTlVNX0FDVElPTlMgPSAzCgoKZGVmIG5vcm1hbGl6ZShzdHJhdGVneSk6CiAgICBzdHJhdGVneSA9IG5wLmNvcHkoc3RyYXRlZ3kpCiAgICBub3JtYWxpemluZ1N1bSA9IG5wLnN1bShzdHJhdGVneSkKICAgIGlmIG5vcm1hbGl6aW5nU3VtID4gMDoKICAgICAgICBzdHJhdGVneSAvPSBub3JtYWxpemluZ1N1bQogICAgZWxzZToKICAgICAgICBzdHJhdGVneSA9IG5wLm9uZXMoTlVNX0FDVElPTlMpIC8gTlVNX0FDVElPTlMKICAgIHJldHVybiBzdHJhdGVneQoKCmRlZiBnZXRfc3RyYXRlZ3kocmVncmV0X3N1bSk6CiAgICByZXR1cm4gbm9ybWFsaXplKG5wLm1heGltdW0ocmVncmV0X3N1bSwgMCkpCgoKZGVmIGdldF9hY3Rpb24oc3RyYXRlZ3kpOgogICAgc3RyYXRlZ3kgPSBzdHJhdGVneSAvIG5wLnN1bShzdHJhdGVneSkKICAgIHJldHVybiBucC5zZWFyY2hzb3J0ZWQobnAuY3Vtc3VtKHN0cmF0ZWd5KSwgcmFuZG9tLnJhbmRvbSgpKQoKCmRlZiB2YWx1ZShwMSwgcDIpOgogICAgaWYgcDEgPT0gcDI6CiAgICAgICAgcmV0dXJuIDAKICAgIGVsaWYgcDEgPT0gUk9DSyBhbmQgcDIgPT0gU0NJU1NPUlM6CiAgICAgICAgcmV0dXJuIDEKICAgIGVsaWYgcDEgPT0gU0NJU1NPUlMgYW5kIHAyID09IFBBUEVSOgogICAgICAgIHJldHVybiAxCiAgICBlbGlmIHAxID09IFBBUEVSIGFuZCBwMiA9PSBST0NLOgogICAgICAgIHJldHVybiAxCiAgICByZXR1cm4gLTEKCgpkZWYgdHJhaW4oaXRlcmF0aW9ucyk6CiAgICBvcHBTdHJhdGVneSA9IG5wLmFycmF5KFsxLzMsIDEvMywgMS8zXSkKICAgIHJlZ3JldFN1bSA9IG5wLnplcm9zKE5VTV9BQ1RJT05TKQogICAgc3RyYXRlZ3lTdW0gPSBucC56ZXJvcyhOVU1fQUNUSU9OUykKICAgIGFjdGlvbl91dGlsaXR5ID0gbnAuemVyb3MoTlVNX0FDVElPTlMpCiAgICBmb3IgaSBpbiByYW5nZShpdGVyYXRpb25zKToKCiAgICAgICAgIyBHZXQgcmVncmV0LW1hdGNoZWQgbWl4ZWQtc3RyYXRlZ3kgYWN0aW9ucwogICAgICAgIHN0cmF0ZWd5ID0gZ2V0X3N0cmF0ZWd5KHJlZ3JldFN1bSkKICAgICAgICBzdHJhdGVneVN1bSArPSBzdHJhdGVneQogICAgICAgIG15QWN0aW9uID0gZ2V0X2FjdGlvbihzdHJhdGVneSkKICAgICAgICBvdGhlckFjdGlvbiA9IGdldF9hY3Rpb24ob3BwU3RyYXRlZ3kpCgogICAgICAgICMgQ29tcHV0ZSBhY3Rpb24gdXRpbGl0aWVzCiAgICAgICAgYWN0aW9uX3V0aWxpdHlbb3RoZXJBY3Rpb25dID0gMAogICAgICAgIGFjdGlvbl91dGlsaXR5WyhvdGhlckFjdGlvbiArIDEpICUgTlVNX0FDVElPTlNdID0gMQogICAgICAgIGFjdGlvbl91dGlsaXR5WyhvdGhlckFjdGlvbiAtIDEpICUgTlVNX0FDVElPTlNdID0gLTEKCiAgICAgICAgIyBBY2N1bXVsYXRlIGFjdGlvbiByZWdyZXRzCiAgICAgICAgcmVncmV0U3VtICs9IGFjdGlvbl91dGlsaXR5IC0gYWN0aW9uX3V0aWxpdHlbbXlBY3Rpb25dCiAgICByZXR1cm4gc3RyYXRlZ3lTdW0KCgpkZWYgdHJhaW4ycChpdGVyYXRpb25zKToKICAgIHJlZ3JldFN1bTEgPSBucC56ZXJvcyhOVU1fQUNUSU9OUykKICAgIHN0cmF0ZWd5U3VtMSA9IG5wLnplcm9zKE5VTV9BQ1RJT05TKQogICAgYWN0aW9uX3V0aWxpdHkgPSBucC56ZXJvcyhOVU1fQUNUSU9OUykKCiAgICByZWdyZXRTdW0yID0gbnAuemVyb3MoTlVNX0FDVElPTlMpCiAgICBzdHJhdGVneVN1bTIgPSBucC56ZXJvcyhOVU1fQUNUSU9OUykKICAgIGZvciBpIGluIHJhbmdlKGl0ZXJhdGlvbnMpOgogICAgICAgICMgR2V0IHJlZ3JldC1tYXRjaGVkIG1peGVkLXN0cmF0ZWd5IGFjdGlvbnMKICAgICAgICBzdHJhdGVneTEgPSBnZXRfc3RyYXRlZ3kocmVncmV0U3VtMSkKICAgICAgICBzdHJhdGVneTIgPSBnZXRfc3RyYXRlZ3kocmVncmV0U3VtMikKICAgICAgICBzdHJhdGVneVN1bTEgKz0gc3RyYXRlZ3kxCiAgICAgICAgbXlBY3Rpb24gPSBnZXRfYWN0aW9uKG5vcm1hbGl6ZShzdHJhdGVneTEpKQogICAgICAgIG90aGVyQWN0aW9uID0gZ2V0X2FjdGlvbihub3JtYWxpemUoc3RyYXRlZ3kyKSkKCiAgICAgICAgIyBDb21wdXRlIGFjdGlvbiB1dGlsaXRpZXMKICAgICAgICBhY3Rpb25fdXRpbGl0eVtvdGhlckFjdGlvbl0gPSAwCiAgICAgICAgYWN0aW9uX3V0aWxpdHlbKG90aGVyQWN0aW9uICsgMSkgJSBOVU1fQUNUSU9OU10gPSAxCiAgICAgICAgYWN0aW9uX3V0aWxpdHlbKG90aGVyQWN0aW9uIC0gMSkgJSBOVU1fQUNUSU9OU10gPSAtMQoKICAgICAgICAjIEFjY3VtdWxhdGUgYWN0aW9uIHJlZ3JldHMKICAgICAgICByZWdyZXRTdW0xICs9IGFjdGlvbl91dGlsaXR5IC0gYWN0aW9uX3V0aWxpdHlbbXlBY3Rpb25dCiAgICAgICAgcmVncmV0U3VtMiArPSAtKGFjdGlvbl91dGlsaXR5IC0gYWN0aW9uX3V0aWxpdHlbbXlBY3Rpb25dKQogICAgcmV0dXJuIHN0cmF0ZWd5U3VtMSwgc3RyYXRlZ3lTdW0yCgoKaWYgX19uYW1lX18gPT0gIl9fbWFpbl9fIjoKICAgIElURVJBVElPTlMgPSAxMDAwMAogICAgdHJhaW5lZF9zdHJhdGVneSA9IHRyYWluKElURVJBVElPTlMpCiAgICBwcmludChub3JtYWxpemUodHJhaW5lZF9zdHJhdGVneSkpCgogICAgdHJhaW5lZF9zdHJhdGVneTEsIHRyYWluZWRfc3RyYXRlZ3kyID0gdHJhaW4ycChJVEVSQVRJT05TKQogICAgcHJpbnQobm9ybWFsaXplKHRyYWluZWRfc3RyYXRlZ3kxKSwgbm9ybWFsaXplKHRyYWluZWRfc3RyYXRlZ3kyKSkK

Success #stdin #stdout 2.13s 27392KB

stdin

copy

Standard input is empty

stdout

copy

[0.4244 0.481  0.0947]
[0.3382 0.3422 0.3196] [0.3333 0.3333 0.3333]

https://ideone.com/kqpbGt

language:

Python 3 (python 3.9.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language