Ideone.com

download

import numpy as np
 
class LiarDieTrainer:
    DOUBT, ACCEPT = 0, 1
 
    class Node:
        u, pPlayer, pOpponent = 0.0, 0.0, 0.0
 
        def __init__(self, numActions):
            self.regretSum = np.zeros(numActions)
            self.strategy = np.zeros(numActions)
            self.strategySum = np.zeros(numActions)
 
        def getStrategy(self):            
            self.strategy = np.maximum(self.regretSum, 0)
            normalizingSum = np.sum(self.strategy)
            if normalizingSum > 0:
                self.strategy /= normalizingSum
            else:
                self.strategy.fill(1.0/len(self.strategy))
            self.strategySum += self.pPlayer * self.strategy
            return self.strategy
 
        def getAverageStrategy(self):
            normalizingSum = np.sum(self.strategySum)
            if normalizingSum > 0:
                self.strategySum /= normalizingSum
            else:
                self.strategySum.fill(1.0/len(self.strategySum))
            return self.strategySum
 
    def __init__(self, sides):
        self.sides = sides
        self.responseNodes = np.empty((sides, sides+1), dtype=self.Node)
        for myClaim in range(sides):
            for oppClaim in range(myClaim+1, sides+1):                
                self.responseNodes[myClaim, oppClaim] = self.Node(1 if oppClaim == sides else 2)
        self.claimNodes = np.empty((sides, sides+1), dtype=self.Node)
        for oppClaim  in range(sides):
            for roll in range(1, sides+1):
                self.claimNodes[oppClaim , roll] = self.Node(sides - oppClaim)
 
    def train(self, iterations):
        regret = np.zeros(self.sides)
        rollAfterAcceptingClaim = np.zeros(self.sides, dtype=int)
        for it in range(iterations):
            for i in range(len(rollAfterAcceptingClaim)):
                rollAfterAcceptingClaim[i] = np.random.randint(self.sides) + 1
            self.claimNodes[0, rollAfterAcceptingClaim[0]].pPlayer = 1
            self.claimNodes[0, rollAfterAcceptingClaim[0]].pOpponent = 1
 
            for oppClaim in range(self.sides+1):
                if oppClaim > 0:
                    for myClaim in range(oppClaim):
                        node = self.responseNodes[myClaim, oppClaim]
                        actionProb = node.getStrategy()
                        if oppClaim < self.sides:
                            nextNode = self.claimNodes[oppClaim, rollAfterAcceptingClaim[oppClaim]]
                            nextNode.pPlayer += actionProb[1] * node.pPlayer
                            nextNode.pOpponent += node.pOpponent
 
                if oppClaim < self.sides:
                    node = self.claimNodes[oppClaim, rollAfterAcceptingClaim[oppClaim]]
                    actionProb = node.getStrategy()
                    for myClaim in range(oppClaim+1, self.sides+1):
                        nextClaimProb = actionProb[myClaim - oppClaim - 1]
                        if nextClaimProb > 0:
                            nextNode = self.responseNodes[oppClaim, myClaim]
                            nextNode.pPlayer += node.pOpponent
                            nextNode.pOpponent += nextClaimProb * node.pPlayer
 
            for oppClaim in reversed(range(self.sides+1)):
                if oppClaim < self.sides:
                    node = self.claimNodes[oppClaim, rollAfterAcceptingClaim[oppClaim]]
                    actionProb = node.strategy
                    node.u = 0.0
                    for myClaim in range(oppClaim+1, self.sides+1):
                        actionIndex = myClaim - oppClaim - 1
                        nextNode = self.responseNodes[oppClaim, myClaim]
                        childUtil = - nextNode.u
                        regret[actionIndex] = childUtil
                        node.u += actionProb[actionIndex] * childUtil
                    for a in range(len(actionProb)):
                        regret[a] -= node.u
                        node.regretSum[a] += node.pOpponent * regret[a]
                    node.pPlayer = node.pOpponent = 0              
 
                if oppClaim > 0:                    
                    for myClaim in range(oppClaim):
                        node = self.responseNodes[myClaim, oppClaim]
                        actionProb = node.strategy
                        node.u = 0.0
                        doubtUtil = 1 if oppClaim > rollAfterAcceptingClaim[myClaim] else -1
                        regret[self.DOUBT] = doubtUtil
                        node.u += actionProb[self.DOUBT] * doubtUtil
                        if oppClaim < self.sides:
                            nextNode = self.claimNodes[oppClaim, rollAfterAcceptingClaim[oppClaim]]
                            regret[self.ACCEPT] += nextNode.u
                            node.u += actionProb[self.ACCEPT] * nextNode.u
                        for a in range(len(actionProb)):
                            regret[a] -= node.u
                            node.regretSum[a] += node.pOpponent * regret[a]
                        node.pPlayer = node.pOpponent = 0
 
            if it == iterations // 2:
                for nodes in self.responseNodes:
                    for node in nodes:
                        if node:
                            node.strategySum.fill(0)
                for nodes in self.claimNodes:
                    for node in nodes:
                        if node:
                            node.strategySum.fill(0)                  
 
        for initialRoll in range(1, self.sides+1):
            print("Initial claim policy with roll %d: %s" % (initialRoll, np.round(self.claimNodes[0, initialRoll].getAverageStrategy(), 2)))       
        print("\nOld Claim\tNew Claim\tAction Probabilities")            
        for myClaim in range(self.sides):
            for oppClaim in range(myClaim+1, self.sides+1):
                print("\t%d\t%d\t%s" % (myClaim, oppClaim, self.responseNodes[myClaim, oppClaim].getAverageStrategy()))
        print("\nOld Claim\tRoll\tAction Probabilities")
        for oppClaim in range(self.sides):
            for roll in range(1, self.sides+1):
                print("%d\t%d\t%s" % (oppClaim , roll, self.claimNodes[oppClaim , roll].getAverageStrategy()))
 
trainer = LiarDieTrainer(6)
trainer.train(1000)

aW1wb3J0IG51bXB5IGFzIG5wCgpjbGFzcyBMaWFyRGllVHJhaW5lcjoKICAgIERPVUJULCBBQ0NFUFQgPSAwLCAxCiAgICAKICAgIGNsYXNzIE5vZGU6CiAgICAgICAgdSwgcFBsYXllciwgcE9wcG9uZW50ID0gMC4wLCAwLjAsIDAuMAogICAgICAgIAogICAgICAgIGRlZiBfX2luaXRfXyhzZWxmLCBudW1BY3Rpb25zKToKICAgICAgICAgICAgc2VsZi5yZWdyZXRTdW0gPSBucC56ZXJvcyhudW1BY3Rpb25zKQogICAgICAgICAgICBzZWxmLnN0cmF0ZWd5ID0gbnAuemVyb3MobnVtQWN0aW9ucykKICAgICAgICAgICAgc2VsZi5zdHJhdGVneVN1bSA9IG5wLnplcm9zKG51bUFjdGlvbnMpCiAgICAgICAgICAgIAogICAgICAgIGRlZiBnZXRTdHJhdGVneShzZWxmKTogICAgICAgICAgICAKICAgICAgICAgICAgc2VsZi5zdHJhdGVneSA9IG5wLm1heGltdW0oc2VsZi5yZWdyZXRTdW0sIDApCiAgICAgICAgICAgIG5vcm1hbGl6aW5nU3VtID0gbnAuc3VtKHNlbGYuc3RyYXRlZ3kpCiAgICAgICAgICAgIGlmIG5vcm1hbGl6aW5nU3VtID4gMDoKICAgICAgICAgICAgICAgIHNlbGYuc3RyYXRlZ3kgLz0gbm9ybWFsaXppbmdTdW0KICAgICAgICAgICAgZWxzZToKICAgICAgICAgICAgICAgIHNlbGYuc3RyYXRlZ3kuZmlsbCgxLjAvbGVuKHNlbGYuc3RyYXRlZ3kpKQogICAgICAgICAgICBzZWxmLnN0cmF0ZWd5U3VtICs9IHNlbGYucFBsYXllciAqIHNlbGYuc3RyYXRlZ3kKICAgICAgICAgICAgcmV0dXJuIHNlbGYuc3RyYXRlZ3kKICAgICAgICAgICAgCiAgICAgICAgZGVmIGdldEF2ZXJhZ2VTdHJhdGVneShzZWxmKToKICAgICAgICAgICAgbm9ybWFsaXppbmdTdW0gPSBucC5zdW0oc2VsZi5zdHJhdGVneVN1bSkKICAgICAgICAgICAgaWYgbm9ybWFsaXppbmdTdW0gPiAwOgogICAgICAgICAgICAgICAgc2VsZi5zdHJhdGVneVN1bSAvPSBub3JtYWxpemluZ1N1bQogICAgICAgICAgICBlbHNlOgogICAgICAgICAgICAgICAgc2VsZi5zdHJhdGVneVN1bS5maWxsKDEuMC9sZW4oc2VsZi5zdHJhdGVneVN1bSkpCiAgICAgICAgICAgIHJldHVybiBzZWxmLnN0cmF0ZWd5U3VtCiAgICAKICAgIGRlZiBfX2luaXRfXyhzZWxmLCBzaWRlcyk6CiAgICAgICAgc2VsZi5zaWRlcyA9IHNpZGVzCiAgICAgICAgc2VsZi5yZXNwb25zZU5vZGVzID0gbnAuZW1wdHkoKHNpZGVzLCBzaWRlcysxKSwgZHR5cGU9c2VsZi5Ob2RlKQogICAgICAgIGZvciBteUNsYWltIGluIHJhbmdlKHNpZGVzKToKICAgICAgICAgICAgZm9yIG9wcENsYWltIGluIHJhbmdlKG15Q2xhaW0rMSwgc2lkZXMrMSk6ICAgICAgICAgICAgICAgIAogICAgICAgICAgICAgICAgc2VsZi5yZXNwb25zZU5vZGVzW215Q2xhaW0sIG9wcENsYWltXSA9IHNlbGYuTm9kZSgxIGlmIG9wcENsYWltID09IHNpZGVzIGVsc2UgMikKICAgICAgICBzZWxmLmNsYWltTm9kZXMgPSBucC5lbXB0eSgoc2lkZXMsIHNpZGVzKzEpLCBkdHlwZT1zZWxmLk5vZGUpCiAgICAgICAgZm9yIG9wcENsYWltICBpbiByYW5nZShzaWRlcyk6CiAgICAgICAgICAgIGZvciByb2xsIGluIHJhbmdlKDEsIHNpZGVzKzEpOgogICAgICAgICAgICAgICAgc2VsZi5jbGFpbU5vZGVzW29wcENsYWltICwgcm9sbF0gPSBzZWxmLk5vZGUoc2lkZXMgLSBvcHBDbGFpbSkKICAgICAgICAgICAgICAgICAgICAKICAgIGRlZiB0cmFpbihzZWxmLCBpdGVyYXRpb25zKToKICAgICAgICByZWdyZXQgPSBucC56ZXJvcyhzZWxmLnNpZGVzKQogICAgICAgIHJvbGxBZnRlckFjY2VwdGluZ0NsYWltID0gbnAuemVyb3Moc2VsZi5zaWRlcywgZHR5cGU9aW50KQogICAgICAgIGZvciBpdCBpbiByYW5nZShpdGVyYXRpb25zKToKICAgICAgICAgICAgZm9yIGkgaW4gcmFuZ2UobGVuKHJvbGxBZnRlckFjY2VwdGluZ0NsYWltKSk6CiAgICAgICAgICAgICAgICByb2xsQWZ0ZXJBY2NlcHRpbmdDbGFpbVtpXSA9IG5wLnJhbmRvbS5yYW5kaW50KHNlbGYuc2lkZXMpICsgMQogICAgICAgICAgICBzZWxmLmNsYWltTm9kZXNbMCwgcm9sbEFmdGVyQWNjZXB0aW5nQ2xhaW1bMF1dLnBQbGF5ZXIgPSAxCiAgICAgICAgICAgIHNlbGYuY2xhaW1Ob2Rlc1swLCByb2xsQWZ0ZXJBY2NlcHRpbmdDbGFpbVswXV0ucE9wcG9uZW50ID0gMQogICAgICAgICAgICAKICAgICAgICAgICAgZm9yIG9wcENsYWltIGluIHJhbmdlKHNlbGYuc2lkZXMrMSk6CiAgICAgICAgICAgICAgICBpZiBvcHBDbGFpbSA+IDA6CiAgICAgICAgICAgICAgICAgICAgZm9yIG15Q2xhaW0gaW4gcmFuZ2Uob3BwQ2xhaW0pOgogICAgICAgICAgICAgICAgICAgICAgICBub2RlID0gc2VsZi5yZXNwb25zZU5vZGVzW215Q2xhaW0sIG9wcENsYWltXQogICAgICAgICAgICAgICAgICAgICAgICBhY3Rpb25Qcm9iID0gbm9kZS5nZXRTdHJhdGVneSgpCiAgICAgICAgICAgICAgICAgICAgICAgIGlmIG9wcENsYWltIDwgc2VsZi5zaWRlczoKICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5leHROb2RlID0gc2VsZi5jbGFpbU5vZGVzW29wcENsYWltLCByb2xsQWZ0ZXJBY2NlcHRpbmdDbGFpbVtvcHBDbGFpbV1dCiAgICAgICAgICAgICAgICAgICAgICAgICAgICBuZXh0Tm9kZS5wUGxheWVyICs9IGFjdGlvblByb2JbMV0gKiBub2RlLnBQbGF5ZXIKICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5leHROb2RlLnBPcHBvbmVudCArPSBub2RlLnBPcHBvbmVudAogICAgICAgIAogICAgICAgICAgICAgICAgaWYgb3BwQ2xhaW0gPCBzZWxmLnNpZGVzOgogICAgICAgICAgICAgICAgICAgIG5vZGUgPSBzZWxmLmNsYWltTm9kZXNbb3BwQ2xhaW0sIHJvbGxBZnRlckFjY2VwdGluZ0NsYWltW29wcENsYWltXV0KICAgICAgICAgICAgICAgICAgICBhY3Rpb25Qcm9iID0gbm9kZS5nZXRTdHJhdGVneSgpCiAgICAgICAgICAgICAgICAgICAgZm9yIG15Q2xhaW0gaW4gcmFuZ2Uob3BwQ2xhaW0rMSwgc2VsZi5zaWRlcysxKToKICAgICAgICAgICAgICAgICAgICAgICAgbmV4dENsYWltUHJvYiA9IGFjdGlvblByb2JbbXlDbGFpbSAtIG9wcENsYWltIC0gMV0KICAgICAgICAgICAgICAgICAgICAgICAgaWYgbmV4dENsYWltUHJvYiA+IDA6CiAgICAgICAgICAgICAgICAgICAgICAgICAgICBuZXh0Tm9kZSA9IHNlbGYucmVzcG9uc2VOb2Rlc1tvcHBDbGFpbSwgbXlDbGFpbV0KICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5leHROb2RlLnBQbGF5ZXIgKz0gbm9kZS5wT3Bwb25lbnQKICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5leHROb2RlLnBPcHBvbmVudCArPSBuZXh0Q2xhaW1Qcm9iICogbm9kZS5wUGxheWVyCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAKICAgICAgICAgICAgZm9yIG9wcENsYWltIGluIHJldmVyc2VkKHJhbmdlKHNlbGYuc2lkZXMrMSkpOgogICAgICAgICAgICAgICAgaWYgb3BwQ2xhaW0gPCBzZWxmLnNpZGVzOgogICAgICAgICAgICAgICAgICAgIG5vZGUgPSBzZWxmLmNsYWltTm9kZXNbb3BwQ2xhaW0sIHJvbGxBZnRlckFjY2VwdGluZ0NsYWltW29wcENsYWltXV0KICAgICAgICAgICAgICAgICAgICBhY3Rpb25Qcm9iID0gbm9kZS5zdHJhdGVneQogICAgICAgICAgICAgICAgICAgIG5vZGUudSA9IDAuMAogICAgICAgICAgICAgICAgICAgIGZvciBteUNsYWltIGluIHJhbmdlKG9wcENsYWltKzEsIHNlbGYuc2lkZXMrMSk6CiAgICAgICAgICAgICAgICAgICAgICAgIGFjdGlvbkluZGV4ID0gbXlDbGFpbSAtIG9wcENsYWltIC0gMQogICAgICAgICAgICAgICAgICAgICAgICBuZXh0Tm9kZSA9IHNlbGYucmVzcG9uc2VOb2Rlc1tvcHBDbGFpbSwgbXlDbGFpbV0KICAgICAgICAgICAgICAgICAgICAgICAgY2hpbGRVdGlsID0gLSBuZXh0Tm9kZS51CiAgICAgICAgICAgICAgICAgICAgICAgIHJlZ3JldFthY3Rpb25JbmRleF0gPSBjaGlsZFV0aWwKICAgICAgICAgICAgICAgICAgICAgICAgbm9kZS51ICs9IGFjdGlvblByb2JbYWN0aW9uSW5kZXhdICogY2hpbGRVdGlsCiAgICAgICAgICAgICAgICAgICAgZm9yIGEgaW4gcmFuZ2UobGVuKGFjdGlvblByb2IpKToKICAgICAgICAgICAgICAgICAgICAgICAgcmVncmV0W2FdIC09IG5vZGUudQogICAgICAgICAgICAgICAgICAgICAgICBub2RlLnJlZ3JldFN1bVthXSArPSBub2RlLnBPcHBvbmVudCAqIHJlZ3JldFthXQogICAgICAgICAgICAgICAgICAgIG5vZGUucFBsYXllciA9IG5vZGUucE9wcG9uZW50ID0gMCAgICAgICAgICAgICAgCiAgICAgICAgICAgICAgICAKICAgICAgICAgICAgICAgIGlmIG9wcENsYWltID4gMDogICAgICAgICAgICAgICAgICAgIAogICAgICAgICAgICAgICAgICAgIGZvciBteUNsYWltIGluIHJhbmdlKG9wcENsYWltKToKICAgICAgICAgICAgICAgICAgICAgICAgbm9kZSA9IHNlbGYucmVzcG9uc2VOb2Rlc1tteUNsYWltLCBvcHBDbGFpbV0KICAgICAgICAgICAgICAgICAgICAgICAgYWN0aW9uUHJvYiA9IG5vZGUuc3RyYXRlZ3kKICAgICAgICAgICAgICAgICAgICAgICAgbm9kZS51ID0gMC4wCiAgICAgICAgICAgICAgICAgICAgICAgIGRvdWJ0VXRpbCA9IDEgaWYgb3BwQ2xhaW0gPiByb2xsQWZ0ZXJBY2NlcHRpbmdDbGFpbVtteUNsYWltXSBlbHNlIC0xCiAgICAgICAgICAgICAgICAgICAgICAgIHJlZ3JldFtzZWxmLkRPVUJUXSA9IGRvdWJ0VXRpbAogICAgICAgICAgICAgICAgICAgICAgICBub2RlLnUgKz0gYWN0aW9uUHJvYltzZWxmLkRPVUJUXSAqIGRvdWJ0VXRpbAogICAgICAgICAgICAgICAgICAgICAgICBpZiBvcHBDbGFpbSA8IHNlbGYuc2lkZXM6CiAgICAgICAgICAgICAgICAgICAgICAgICAgICBuZXh0Tm9kZSA9IHNlbGYuY2xhaW1Ob2Rlc1tvcHBDbGFpbSwgcm9sbEFmdGVyQWNjZXB0aW5nQ2xhaW1bb3BwQ2xhaW1dXQogICAgICAgICAgICAgICAgICAgICAgICAgICAgcmVncmV0W3NlbGYuQUNDRVBUXSArPSBuZXh0Tm9kZS51CiAgICAgICAgICAgICAgICAgICAgICAgICAgICBub2RlLnUgKz0gYWN0aW9uUHJvYltzZWxmLkFDQ0VQVF0gKiBuZXh0Tm9kZS51CiAgICAgICAgICAgICAgICAgICAgICAgIGZvciBhIGluIHJhbmdlKGxlbihhY3Rpb25Qcm9iKSk6CiAgICAgICAgICAgICAgICAgICAgICAgICAgICByZWdyZXRbYV0gLT0gbm9kZS51CiAgICAgICAgICAgICAgICAgICAgICAgICAgICBub2RlLnJlZ3JldFN1bVthXSArPSBub2RlLnBPcHBvbmVudCAqIHJlZ3JldFthXQogICAgICAgICAgICAgICAgICAgICAgICBub2RlLnBQbGF5ZXIgPSBub2RlLnBPcHBvbmVudCA9IDAKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAKICAgICAgICAgICAgaWYgaXQgPT0gaXRlcmF0aW9ucyAvLyAyOgogICAgICAgICAgICAgICAgZm9yIG5vZGVzIGluIHNlbGYucmVzcG9uc2VOb2RlczoKICAgICAgICAgICAgICAgICAgICBmb3Igbm9kZSBpbiBub2RlczoKICAgICAgICAgICAgICAgICAgICAgICAgaWYgbm9kZToKICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5vZGUuc3RyYXRlZ3lTdW0uZmlsbCgwKQogICAgICAgICAgICAgICAgZm9yIG5vZGVzIGluIHNlbGYuY2xhaW1Ob2RlczoKICAgICAgICAgICAgICAgICAgICBmb3Igbm9kZSBpbiBub2RlczoKICAgICAgICAgICAgICAgICAgICAgICAgaWYgbm9kZToKICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5vZGUuc3RyYXRlZ3lTdW0uZmlsbCgwKSAgICAgICAgICAgICAgICAgIAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgCiAgICAgICAgZm9yIGluaXRpYWxSb2xsIGluIHJhbmdlKDEsIHNlbGYuc2lkZXMrMSk6CiAgICAgICAgICAgIHByaW50KCJJbml0aWFsIGNsYWltIHBvbGljeSB3aXRoIHJvbGwgJWQ6ICVzIiAlIChpbml0aWFsUm9sbCwgbnAucm91bmQoc2VsZi5jbGFpbU5vZGVzWzAsIGluaXRpYWxSb2xsXS5nZXRBdmVyYWdlU3RyYXRlZ3koKSwgMikpKSAgICAgICAKICAgICAgICBwcmludCgiXG5PbGQgQ2xhaW1cdE5ldyBDbGFpbVx0QWN0aW9uIFByb2JhYmlsaXRpZXMiKSAgICAgICAgICAgIAogICAgICAgIGZvciBteUNsYWltIGluIHJhbmdlKHNlbGYuc2lkZXMpOgogICAgICAgICAgICBmb3Igb3BwQ2xhaW0gaW4gcmFuZ2UobXlDbGFpbSsxLCBzZWxmLnNpZGVzKzEpOgogICAgICAgICAgICAgICAgcHJpbnQoIlx0JWRcdCVkXHQlcyIgJSAobXlDbGFpbSwgb3BwQ2xhaW0sIHNlbGYucmVzcG9uc2VOb2Rlc1tteUNsYWltLCBvcHBDbGFpbV0uZ2V0QXZlcmFnZVN0cmF0ZWd5KCkpKQogICAgICAgIHByaW50KCJcbk9sZCBDbGFpbVx0Um9sbFx0QWN0aW9uIFByb2JhYmlsaXRpZXMiKQogICAgICAgIGZvciBvcHBDbGFpbSBpbiByYW5nZShzZWxmLnNpZGVzKToKICAgICAgICAgICAgZm9yIHJvbGwgaW4gcmFuZ2UoMSwgc2VsZi5zaWRlcysxKToKICAgICAgICAgICAgICAgIHByaW50KCIlZFx0JWRcdCVzIiAlIChvcHBDbGFpbSAsIHJvbGwsIHNlbGYuY2xhaW1Ob2Rlc1tvcHBDbGFpbSAsIHJvbGxdLmdldEF2ZXJhZ2VTdHJhdGVneSgpKSkKICAgICAgICAKdHJhaW5lciA9IExpYXJEaWVUcmFpbmVyKDYpCnRyYWluZXIudHJhaW4oMTAwMCkK

Success #stdin #stdout 0.77s 25004KB

stdin

Standard input is empty

stdout

Initial claim policy with roll 1: [ 1.  0.  0.  0.  0.  0.]
Initial claim policy with roll 2: [ 0.  1.  0.  0.  0.  0.]
Initial claim policy with roll 3: [ 0.  0.  1.  0.  0.  0.]
Initial claim policy with roll 4: [ 0.  0.  0.  1.  0.  0.]
Initial claim policy with roll 5: [ 0.  0.  0.  0.  1.  0.]
Initial claim policy with roll 6: [ 0.  0.  0.  0.  0.  1.]

Old Claim	New Claim	Action Probabilities
	0	1	[ 0.22093023  0.77906977]
	0	2	[ 0.34375  0.65625]
	0	3	[ 0.29577465  0.70422535]
	0	4	[ 0.5  0.5]
	0	5	[ 1.  0.]
	0	6	[ 1.]
	1	2	[ 0.5  0.5]
	1	3	[ 0.5  0.5]
	1	4	[ 1.  0.]
	1	5	[ 1.  0.]
	1	6	[ 1.]
	2	3	[ 1.  0.]
	2	4	[ 1.  0.]
	2	5	[ 1.  0.]
	2	6	[ 1.]
	3	4	[ 1.  0.]
	3	5	[ 1.  0.]
	3	6	[ 1.]
	4	5	[ 1.  0.]
	4	6	[ 1.]
	5	6	[ 1.]

Old Claim	Roll	Action Probabilities
0	1	[ 0.99568448  0.          0.          0.00431552  0.          0.        ]
0	2	[  2.68099742e-04   9.99731900e-01   0.00000000e+00   0.00000000e+00
   0.00000000e+00   0.00000000e+00]
0	3	[ 0.  0.  1.  0.  0.  0.]
0	4	[ 0.  0.  0.  1.  0.  0.]
0	5	[ 0.  0.  0.  0.  1.  0.]
0	6	[ 0.  0.  0.  0.  0.  1.]
1	1	[ 0.6040523  0.3959477  0.         0.         0.       ]
1	2	[ 1.  0.  0.  0.  0.]
1	3	[ 0.  1.  0.  0.  0.]
1	4	[ 0.          0.08349967  0.91650033  0.          0.        ]
1	5	[ 0.   0.   0.5  0.5  0. ]
1	6	[ 0.          0.          0.33333333  0.33333333  0.33333333]
2	1	[ 1.  0.  0.  0.]
2	2	[ 1.  0.  0.  0.]
2	3	[ 1.  0.  0.  0.]
2	4	[ 0.  1.  0.  0.]
2	5	[ 0.   0.5  0.5  0. ]
2	6	[ 0.   0.   0.5  0.5]
3	1	[ 0.33333333  0.33333333  0.33333333]
3	2	[ 0.28571429  0.71428571  0.        ]
3	3	[ 0.33333333  0.33333333  0.33333333]
3	4	[ 1.  0.  0.]
3	5	[ 0.5  0.5  0. ]
3	6	[ 0.33333333  0.33333333  0.33333333]
4	1	[ 0.5  0.5]
4	2	[ 1.  0.]
4	3	[ 0.5  0.5]
4	4	[ 0.5  0.5]
4	5	[ 1.  0.]
4	6	[ 0.5  0.5]
5	1	[ 1.]
5	2	[ 1.]
5	3	[ 1.]
5	4	[ 1.]
5	5	[ 1.]
5	6	[ 1.]

https://ideone.com/9k9IN7

language:

Python 3 (python 3.9.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language