Ideone.com

fork download

copy

#-*- coding:utf-8 -*-
 
""" A basic lexicographic Similarity algorithm ...part1
    @author: WhiZTiM (Timothy Onogu)
	@copyright: (c) January, 2013
	@NOTE: This algorithm is developed as it is, with the hope
		that it will be useful and I will not be responsible
		for any failures if any arises...
	@contact: whiztim@whiztim.com
"""
from __future__ import division
 
def split_on_delimeters(string, delimeter=":;. \"!,$()-_+=~'`"):
        """splits string upon the occurence of any character in delimeter"""    
        rtn = []
        placeHolder = ""
        for x in string:
                if(not x in delimeter):                 #if current iter is not a delimeter
                        placeHolder = placeHolder + x
                        continue
                if(placeHolder != ""):                  #Not allowed to append empty string
                        rtn.append(placeHolder)
                        placeHolder = ""
                        continue
        if(placeHolder != ""):                          #Add the last item that is not catered for in the "for-loop"
                rtn.append(placeHolder)
        return rtn
def returnbigrams(string):
        """This function returns bigrams"""
        return [string[n:n+2] for n in range(len(string) - 1)]
 
def word_similarity(word1, word2, case_sensitive=False):
        """This function, returns in percentage, how similar the string 'word1' is to 'word2'
           >..>case_sensitive for considering cases"""
        if(not case_sensitive):
                word1 = word1.lower()
                word2 = word2.lower()
        pairs_word1 = returnbigrams(word1)
        pairs_word2 = returnbigrams(word2)
        t = len(pairs_word1) + len(pairs_word2)
 
        sb = 0
        for x in pairs_word1:
                for y in pairs_word2:
                        if(x == y):                     #bigrams match
                                sb += 2.0               #add (1+1=2).. since its found in both.
                                pairs_word2.remove(y)   #we do not need it again
                                break                   #break inner loop
 
        similarity = (sb / t * 100.0)
        return similarity
 
def get_weight(word1, words1):
    w = round((word1 / words1), 3)
    return w
 
 
sent1= "Getting higher on rank oh"
sent2= "Getting on higher rank"
 
list1 =  split_on_delimeters(sent1)
list2 =  split_on_delimeters(sent2)
list1_ratios=[]
weight_list=[] #new array
weighted_similarity_list=[] #new array
sum1 = 0 #new array - used to get sum of words for weight
 
if len(list1) > len(list2):
    for x in list1:
        list2_ratios=[]
        sum1+=len(x) #sum of words is incremented
        for y in list2:
            list2_ratios.append(word_similarity(x,y))
        list1_ratios.append(max(list2_ratios))
 
 
else:
    for x in list2:
        list2_ratios=[]
        sum1+=len(x) #sum of words is incremented
        for y in list1:
            list2_ratios.append(word_similarity(x,y))
        list1_ratios.append(max(list2_ratios))
 
print str(list1_ratios) + " - Similarity list"
 
#Getting weight list
for x in list1:
        weight_list.append( get_weight(len(x), sum1))
print str(weight_list) + " - Weight List of words in LiST 1"
 
#Getting weighted similarity
for x in range(len(weight_list)):
        weighted_similarity_list.append( round((weight_list[x] * list1_ratios[x]),3))
print str(weighted_similarity_list) + " - Weighted similarity  List of words in LiST 1"
 
#Getting similarity
similarity = sum(weighted_similarity_list)
print str(similarity) + " - Similarity"

Iy0qLSBjb2Rpbmc6dXRmLTggLSotCgoiIiIgQSBiYXNpYyBsZXhpY29ncmFwaGljIFNpbWlsYXJpdHkgYWxnb3JpdGhtIC4uLnBhcnQxCiAgICBAYXV0aG9yOiBXaGlaVGlNIChUaW1vdGh5IE9ub2d1KQoJQGNvcHlyaWdodDogKGMpIEphbnVhcnksIDIwMTMKCUBOT1RFOiBUaGlzIGFsZ29yaXRobSBpcyBkZXZlbG9wZWQgYXMgaXQgaXMsIHdpdGggdGhlIGhvcGUKCQl0aGF0IGl0IHdpbGwgYmUgdXNlZnVsIGFuZCBJIHdpbGwgbm90IGJlIHJlc3BvbnNpYmxlCgkJZm9yIGFueSBmYWlsdXJlcyBpZiBhbnkgYXJpc2VzLi4uCglAY29udGFjdDogd2hpenRpbUB3aGl6dGltLmNvbQoiIiIKZnJvbSBfX2Z1dHVyZV9fIGltcG9ydCBkaXZpc2lvbgoKZGVmIHNwbGl0X29uX2RlbGltZXRlcnMoc3RyaW5nLCBkZWxpbWV0ZXI9Ijo7LiBcIiEsJCgpLV8rPX4nYCIpOgogICAgICAgICIiInNwbGl0cyBzdHJpbmcgdXBvbiB0aGUgb2NjdXJlbmNlIG9mIGFueSBjaGFyYWN0ZXIgaW4gZGVsaW1ldGVyIiIiICAgIAogICAgICAgIHJ0biA9IFtdCiAgICAgICAgcGxhY2VIb2xkZXIgPSAiIgogICAgICAgIGZvciB4IGluIHN0cmluZzoKICAgICAgICAgICAgICAgIGlmKG5vdCB4IGluIGRlbGltZXRlcik6ICAgICAgICAgICAgICAgICAjaWYgY3VycmVudCBpdGVyIGlzIG5vdCBhIGRlbGltZXRlcgogICAgICAgICAgICAgICAgICAgICAgICBwbGFjZUhvbGRlciA9IHBsYWNlSG9sZGVyICsgeAogICAgICAgICAgICAgICAgICAgICAgICBjb250aW51ZQogICAgICAgICAgICAgICAgaWYocGxhY2VIb2xkZXIgIT0gIiIpOiAgICAgICAgICAgICAgICAgICNOb3QgYWxsb3dlZCB0byBhcHBlbmQgZW1wdHkgc3RyaW5nCiAgICAgICAgICAgICAgICAgICAgICAgIHJ0bi5hcHBlbmQocGxhY2VIb2xkZXIpCiAgICAgICAgICAgICAgICAgICAgICAgIHBsYWNlSG9sZGVyID0gIiIKICAgICAgICAgICAgICAgICAgICAgICAgY29udGludWUKICAgICAgICBpZihwbGFjZUhvbGRlciAhPSAiIik6ICAgICAgICAgICAgICAgICAgICAgICAgICAjQWRkIHRoZSBsYXN0IGl0ZW0gdGhhdCBpcyBub3QgY2F0ZXJlZCBmb3IgaW4gdGhlICJmb3ItbG9vcCIKICAgICAgICAgICAgICAgIHJ0bi5hcHBlbmQocGxhY2VIb2xkZXIpCiAgICAgICAgcmV0dXJuIHJ0bgpkZWYgcmV0dXJuYmlncmFtcyhzdHJpbmcpOgogICAgICAgICIiIlRoaXMgZnVuY3Rpb24gcmV0dXJucyBiaWdyYW1zIiIiCiAgICAgICAgcmV0dXJuIFtzdHJpbmdbbjpuKzJdIGZvciBuIGluIHJhbmdlKGxlbihzdHJpbmcpIC0gMSldCiAgICAKZGVmIHdvcmRfc2ltaWxhcml0eSh3b3JkMSwgd29yZDIsIGNhc2Vfc2Vuc2l0aXZlPUZhbHNlKToKICAgICAgICAiIiJUaGlzIGZ1bmN0aW9uLCByZXR1cm5zIGluIHBlcmNlbnRhZ2UsIGhvdyBzaW1pbGFyIHRoZSBzdHJpbmcgJ3dvcmQxJyBpcyB0byAnd29yZDInCiAgICAgICAgICAgPi4uPmNhc2Vfc2Vuc2l0aXZlIGZvciBjb25zaWRlcmluZyBjYXNlcyIiIgogICAgICAgIGlmKG5vdCBjYXNlX3NlbnNpdGl2ZSk6CiAgICAgICAgICAgICAgICB3b3JkMSA9IHdvcmQxLmxvd2VyKCkKICAgICAgICAgICAgICAgIHdvcmQyID0gd29yZDIubG93ZXIoKQogICAgICAgIHBhaXJzX3dvcmQxID0gcmV0dXJuYmlncmFtcyh3b3JkMSkKICAgICAgICBwYWlyc193b3JkMiA9IHJldHVybmJpZ3JhbXMod29yZDIpCiAgICAgICAgdCA9IGxlbihwYWlyc193b3JkMSkgKyBsZW4ocGFpcnNfd29yZDIpCiAKICAgICAgICBzYiA9IDAKICAgICAgICBmb3IgeCBpbiBwYWlyc193b3JkMToKICAgICAgICAgICAgICAgIGZvciB5IGluIHBhaXJzX3dvcmQyOgogICAgICAgICAgICAgICAgICAgICAgICBpZih4ID09IHkpOiAgICAgICAgICAgICAgICAgICAgICNiaWdyYW1zIG1hdGNoCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgc2IgKz0gMi4wICAgICAgICAgICAgICAgI2FkZCAoMSsxPTIpLi4gc2luY2UgaXRzIGZvdW5kIGluIGJvdGguCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgcGFpcnNfd29yZDIucmVtb3ZlKHkpICAgI3dlIGRvIG5vdCBuZWVkIGl0IGFnYWluCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgYnJlYWsgICAgICAgICAgICAgICAgICAgI2JyZWFrIGlubmVyIGxvb3AKICAgICAgICAKICAgICAgICBzaW1pbGFyaXR5ID0gKHNiIC8gdCAqIDEwMC4wKQogICAgICAgIHJldHVybiBzaW1pbGFyaXR5CiAgICAKZGVmIGdldF93ZWlnaHQod29yZDEsIHdvcmRzMSk6CiAgICB3ID0gcm91bmQoKHdvcmQxIC8gd29yZHMxKSwgMykKICAgIHJldHVybiB3CiAgICAKICAgIApzZW50MT0gIkdldHRpbmcgaGlnaGVyIG9uIHJhbmsgb2giCnNlbnQyPSAiR2V0dGluZyBvbiBoaWdoZXIgcmFuayIKCmxpc3QxID0gIHNwbGl0X29uX2RlbGltZXRlcnMoc2VudDEpCmxpc3QyID0gIHNwbGl0X29uX2RlbGltZXRlcnMoc2VudDIpCmxpc3QxX3JhdGlvcz1bXQp3ZWlnaHRfbGlzdD1bXSAjbmV3IGFycmF5CndlaWdodGVkX3NpbWlsYXJpdHlfbGlzdD1bXSAjbmV3IGFycmF5CnN1bTEgPSAwICNuZXcgYXJyYXkgLSB1c2VkIHRvIGdldCBzdW0gb2Ygd29yZHMgZm9yIHdlaWdodAoKaWYgbGVuKGxpc3QxKSA+IGxlbihsaXN0Mik6CiAgICBmb3IgeCBpbiBsaXN0MToKICAgICAgICBsaXN0Ml9yYXRpb3M9W10KICAgICAgICBzdW0xKz1sZW4oeCkgI3N1bSBvZiB3b3JkcyBpcyBpbmNyZW1lbnRlZAogICAgICAgIGZvciB5IGluIGxpc3QyOgogICAgICAgICAgICBsaXN0Ml9yYXRpb3MuYXBwZW5kKHdvcmRfc2ltaWxhcml0eSh4LHkpKQogICAgICAgIGxpc3QxX3JhdGlvcy5hcHBlbmQobWF4KGxpc3QyX3JhdGlvcykpCiAgICAKICAgIAplbHNlOgogICAgZm9yIHggaW4gbGlzdDI6CiAgICAgICAgbGlzdDJfcmF0aW9zPVtdCiAgICAgICAgc3VtMSs9bGVuKHgpICNzdW0gb2Ygd29yZHMgaXMgaW5jcmVtZW50ZWQKICAgICAgICBmb3IgeSBpbiBsaXN0MToKICAgICAgICAgICAgbGlzdDJfcmF0aW9zLmFwcGVuZCh3b3JkX3NpbWlsYXJpdHkoeCx5KSkKICAgICAgICBsaXN0MV9yYXRpb3MuYXBwZW5kKG1heChsaXN0Ml9yYXRpb3MpKQogICAgCnByaW50IHN0cihsaXN0MV9yYXRpb3MpICsgIiAtIFNpbWlsYXJpdHkgbGlzdCIKCiNHZXR0aW5nIHdlaWdodCBsaXN0CmZvciB4IGluIGxpc3QxOgogICAgICAgIHdlaWdodF9saXN0LmFwcGVuZCggZ2V0X3dlaWdodChsZW4oeCksIHN1bTEpKQpwcmludCBzdHIod2VpZ2h0X2xpc3QpICsgIiAtIFdlaWdodCBMaXN0IG9mIHdvcmRzIGluIExpU1QgMSIKCiNHZXR0aW5nIHdlaWdodGVkIHNpbWlsYXJpdHkKZm9yIHggaW4gcmFuZ2UobGVuKHdlaWdodF9saXN0KSk6CiAgICAgICAgd2VpZ2h0ZWRfc2ltaWxhcml0eV9saXN0LmFwcGVuZCggcm91bmQoKHdlaWdodF9saXN0W3hdICogbGlzdDFfcmF0aW9zW3hdKSwzKSkKcHJpbnQgc3RyKHdlaWdodGVkX3NpbWlsYXJpdHlfbGlzdCkgKyAiIC0gV2VpZ2h0ZWQgc2ltaWxhcml0eSAgTGlzdCBvZiB3b3JkcyBpbiBMaVNUIDEiCgojR2V0dGluZyBzaW1pbGFyaXR5CnNpbWlsYXJpdHkgPSBzdW0od2VpZ2h0ZWRfc2ltaWxhcml0eV9saXN0KQpwcmludCBzdHIoc2ltaWxhcml0eSkgKyAiIC0gU2ltaWxhcml0eSIKCgoKCgo=

Success #stdin #stdout 0.08s 10840KB

stdin

copy

Standard input is empty

stdout

copy

[100.0, 100.0, 100.0, 100.0, 0.0] - Similarity list
[0.333, 0.286, 0.095, 0.19, 0.095] - Weight List of words in LiST 1
[33.3, 28.6, 9.5, 19.0, 0.0] - Weighted similarity  List of words in LiST 1
90.4 - Similarity

https://ideone.com/qZyAvx

language:

Python (cpython 2.7.16)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language