Ideone.com

fork download

copy

#-*- coding:utf-8 -*-
 
""" A basic lexicographic Similarity algorithm ...part1
    @author: WhiZTiM (Timothy Onogu)
	@copyright: (c) January, 2013
	@NOTE: This algorithm is developed as it is, with the hope
		that it will be useful and I will not be responsible
		for any failures if any arises...
	@contact: whiztim@whiztim.com
"""
 
def split_on_delimeters(string, delimeter=":;. \"!,$()-_+=~'`"):
	"""splits string upon the occurence of any character in delimeter"""	
	rtn = []
	placeHolder = ""
	for x in string:
		if(not x in delimeter):			#if current iter is not a delimeter
			placeHolder = placeHolder + x
			continue
		if(placeHolder != ""):			#Not allowed to append empty string
			rtn.append(placeHolder)
			placeHolder = ""
			continue
	if(placeHolder != ""):				#Add the last item that is not catered for in the "for-loop"
		rtn.append(placeHolder)
	return rtn
 
def returnbigrams(string):
	"""This function returns bigrams"""
	return [string[n:n+2] for n in range(len(string) - 1)]
 
def word_similarity(word1, word2, case_sensitive=False):
	"""This function, returns in percentage, how similar the string 'word1' is to 'word2'
	   >..>case_sensitive for considering cases"""
	if(not case_sensitive):
		word1 = word1.lower()
		word2 = word2.lower()
	pairs_word1 = returnbigrams(word1)
	pairs_word2 = returnbigrams(word2)
	t = len(pairs_word1) + len(pairs_word2)
 
	sb = 0
	for x in pairs_word1:
		for y in pairs_word2:
			if(x == y): 			#bigrams match
				sb += 2.0		#add (1+1=2).. since its found in both.
				pairs_word2.remove(y)	#we do not need it again
				break			#break inner loop
 
	similarity = (sb / t * 100.0)
	return similarity
 
sent1= "Getting higher on rank oh"
sent2= "Getting on higher rank"
 
list1 =  split_on_delimeters(sent1)
list2 =  split_on_delimeters(sent2)
list1_ratios=[]
 
if len(list1) > len(list2):
    for x in list1:
        list2_ratios=[]
        for y in list2:
            list2_ratios.append(word_similarity(x,y))
        list1_ratios.append(max(list2_ratios))
    print list1_ratios
else:
    for x in list2:
        list2_ratios=[]
        for y in list1:
            list2_ratios.append(word_similarity(x,y))
        list1_ratios.append(max(list2_ratios))
    print list1_ratios

Iy0qLSBjb2Rpbmc6dXRmLTggLSotCgoiIiIgQSBiYXNpYyBsZXhpY29ncmFwaGljIFNpbWlsYXJpdHkgYWxnb3JpdGhtIC4uLnBhcnQxCiAgICBAYXV0aG9yOiBXaGlaVGlNIChUaW1vdGh5IE9ub2d1KQoJQGNvcHlyaWdodDogKGMpIEphbnVhcnksIDIwMTMKCUBOT1RFOiBUaGlzIGFsZ29yaXRobSBpcyBkZXZlbG9wZWQgYXMgaXQgaXMsIHdpdGggdGhlIGhvcGUKCQl0aGF0IGl0IHdpbGwgYmUgdXNlZnVsIGFuZCBJIHdpbGwgbm90IGJlIHJlc3BvbnNpYmxlCgkJZm9yIGFueSBmYWlsdXJlcyBpZiBhbnkgYXJpc2VzLi4uCglAY29udGFjdDogd2hpenRpbUB3aGl6dGltLmNvbQoiIiIKCmRlZiBzcGxpdF9vbl9kZWxpbWV0ZXJzKHN0cmluZywgZGVsaW1ldGVyPSI6Oy4gXCIhLCQoKS1fKz1+J2AiKToKCSIiInNwbGl0cyBzdHJpbmcgdXBvbiB0aGUgb2NjdXJlbmNlIG9mIGFueSBjaGFyYWN0ZXIgaW4gZGVsaW1ldGVyIiIiCQoJcnRuID0gW10KCXBsYWNlSG9sZGVyID0gIiIKCWZvciB4IGluIHN0cmluZzoKCQlpZihub3QgeCBpbiBkZWxpbWV0ZXIpOgkJCSNpZiBjdXJyZW50IGl0ZXIgaXMgbm90IGEgZGVsaW1ldGVyCgkJCXBsYWNlSG9sZGVyID0gcGxhY2VIb2xkZXIgKyB4CgkJCWNvbnRpbnVlCgkJaWYocGxhY2VIb2xkZXIgIT0gIiIpOgkJCSNOb3QgYWxsb3dlZCB0byBhcHBlbmQgZW1wdHkgc3RyaW5nCgkJCXJ0bi5hcHBlbmQocGxhY2VIb2xkZXIpCgkJCXBsYWNlSG9sZGVyID0gIiIKCQkJY29udGludWUKCWlmKHBsYWNlSG9sZGVyICE9ICIiKToJCQkJI0FkZCB0aGUgbGFzdCBpdGVtIHRoYXQgaXMgbm90IGNhdGVyZWQgZm9yIGluIHRoZSAiZm9yLWxvb3AiCgkJcnRuLmFwcGVuZChwbGFjZUhvbGRlcikKCXJldHVybiBydG4KCmRlZiByZXR1cm5iaWdyYW1zKHN0cmluZyk6CgkiIiJUaGlzIGZ1bmN0aW9uIHJldHVybnMgYmlncmFtcyIiIgoJcmV0dXJuIFtzdHJpbmdbbjpuKzJdIGZvciBuIGluIHJhbmdlKGxlbihzdHJpbmcpIC0gMSldCgpkZWYgd29yZF9zaW1pbGFyaXR5KHdvcmQxLCB3b3JkMiwgY2FzZV9zZW5zaXRpdmU9RmFsc2UpOgoJIiIiVGhpcyBmdW5jdGlvbiwgcmV0dXJucyBpbiBwZXJjZW50YWdlLCBob3cgc2ltaWxhciB0aGUgc3RyaW5nICd3b3JkMScgaXMgdG8gJ3dvcmQyJwoJICAgPi4uPmNhc2Vfc2Vuc2l0aXZlIGZvciBjb25zaWRlcmluZyBjYXNlcyIiIgoJaWYobm90IGNhc2Vfc2Vuc2l0aXZlKToKCQl3b3JkMSA9IHdvcmQxLmxvd2VyKCkKCQl3b3JkMiA9IHdvcmQyLmxvd2VyKCkKCXBhaXJzX3dvcmQxID0gcmV0dXJuYmlncmFtcyh3b3JkMSkKCXBhaXJzX3dvcmQyID0gcmV0dXJuYmlncmFtcyh3b3JkMikKCXQgPSBsZW4ocGFpcnNfd29yZDEpICsgbGVuKHBhaXJzX3dvcmQyKQoKCXNiID0gMAoJZm9yIHggaW4gcGFpcnNfd29yZDE6CgkJZm9yIHkgaW4gcGFpcnNfd29yZDI6CgkJCWlmKHggPT0geSk6IAkJCSNiaWdyYW1zIG1hdGNoCgkJCQlzYiArPSAyLjAJCSNhZGQgKDErMT0yKS4uIHNpbmNlIGl0cyBmb3VuZCBpbiBib3RoLgoJCQkJcGFpcnNfd29yZDIucmVtb3ZlKHkpCSN3ZSBkbyBub3QgbmVlZCBpdCBhZ2FpbgoJCQkJYnJlYWsJCQkjYnJlYWsgaW5uZXIgbG9vcAoJCglzaW1pbGFyaXR5ID0gKHNiIC8gdCAqIDEwMC4wKQoJcmV0dXJuIHNpbWlsYXJpdHkKCnNlbnQxPSAiR2V0dGluZyBoaWdoZXIgb24gcmFuayBvaCIKc2VudDI9ICJHZXR0aW5nIG9uIGhpZ2hlciByYW5rIgoKbGlzdDEgPSAgc3BsaXRfb25fZGVsaW1ldGVycyhzZW50MSkKbGlzdDIgPSAgc3BsaXRfb25fZGVsaW1ldGVycyhzZW50MikKbGlzdDFfcmF0aW9zPVtdCgppZiBsZW4obGlzdDEpID4gbGVuKGxpc3QyKToKICAgIGZvciB4IGluIGxpc3QxOgogICAgICAgIGxpc3QyX3JhdGlvcz1bXQogICAgICAgIGZvciB5IGluIGxpc3QyOgogICAgICAgICAgICBsaXN0Ml9yYXRpb3MuYXBwZW5kKHdvcmRfc2ltaWxhcml0eSh4LHkpKQogICAgICAgIGxpc3QxX3JhdGlvcy5hcHBlbmQobWF4KGxpc3QyX3JhdGlvcykpCiAgICBwcmludCBsaXN0MV9yYXRpb3MKZWxzZToKICAgIGZvciB4IGluIGxpc3QyOgogICAgICAgIGxpc3QyX3JhdGlvcz1bXQogICAgICAgIGZvciB5IGluIGxpc3QxOgogICAgICAgICAgICBsaXN0Ml9yYXRpb3MuYXBwZW5kKHdvcmRfc2ltaWxhcml0eSh4LHkpKQogICAgICAgIGxpc3QxX3JhdGlvcy5hcHBlbmQobWF4KGxpc3QyX3JhdGlvcykpCiAgICBwcmludCBsaXN0MV9yYXRpb3MKCgo=

Success #stdin #stdout 0.09s 10824KB

stdin

copy

Standard input is empty

stdout

copy

[100.0, 100.0, 100.0, 100.0, 0.0]

https://ideone.com/rn9J1H

language:

Python (cpython 2.7.16)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language