Ideone.com

fork download

copy

# -*- coding: utf-8 -*-
'''
A most frequent k-mer with up to d mismatches in Text is simply a string Pattern maximizing Countd(Text, Pattern) among all k-mers. Note that Pattern does not need to actually appear as a substring of Text; for example, as we saw above, AAAAA is the most frequent 5-mer with 1 mismatch in AACAAGCTGATAAACATTTAAAGAG, even though it does not appear exactly in this string. Keep this in mind while solving the following problem:
 
Frequent Words with Mismatches Problem: Find the most frequent k-mers with mismatches in a string.
     Input: A string Text as well as integers k and d. (You may assume k ≤ 12 and d ≤ 3.)
     Output: All most frequent k-mers with up to d mismatches in Text.
 
CODE CHALLENGE: Solve the Frequent Words with Mismatches Problem.
 
Sample Input:
     CGCCTAAATAGCCTCGCGGAGCCTTATGTCATACTCGTCCT
Sample Output:
     GATG ATGC ATGT
'''
 
#define kmers long 4
s = 'CGCCTAAATAGCCTCGCGGAGCCTTATGTCATACTCGTCCT'
motif_len = 3
motif_dict = {}
mismatch = 1
 
print('Sequence = ' + s)
 
#find unique k-mers in the sequence
for i in range(len(s)-motif_len):
	motif = s[i:i+motif_len]
	if motif not in motif_dict:
		motif_dict[motif] = 1
	else:
		motif_dict[motif] += 1
 
#1: generate a list of motif
motif_list = []
for k in motif_dict:
	motif_list.append(k)
print('Motifs found : '),
 
#2: check where the motifs are [wrongly commented]
dict = {}
input = s
ylist = []
for item in motif_list:
	motif = item
	results = []
	y = 0
	for n in range(len(input)-len(motif)+1):
		counter = 0
		sample = input[n:n+len(motif)]
		for i in range(len(sample)):
			if sample[i] == motif[i]:
				pass
			else:
				counter += 1
		if counter <= mismatch:
			results.append(n)
 
	dict[item] = []
	for value in results:
		dict[item].append(value)
		y += 1
	ylist.append(y)
 
print('\nProgram Output:'),
final_list = []
for item in dict:
	if len(dict[item]) == max(ylist):
		print(item),
		final_list.append([item, dict[item]])
#print('')
print(final_list)
 
n=0
for n in range(len(final_list)):
	for m in range(max(ylist)):
		f = final_list[n][1][m]
		final_list[n][1][m] = s[f:f+motif_len]
#for item in final_list:
	#for n in range(len(item[1])):
		#print(item[1][n])
		#define the consensus sequence -> to do but not necessary for this case
		#for k in range(len(dict[item])): final_list[item].append(dict[item])
#list founded k-mers
print('\nSample  Output: GATG ATGC ATGT') 	#same values, different order. It doesn't matter

IyAtKi0gY29kaW5nOiB1dGYtOCAtKi0KJycnCkEgbW9zdCBmcmVxdWVudCBrLW1lciB3aXRoIHVwIHRvIGQgbWlzbWF0Y2hlcyBpbiBUZXh0IGlzIHNpbXBseSBhIHN0cmluZyBQYXR0ZXJuIG1heGltaXppbmcgQ291bnRkKFRleHQsIFBhdHRlcm4pIGFtb25nIGFsbCBrLW1lcnMuIE5vdGUgdGhhdCBQYXR0ZXJuIGRvZXMgbm90IG5lZWQgdG8gYWN0dWFsbHkgYXBwZWFyIGFzIGEgc3Vic3RyaW5nIG9mIFRleHQ7IGZvciBleGFtcGxlLCBhcyB3ZSBzYXcgYWJvdmUsIEFBQUFBIGlzIHRoZSBtb3N0IGZyZXF1ZW50IDUtbWVyIHdpdGggMSBtaXNtYXRjaCBpbiBBQUNBQUdDVEdBVEFBQUNBVFRUQUFBR0FHLCBldmVuIHRob3VnaCBpdCBkb2VzIG5vdCBhcHBlYXIgZXhhY3RseSBpbiB0aGlzIHN0cmluZy4gS2VlcCB0aGlzIGluIG1pbmQgd2hpbGUgc29sdmluZyB0aGUgZm9sbG93aW5nIHByb2JsZW06CgpGcmVxdWVudCBXb3JkcyB3aXRoIE1pc21hdGNoZXMgUHJvYmxlbTogRmluZCB0aGUgbW9zdCBmcmVxdWVudCBrLW1lcnMgd2l0aCBtaXNtYXRjaGVzIGluIGEgc3RyaW5nLgogICAgIElucHV0OiBBIHN0cmluZyBUZXh0IGFzIHdlbGwgYXMgaW50ZWdlcnMgayBhbmQgZC4gKFlvdSBtYXkgYXNzdW1lIGsg4omkIDEyIGFuZCBkIOKJpCAzLikKICAgICBPdXRwdXQ6IEFsbCBtb3N0IGZyZXF1ZW50IGstbWVycyB3aXRoIHVwIHRvIGQgbWlzbWF0Y2hlcyBpbiBUZXh0LgoKQ09ERSBDSEFMTEVOR0U6IFNvbHZlIHRoZSBGcmVxdWVudCBXb3JkcyB3aXRoIE1pc21hdGNoZXMgUHJvYmxlbS4KClNhbXBsZSBJbnB1dDoKICAgICBDR0NDVEFBQVRBR0NDVENHQ0dHQUdDQ1RUQVRHVENBVEFDVENHVENDVApTYW1wbGUgT3V0cHV0OgogICAgIEdBVEcgQVRHQyBBVEdUCicnJwogCiNkZWZpbmUga21lcnMgbG9uZyA0CnMgPSAnQ0dDQ1RBQUFUQUdDQ1RDR0NHR0FHQ0NUVEFUR1RDQVRBQ1RDR1RDQ1QnCm1vdGlmX2xlbiA9IDMKbW90aWZfZGljdCA9IHt9Cm1pc21hdGNoID0gMQogCnByaW50KCdTZXF1ZW5jZSA9ICcgKyBzKQogCiNmaW5kIHVuaXF1ZSBrLW1lcnMgaW4gdGhlIHNlcXVlbmNlCmZvciBpIGluIHJhbmdlKGxlbihzKS1tb3RpZl9sZW4pOgoJbW90aWYgPSBzW2k6aSttb3RpZl9sZW5dCglpZiBtb3RpZiBub3QgaW4gbW90aWZfZGljdDoKCQltb3RpZl9kaWN0W21vdGlmXSA9IDEKCWVsc2U6CgkJbW90aWZfZGljdFttb3RpZl0gKz0gMQogCiMxOiBnZW5lcmF0ZSBhIGxpc3Qgb2YgbW90aWYKbW90aWZfbGlzdCA9IFtdCmZvciBrIGluIG1vdGlmX2RpY3Q6Cgltb3RpZl9saXN0LmFwcGVuZChrKQpwcmludCgnTW90aWZzIGZvdW5kIDogJyksCiAKIzI6IGNoZWNrIHdoZXJlIHRoZSBtb3RpZnMgYXJlIFt3cm9uZ2x5IGNvbW1lbnRlZF0KZGljdCA9IHt9CmlucHV0ID0gcwp5bGlzdCA9IFtdCmZvciBpdGVtIGluIG1vdGlmX2xpc3Q6Cgltb3RpZiA9IGl0ZW0KCXJlc3VsdHMgPSBbXQoJeSA9IDAKCWZvciBuIGluIHJhbmdlKGxlbihpbnB1dCktbGVuKG1vdGlmKSsxKToKCQljb3VudGVyID0gMAoJCXNhbXBsZSA9IGlucHV0W246bitsZW4obW90aWYpXQoJCWZvciBpIGluIHJhbmdlKGxlbihzYW1wbGUpKToKCQkJaWYgc2FtcGxlW2ldID09IG1vdGlmW2ldOgoJCQkJcGFzcwoJCQllbHNlOgoJCQkJY291bnRlciArPSAxCgkJaWYgY291bnRlciA8PSBtaXNtYXRjaDoKCQkJcmVzdWx0cy5hcHBlbmQobikKCQoJZGljdFtpdGVtXSA9IFtdCglmb3IgdmFsdWUgaW4gcmVzdWx0czoKCQlkaWN0W2l0ZW1dLmFwcGVuZCh2YWx1ZSkKCQl5ICs9IDEKCXlsaXN0LmFwcGVuZCh5KQoJCnByaW50KCdcblByb2dyYW0gT3V0cHV0OicpLApmaW5hbF9saXN0ID0gW10KZm9yIGl0ZW0gaW4gZGljdDoKCWlmIGxlbihkaWN0W2l0ZW1dKSA9PSBtYXgoeWxpc3QpOgoJCXByaW50KGl0ZW0pLAoJCWZpbmFsX2xpc3QuYXBwZW5kKFtpdGVtLCBkaWN0W2l0ZW1dXSkKI3ByaW50KCcnKQpwcmludChmaW5hbF9saXN0KQogCm49MApmb3IgbiBpbiByYW5nZShsZW4oZmluYWxfbGlzdCkpOgoJZm9yIG0gaW4gcmFuZ2UobWF4KHlsaXN0KSk6CgkJZiA9IGZpbmFsX2xpc3Rbbl1bMV1bbV0KCQlmaW5hbF9saXN0W25dWzFdW21dID0gc1tmOmYrbW90aWZfbGVuXQojZm9yIGl0ZW0gaW4gZmluYWxfbGlzdDoKCSNmb3IgbiBpbiByYW5nZShsZW4oaXRlbVsxXSkpOgoJCSNwcmludChpdGVtWzFdW25dKQoJCSNkZWZpbmUgdGhlIGNvbnNlbnN1cyBzZXF1ZW5jZSAtPiB0byBkbyBidXQgbm90IG5lY2Vzc2FyeSBmb3IgdGhpcyBjYXNlCgkJI2ZvciBrIGluIHJhbmdlKGxlbihkaWN0W2l0ZW1dKSk6IGZpbmFsX2xpc3RbaXRlbV0uYXBwZW5kKGRpY3RbaXRlbV0pCiNsaXN0IGZvdW5kZWQgay1tZXJzCnByaW50KCdcblNhbXBsZSAgT3V0cHV0OiBHQVRHIEFUR0MgQVRHVCcpIAkjc2FtZSB2YWx1ZXMsIGRpZmZlcmVudCBvcmRlci4gSXQgZG9lc24ndCBtYXR0ZXI=

Success #stdin #stdout 0.05s 65532KB

stdin

copy

Standard input is empty

stdout

copy

Sequence = CGCCTAAATAGCCTCGCGGAGCCTTATGTCATACTCGTCCT
Motifs found :  
Program Output: CGT [['CGT', [0, 2, 11, 14, 16, 21, 22, 26, 29, 35, 38]]]

Sample  Output: GATG ATGC ATGT

https://ideone.com/5Rizoz

language:

Python (PyPy 2.7.13)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language