Ideone.com

fork download

#Проблема с парсингом больших файлов
#Здравствуйте!
#Программа должна перемешивать определённые слова в заданном соотношении. Определенные слова в данном случае Components="Pb" и Components="Cd". Соотношение задается с помощью процентов
#Проблема в том, что в промежуточном файле вывода не все искомые строки. Отсюда, когда искомые слова вставляются на исходные места, файл вывода оказывается в несколько раз короче входного.
import random, re
 
with open("infile.txt",'r') as f:
    lines = f.read()
 
component_1 = re.findall('([^\s].*?Components="Cd".*?)', lines) # что ищем
component_2 = re.findall('([^\s].*?Components="Pb".*?)', lines)
 
def count(com1, com2):
    result = []
    if com1 != 0:
        l_1 = len(com1)
        a = input('Cd ')
    else:
        l_1 = 0
    if com2 != 0:
        l_2 = len(com2)
        b = input('Pb ')
    else:
        l_2 = 0
    if round(l_1//100) < 1:
        nominal_1_proc = round(l_1//100)+1
    else:
        nominal_1_proc = round(l_1//100)
    if round(l_2//100) < 1:
        nominal_2_proc = round(l_2//100)+1
    else:
        nominal_2_proc = round(l_2//100)
    if com1 != 0:
        for x in range(0, int(a*nominal_1_proc)):
            result.append(com1[x])
    if com2 != 0:
        for y in range(0, int(b*nominal_2_proc)):
            result.append(com2[y])
    random.shuffle(result)
    return result
 
fo = open("demooutfile.txt", "w")
for y in count(component_1, component_2):
    fo.write(y)
    fo.write('\n')
fo.close()
 
regex3= re.compile('Components="Pb"|Components="Cd"') # что ищем
with open("infile.txt",'r') as f3:
    lines3 = f3.read()
endpos3=0
match3= regex3.search(lines3,endpos3)
matches3=[] # массив с совпадениями
strings3=[] # все остальное что не совпало, при этом если два совпадения подряд, или начало (конец) строки и совпадение, то в этот массив попадает пустая строка
    # поэтому значения в массивах чередуются относительно целевой строки
while (match3):
 strings3+= [ lines3[endpos3:match3.start()] ]
 endpos3= match3.end()
 matches3+=[match3.group(0)]
 match3= regex3.search(lines3,endpos3)
if (endpos3==len(lines3)): strings3+= [ "" ]
random.shuffle(matches3)
 
regex2= re.compile('Components="Pb"|Components="Cd"') # что ищем
with open("demooutfile.txt",'r') as f2:
    lines2 = f2.read()
endpos2=0
match2= regex2.search(lines2,endpos2)
matches2=[] # массив с совпадениями
strings2=[] # все остальное что не совпало, при этом если два совпадения подряд, или начало (конец) строки и совпадение, то в этот массив попадает пустая строка
    # поэтому значения в массивах чередуются относительно целевой строки
while (match2):
 strings2+= [ lines2[endpos2:match2.start()] ]
 endpos2= match2.end()
 matches2+=[match2.group(0)]
 match2= regex2.search(lines2,endpos2)
if (endpos2==len(lines2)): strings2+= [ "" ]
random.shuffle(matches2)
 
result3= "" # собираем строку обратно с перемешанными данными
for i in range(len(matches2)):
 result3+=strings3[i]+matches2[i]   # вместо исходного массива вставляем искомый
result3+=strings3[-1]
 
with open("outfilenew.txt", "w") as f4:
    f4.write(result3)

I9Cf0YDQvtCx0LvQtdC80LAg0YEg0L/QsNGA0YHQuNC90LPQvtC8INCx0L7Qu9GM0YjQuNGFINGE0LDQudC70L7Qsgoj0JfQtNGA0LDQstGB0YLQstGD0LnRgtC1IQoj0J/RgNC+0LPRgNCw0LzQvNCwINC00L7Qu9C20L3QsCDQv9C10YDQtdC80LXRiNC40LLQsNGC0Ywg0L7Qv9GA0LXQtNC10LvRkdC90L3Ri9C1INGB0LvQvtCy0LAg0LIg0LfQsNC00LDQvdC90L7QvCDRgdC+0L7RgtC90L7RiNC10L3QuNC4LiDQntC/0YDQtdC00LXQu9C10L3QvdGL0LUg0YHQu9C+0LLQsCDQsiDQtNCw0L3QvdC+0Lwg0YHQu9GD0YfQsNC1IENvbXBvbmVudHM9IlBiIiDQuCBDb21wb25lbnRzPSJDZCIuINCh0L7QvtGC0L3QvtGI0LXQvdC40LUg0LfQsNC00LDQtdGC0YHRjyDRgSDQv9C+0LzQvtGJ0YzRjiDQv9GA0L7RhtC10L3RgtC+0LIKI9Cf0YDQvtCx0LvQtdC80LAg0LIg0YLQvtC8LCDRh9GC0L4g0LIg0L/RgNC+0LzQtdC20YPRgtC+0YfQvdC+0Lwg0YTQsNC50LvQtSDQstGL0LLQvtC00LAg0L3QtSDQstGB0LUg0LjRgdC60L7QvNGL0LUg0YHRgtGA0L7QutC4LiDQntGC0YHRjtC00LAsINC60L7Qs9C00LAg0LjRgdC60L7QvNGL0LUg0YHQu9C+0LLQsCDQstGB0YLQsNCy0LvRj9GO0YLRgdGPINC90LAg0LjRgdGF0L7QtNC90YvQtSDQvNC10YHRgtCwLCDRhNCw0LnQuyDQstGL0LLQvtC00LAg0L7QutCw0LfRi9Cy0LDQtdGC0YHRjyDQsiDQvdC10YHQutC+0LvRjNC60L4g0YDQsNC3INC60L7RgNC+0YfQtSDQstGF0L7QtNC90L7Qs9C+LgppbXBvcnQgcmFuZG9tLCByZQoKd2l0aCBvcGVuKCJpbmZpbGUudHh0IiwncicpIGFzIGY6CiAgICBsaW5lcyA9IGYucmVhZCgpCgpjb21wb25lbnRfMSA9IHJlLmZpbmRhbGwoJyhbXlxzXS4qP0NvbXBvbmVudHM9IkNkIi4qPyknLCBsaW5lcykgIyDRh9GC0L4g0LjRidC10LwKY29tcG9uZW50XzIgPSByZS5maW5kYWxsKCcoW15cc10uKj9Db21wb25lbnRzPSJQYiIuKj8pJywgbGluZXMpCgpkZWYgY291bnQoY29tMSwgY29tMik6CiAgICByZXN1bHQgPSBbXQogICAgaWYgY29tMSAhPSAwOgogICAgICAgIGxfMSA9IGxlbihjb20xKQogICAgICAgIGEgPSBpbnB1dCgnQ2QgJykKICAgIGVsc2U6CiAgICAgICAgbF8xID0gMAogICAgaWYgY29tMiAhPSAwOgogICAgICAgIGxfMiA9IGxlbihjb20yKQogICAgICAgIGIgPSBpbnB1dCgnUGIgJykKICAgIGVsc2U6CiAgICAgICAgbF8yID0gMAogICAgaWYgcm91bmQobF8xLy8xMDApIDwgMToKICAgICAgICBub21pbmFsXzFfcHJvYyA9IHJvdW5kKGxfMS8vMTAwKSsxCiAgICBlbHNlOgogICAgICAgIG5vbWluYWxfMV9wcm9jID0gcm91bmQobF8xLy8xMDApCiAgICBpZiByb3VuZChsXzIvLzEwMCkgPCAxOgogICAgICAgIG5vbWluYWxfMl9wcm9jID0gcm91bmQobF8yLy8xMDApKzEKICAgIGVsc2U6CiAgICAgICAgbm9taW5hbF8yX3Byb2MgPSByb3VuZChsXzIvLzEwMCkKICAgIGlmIGNvbTEgIT0gMDoKICAgICAgICBmb3IgeCBpbiByYW5nZSgwLCBpbnQoYSpub21pbmFsXzFfcHJvYykpOgogICAgICAgICAgICByZXN1bHQuYXBwZW5kKGNvbTFbeF0pCiAgICBpZiBjb20yICE9IDA6CiAgICAgICAgZm9yIHkgaW4gcmFuZ2UoMCwgaW50KGIqbm9taW5hbF8yX3Byb2MpKToKICAgICAgICAgICAgcmVzdWx0LmFwcGVuZChjb20yW3ldKQogICAgcmFuZG9tLnNodWZmbGUocmVzdWx0KQogICAgcmV0dXJuIHJlc3VsdAoKZm8gPSBvcGVuKCJkZW1vb3V0ZmlsZS50eHQiLCAidyIpCmZvciB5IGluIGNvdW50KGNvbXBvbmVudF8xLCBjb21wb25lbnRfMik6CiAgICBmby53cml0ZSh5KQogICAgZm8ud3JpdGUoJ1xuJykKZm8uY2xvc2UoKQoKcmVnZXgzPSByZS5jb21waWxlKCdDb21wb25lbnRzPSJQYiJ8Q29tcG9uZW50cz0iQ2QiJykgIyDRh9GC0L4g0LjRidC10LwKd2l0aCBvcGVuKCJpbmZpbGUudHh0IiwncicpIGFzIGYzOgogICAgbGluZXMzID0gZjMucmVhZCgpCmVuZHBvczM9MAptYXRjaDM9IHJlZ2V4My5zZWFyY2gobGluZXMzLGVuZHBvczMpCm1hdGNoZXMzPVtdICMg0LzQsNGB0YHQuNCyINGBINGB0L7QstC/0LDQtNC10L3QuNGP0LzQuApzdHJpbmdzMz1bXSAjINCy0YHQtSDQvtGB0YLQsNC70YzQvdC+0LUg0YfRgtC+INC90LUg0YHQvtCy0L/QsNC70L4sINC/0YDQuCDRjdGC0L7QvCDQtdGB0LvQuCDQtNCy0LAg0YHQvtCy0L/QsNC00LXQvdC40Y8g0L/QvtC00YDRj9C0LCDQuNC70Lgg0L3QsNGH0LDQu9C+ICjQutC+0L3QtdGGKSDRgdGC0YDQvtC60Lgg0Lgg0YHQvtCy0L/QsNC00LXQvdC40LUsINGC0L4g0LIg0Y3RgtC+0YIg0LzQsNGB0YHQuNCyINC/0L7Qv9Cw0LTQsNC10YIg0L/Rg9GB0YLQsNGPINGB0YLRgNC+0LrQsAogICAgIyDQv9C+0Y3RgtC+0LzRgyDQt9C90LDRh9C10L3QuNGPINCyINC80LDRgdGB0LjQstCw0YUg0YfQtdGA0LXQtNGD0Y7RgtGB0Y8g0L7RgtC90L7RgdC40YLQtdC70YzQvdC+INGG0LXQu9C10LLQvtC5INGB0YLRgNC+0LrQuAp3aGlsZSAobWF0Y2gzKToKIHN0cmluZ3MzKz0gWyBsaW5lczNbZW5kcG9zMzptYXRjaDMuc3RhcnQoKV0gXQogZW5kcG9zMz0gbWF0Y2gzLmVuZCgpCiBtYXRjaGVzMys9W21hdGNoMy5ncm91cCgwKV0KIG1hdGNoMz0gcmVnZXgzLnNlYXJjaChsaW5lczMsZW5kcG9zMykKaWYgKGVuZHBvczM9PWxlbihsaW5lczMpKTogc3RyaW5nczMrPSBbICIiIF0KcmFuZG9tLnNodWZmbGUobWF0Y2hlczMpCgpyZWdleDI9IHJlLmNvbXBpbGUoJ0NvbXBvbmVudHM9IlBiInxDb21wb25lbnRzPSJDZCInKSAjINGH0YLQviDQuNGJ0LXQvAp3aXRoIG9wZW4oImRlbW9vdXRmaWxlLnR4dCIsJ3InKSBhcyBmMjoKICAgIGxpbmVzMiA9IGYyLnJlYWQoKQplbmRwb3MyPTAKbWF0Y2gyPSByZWdleDIuc2VhcmNoKGxpbmVzMixlbmRwb3MyKQptYXRjaGVzMj1bXSAjINC80LDRgdGB0LjQsiDRgSDRgdC+0LLQv9Cw0LTQtdC90LjRj9C80LgKc3RyaW5nczI9W10gIyDQstGB0LUg0L7RgdGC0LDQu9GM0L3QvtC1INGH0YLQviDQvdC1INGB0L7QstC/0LDQu9C+LCDQv9GA0Lgg0Y3RgtC+0Lwg0LXRgdC70Lgg0LTQstCwINGB0L7QstC/0LDQtNC10L3QuNGPINC/0L7QtNGA0Y/QtCwg0LjQu9C4INC90LDRh9Cw0LvQviAo0LrQvtC90LXRhikg0YHRgtGA0L7QutC4INC4INGB0L7QstC/0LDQtNC10L3QuNC1LCDRgtC+INCyINGN0YLQvtGCINC80LDRgdGB0LjQsiDQv9C+0L/QsNC00LDQtdGCINC/0YPRgdGC0LDRjyDRgdGC0YDQvtC60LAKICAgICMg0L/QvtGN0YLQvtC80YMg0LfQvdCw0YfQtdC90LjRjyDQsiDQvNCw0YHRgdC40LLQsNGFINGH0LXRgNC10LTRg9GO0YLRgdGPINC+0YLQvdC+0YHQuNGC0LXQu9GM0L3QviDRhtC10LvQtdCy0L7QuSDRgdGC0YDQvtC60LgKd2hpbGUgKG1hdGNoMik6CiBzdHJpbmdzMis9IFsgbGluZXMyW2VuZHBvczI6bWF0Y2gyLnN0YXJ0KCldIF0KIGVuZHBvczI9IG1hdGNoMi5lbmQoKQogbWF0Y2hlczIrPVttYXRjaDIuZ3JvdXAoMCldCiBtYXRjaDI9IHJlZ2V4Mi5zZWFyY2gobGluZXMyLGVuZHBvczIpCmlmIChlbmRwb3MyPT1sZW4obGluZXMyKSk6IHN0cmluZ3MyKz0gWyAiIiBdCnJhbmRvbS5zaHVmZmxlKG1hdGNoZXMyKQoKcmVzdWx0Mz0gIiIgIyDRgdC+0LHQuNGA0LDQtdC8INGB0YLRgNC+0LrRgyDQvtCx0YDQsNGC0L3QviDRgSDQv9C10YDQtdC80LXRiNCw0L3QvdGL0LzQuCDQtNCw0L3QvdGL0LzQuApmb3IgaSBpbiByYW5nZShsZW4obWF0Y2hlczIpKToKIHJlc3VsdDMrPXN0cmluZ3MzW2ldK21hdGNoZXMyW2ldICAgIyDQstC80LXRgdGC0L4g0LjRgdGF0L7QtNC90L7Qs9C+INC80LDRgdGB0LjQstCwINCy0YHRgtCw0LLQu9GP0LXQvCDQuNGB0LrQvtC80YvQuQpyZXN1bHQzKz1zdHJpbmdzM1stMV0KCndpdGggb3Blbigib3V0ZmlsZW5ldy50eHQiLCAidyIpIGFzIGY0OgogICAgZjQud3JpdGUocmVzdWx0MykK

Runtime error #stdin #stdout #stderr 0.02s 10328KB

stdin

Standard input is empty

stdout

Standard output is empty

stderr

Traceback (most recent call last):
  File "prog.py", line 7, in <module>
IOError: [Errno 2] No such file or directory: 'infile.txt'

https://ideone.com/awkx6N

language:

Python (cpython 2.7.16)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language