from lxml.html import fromstring html = ''' TEST

Test tzw. tag soup

Przykładowy paragraf. (brak /p)

Pierwszy wpis(brak /li)
Drugi wpis
Wiecej wpisow 1
Wiecej wpisow 2
Wiecej wpisow 3(brak /li)
Wiecej wpisow 4

AA(brak /li)
BB em
CC
DD
EE(brak /li)
FF

''' h = fromstring(html) print 'Szukamy elemntow listy numerowanej' print 'Bez normalizacji:' for e in h.xpath('//ol/li'): print '[[' + e.text_content() + ']]' print 'Z normalizacja:' for e in h.xpath('//ol/li'): print '[[' + e.xpath('normalize-space()') + ']]'