from lxml.html import fromstring

html = '''
<html>

<head>
  <title>TEST</title>
</head>

<body>
  <h1>Test tzw. <em>tag soup</em></h1>
  <p>Przykładowy paragraf. (brak /p)
  <ul>
    <li>Pierwszy wpis(brak /li)
    <li>Drugi <em>wpis</em></li>
    <li>Wiecej wpisow 1</li>
    <li>Wiecej wpisow 2</li>
    <li>Wiecej wpisow 3(brak /li)
    <li>Wiecej wpisow 4</li>
  </ul>

  <ol>
    <li>AA(brak /li)
    <li>BB <em>em</em></li>
    <li>CC</li>
    <li>DD</li>
    <li>EE(brak /li)
    <li>FF</li>
  </ol>
</body>

</html>
'''

h = fromstring(html)

print 'Szukamy elemntow listy numerowanej'
print 'Bez normalizacji:'
for e in h.xpath('//ol/li'):
	print '[[' + e.text_content() + ']]'
	
print 'Z normalizacja:'
for e in h.xpath('//ol/li'):
	print '[[' + e.xpath('normalize-space()') + ']]'