fork download
  1. from lxml.html import fromstring
  2.  
  3. html = '''
  4. <html>
  5.  
  6. <head>
  7. <title>TEST</title>
  8. </head>
  9.  
  10. <body>
  11. <h1>Test tzw. <em>tag soup</em></h1>
  12. <p>Przykładowy paragraf. (brak /p)
  13. <ul>
  14. <li>Pierwszy wpis(brak /li)
  15. <li>Drugi <em>wpis</em></li>
  16. <li>Wiecej wpisow 1</li>
  17. <li>Wiecej wpisow 2</li>
  18. <li>Wiecej wpisow 3(brak /li)
  19. <li>Wiecej wpisow 4</li>
  20. </ul>
  21.  
  22. <ol>
  23. <li>AA(brak /li)
  24. <li>BB <em>em</em></li>
  25. <li>CC</li>
  26. <li>DD</li>
  27. <li>EE(brak /li)
  28. <li>FF</li>
  29. </ol>
  30. </body>
  31.  
  32. </html>
  33. '''
  34.  
  35. h = fromstring(html)
  36.  
  37. print 'Szukamy elemntow listy numerowanej'
  38. print 'Bez normalizacji:'
  39. for e in h.xpath('//ol/li'):
  40. print '[[' + e.text_content() + ']]'
  41.  
  42. print 'Z normalizacja:'
  43. for e in h.xpath('//ol/li'):
  44. print '[[' + e.xpath('normalize-space()') + ']]'
Success #stdin #stdout 0.12s 14256KB
stdin
Standard input is empty
stdout
Szukamy elemntow listy numerowanej
Bez normalizacji:
[[AA(brak /li)
    ]]
[[BB em]]
[[CC]]
[[DD]]
[[EE(brak /li)
    ]]
[[FF]]
Z normalizacja:
[[AA(brak /li)]]
[[BB em]]
[[CC]]
[[DD]]
[[EE(brak /li)]]
[[FF]]