Ideone.com

fork download

copy

# -*- coding: utf-8 -*-
 
import time
import thread
import urllib2
import logging
 
import lxml.html
 
good_key_in_url = 'profile|search|user'
bad_key_in_url = 'Hello|2ch|ororo'
timeout = 10
max_threads = 100
first_url = 'http://content-available-to-author-only.ru'
 
out = []
received_page = []
path = {'path_to_all_links': ".//*/a/@href"}
logging.basicConfig(
    level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 
def worker(myID, url):
    global out
    global received_page
 
    mutex.acquire()
    logging.info('%s | %s' % ('get', url))
    mutex.release()
 
    try:
        # Get HTML page
        page = urllib2.urlopen(url, None, timeout).read()
    except Exception as e:
        mutex.acquire()
        logging.error('%s | %s' % (url, e))
        mutex.release()
    else:
        # Save url for escape loop
        received_page.append(url)
        # ETree object form HTML
        doc = lxml.html.document_fromstring(page)
        # Get all '<a href' links from page
        etree_links = doc.xpath(path['path_to_all_links'])
        if etree_links:
            # Sort links
            for link in etree_links:
                link = link.encode('utf-8')
                # Check to link loops
                if link not in received_page:
                    # Checking for entry key in the url
                    for key in bad_key_in_url:
                        # Bad links
                        if key in link:
                            break
                    else:
                        for key in good_key_in_url:
                            # Good links
                            if key in link:
                                mutex.acquire()
                                out.append(link)
                                mutex.release()
                                break
 
if __name__ == '__main__':
    good_key_in_url = good_key_in_url.split('|')
    bad_key_in_url = bad_key_in_url.split('|')
    out_file = open('out.txt', 'w')
    mutex = thread.allocate_lock()
    logging.info('run')
 
    i = 0
    out.append(first_url)
    while True:
        if out and len(out) <= max_threads:
            i += 1
            mutex.acquire()
            url = out[0]
            del out[0]
            if url != first_url:
                out_file.write(url+'\n')
            if len(received_page) > 10000:
                received_page = []
                i = 0
            mutex.release()
            thread.start_new_thread(worker, (i, url))
            if thread._count() < 1:
            	time.sleep(5)
        elif thread._count() < 1:
            out_file.close()
            logging.info('exit')
            quit()

IyAtKi0gY29kaW5nOiB1dGYtOCAtKi0KCmltcG9ydCB0aW1lCmltcG9ydCB0aHJlYWQKaW1wb3J0IHVybGxpYjIKaW1wb3J0IGxvZ2dpbmcKCmltcG9ydCBseG1sLmh0bWwKCmdvb2Rfa2V5X2luX3VybCA9ICdwcm9maWxlfHNlYXJjaHx1c2VyJwpiYWRfa2V5X2luX3VybCA9ICdIZWxsb3wyY2h8b3Jvcm8nCnRpbWVvdXQgPSAxMAptYXhfdGhyZWFkcyA9IDEwMApmaXJzdF91cmwgPSAnaHR0cDovL2NvbnRlbnQtYXZhaWxhYmxlLXRvLWF1dGhvci1vbmx5LnJ1JwoKb3V0ID0gW10KcmVjZWl2ZWRfcGFnZSA9IFtdCnBhdGggPSB7J3BhdGhfdG9fYWxsX2xpbmtzJzogIi4vLyovYS9AaHJlZiJ9CmxvZ2dpbmcuYmFzaWNDb25maWcoCiAgICBsZXZlbD1sb2dnaW5nLklORk8sIGZvcm1hdD0nJShhc2N0aW1lKXMgLSAlKGxldmVsbmFtZSlzIC0gJShtZXNzYWdlKXMnKQoKZGVmIHdvcmtlcihteUlELCB1cmwpOgogICAgZ2xvYmFsIG91dAogICAgZ2xvYmFsIHJlY2VpdmVkX3BhZ2UKCiAgICBtdXRleC5hY3F1aXJlKCkKICAgIGxvZ2dpbmcuaW5mbygnJXMgfCAlcycgJSAoJ2dldCcsIHVybCkpCiAgICBtdXRleC5yZWxlYXNlKCkKCiAgICB0cnk6CiAgICAgICAgIyBHZXQgSFRNTCBwYWdlCiAgICAgICAgcGFnZSA9IHVybGxpYjIudXJsb3Blbih1cmwsIE5vbmUsIHRpbWVvdXQpLnJlYWQoKQogICAgZXhjZXB0IEV4Y2VwdGlvbiBhcyBlOgogICAgICAgIG11dGV4LmFjcXVpcmUoKQogICAgICAgIGxvZ2dpbmcuZXJyb3IoJyVzIHwgJXMnICUgKHVybCwgZSkpCiAgICAgICAgbXV0ZXgucmVsZWFzZSgpCiAgICBlbHNlOgogICAgICAgICMgU2F2ZSB1cmwgZm9yIGVzY2FwZSBsb29wCiAgICAgICAgcmVjZWl2ZWRfcGFnZS5hcHBlbmQodXJsKQogICAgICAgICMgRVRyZWUgb2JqZWN0IGZvcm0gSFRNTAogICAgICAgIGRvYyA9IGx4bWwuaHRtbC5kb2N1bWVudF9mcm9tc3RyaW5nKHBhZ2UpCiAgICAgICAgIyBHZXQgYWxsICc8YSBocmVmJyBsaW5rcyBmcm9tIHBhZ2UKICAgICAgICBldHJlZV9saW5rcyA9IGRvYy54cGF0aChwYXRoWydwYXRoX3RvX2FsbF9saW5rcyddKQogICAgICAgIGlmIGV0cmVlX2xpbmtzOgogICAgICAgICAgICAjIFNvcnQgbGlua3MKICAgICAgICAgICAgZm9yIGxpbmsgaW4gZXRyZWVfbGlua3M6CiAgICAgICAgICAgICAgICBsaW5rID0gbGluay5lbmNvZGUoJ3V0Zi04JykKICAgICAgICAgICAgICAgICMgQ2hlY2sgdG8gbGluayBsb29wcwogICAgICAgICAgICAgICAgaWYgbGluayBub3QgaW4gcmVjZWl2ZWRfcGFnZToKICAgICAgICAgICAgICAgICAgICAjIENoZWNraW5nIGZvciBlbnRyeSBrZXkgaW4gdGhlIHVybAogICAgICAgICAgICAgICAgICAgIGZvciBrZXkgaW4gYmFkX2tleV9pbl91cmw6CiAgICAgICAgICAgICAgICAgICAgICAgICMgQmFkIGxpbmtzCiAgICAgICAgICAgICAgICAgICAgICAgIGlmIGtleSBpbiBsaW5rOgogICAgICAgICAgICAgICAgICAgICAgICAgICAgYnJlYWsKICAgICAgICAgICAgICAgICAgICBlbHNlOgogICAgICAgICAgICAgICAgICAgICAgICBmb3Iga2V5IGluIGdvb2Rfa2V5X2luX3VybDoKICAgICAgICAgICAgICAgICAgICAgICAgICAgICMgR29vZCBsaW5rcwogICAgICAgICAgICAgICAgICAgICAgICAgICAgaWYga2V5IGluIGxpbms6CiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgbXV0ZXguYWNxdWlyZSgpCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgb3V0LmFwcGVuZChsaW5rKQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG11dGV4LnJlbGVhc2UoKQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGJyZWFrCgppZiBfX25hbWVfXyA9PSAnX19tYWluX18nOgogICAgZ29vZF9rZXlfaW5fdXJsID0gZ29vZF9rZXlfaW5fdXJsLnNwbGl0KCd8JykKICAgIGJhZF9rZXlfaW5fdXJsID0gYmFkX2tleV9pbl91cmwuc3BsaXQoJ3wnKQogICAgb3V0X2ZpbGUgPSBvcGVuKCdvdXQudHh0JywgJ3cnKQogICAgbXV0ZXggPSB0aHJlYWQuYWxsb2NhdGVfbG9jaygpCiAgICBsb2dnaW5nLmluZm8oJ3J1bicpCgogICAgaSA9IDAKICAgIG91dC5hcHBlbmQoZmlyc3RfdXJsKQogICAgd2hpbGUgVHJ1ZToKICAgICAgICBpZiBvdXQgYW5kIGxlbihvdXQpIDw9IG1heF90aHJlYWRzOgogICAgICAgICAgICBpICs9IDEKICAgICAgICAgICAgbXV0ZXguYWNxdWlyZSgpCiAgICAgICAgICAgIHVybCA9IG91dFswXQogICAgICAgICAgICBkZWwgb3V0WzBdCiAgICAgICAgICAgIGlmIHVybCAhPSBmaXJzdF91cmw6CiAgICAgICAgICAgICAgICBvdXRfZmlsZS53cml0ZSh1cmwrJ1xuJykKICAgICAgICAgICAgaWYgbGVuKHJlY2VpdmVkX3BhZ2UpID4gMTAwMDA6CiAgICAgICAgICAgICAgICByZWNlaXZlZF9wYWdlID0gW10KICAgICAgICAgICAgICAgIGkgPSAwCiAgICAgICAgICAgIG11dGV4LnJlbGVhc2UoKQogICAgICAgICAgICB0aHJlYWQuc3RhcnRfbmV3X3RocmVhZCh3b3JrZXIsIChpLCB1cmwpKQogICAgICAgICAgICBpZiB0aHJlYWQuX2NvdW50KCkgPCAxOgogICAgICAgICAgICAJdGltZS5zbGVlcCg1KQogICAgICAgIGVsaWYgdGhyZWFkLl9jb3VudCgpIDwgMToKICAgICAgICAgICAgb3V0X2ZpbGUuY2xvc2UoKQogICAgICAgICAgICBsb2dnaW5nLmluZm8oJ2V4aXQnKQogICAgICAgICAgICBxdWl0KCk=

Runtime error #stdin #stdout #stderr 0.24s 17120KB

stdin

copy

Standard input is empty

stdout

copy

Standard output is empty

stderr

copy

Traceback (most recent call last):
  File "prog.py", line 68, in <module>
IOError: [Errno 13] Permission denied: 'out.txt'

https://ideone.com/8UCZ2w

language:

Python (cpython 2.7.16)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language