Ideone.com

download

import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
import sys
 
# Define your headers once, at the top
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
 
# --- Helper function for text normalization ---
def normalize_text(text):
    """
    Normalize text for more robust duplicate checking.
    Converts to lowercase, standardizes internal whitespace.
    You can add more normalization steps here if needed.
    """
    if not isinstance(text, str):
         return "" # Handle non-string input gracefully
 
    # 1. Convert to lowercase
    text = text.lower()
    # 2. Replace various whitespace characters with a single space
    #    This handles spaces, tabs, newlines, non-breaking spaces (\xa0), etc.
    text = re.sub(r'\s+', ' ', text).strip()
    # 3. Optional: Remove or replace problematic characters (e.g., zero-width space \u200b)
    text = text.replace('\u200b', '') # Example: remove zero width space
 
    # Optional: More advanced Unicode normalization if character representation is an issue
    # text = unicodedata.normalize('NFC', text)
 
    return text
 
# --- Core Scraping Functions ---
 
def get_total_pages(url):
    """
    Look inside the .entry container for any <a> tags whose text is a digit.
    Returns the highest digit found, or 1 if none or error.
    """
    print(f"Attempting to find total pages from: {url}")
    try:
        response = requests.get(url, headers=HEADERS, timeout=30)
        response.raise_for_status() # Raise an exception for bad status codes (4xx or 5xx)
        soup = bs(response.text, 'html.parser')
        content_div = soup.select_one('.entry')
        if not content_div:
            print("Warning: Could not find .entry container for pagination.")
            return 1
 
        page_numbers = []
        # Look for pagination links within or near the content area
        # Common selectors for pagination: div.page-links, div.pagination, .entry a
        # Sticking to original scope (.entry a) but mentioning alternatives
        pagination_candidates = content_div.select('a') # Look at all links in .entry
 
        for a in pagination_candidates:
             try:
                # Get text including text from nested elements like <span>
                text = a.get_text(strip=True)
                if text.isdigit():
                    page_numbers.append(int(text))
             except ValueError:
                # Ignore links whose text is not purely a digit
                pass
             except Exception as e:
                 print(f"Error processing pagination link text: {e}")
 
 
        print(f"Found potential page numbers: {page_numbers}")
 
        return max(page_numbers) if page_numbers else 1
 
    except requests.exceptions.RequestException as e:
        print(f"Error fetching total pages from {url}: {e}")
        return 1 # Assume 1 page on error
    except Exception as e:
        print(f"An unexpected error occurred while getting total pages from {url}: {e}")
        return 1 # Assume 1 page on unexpected error
 
 
def parse_page_content(url, seen_texts, debug=False, page_number=1, normalize=True):
    """
    Return only _new_ paragraphs (compared to seen_texts).
    Includes optional text normalization for more robust duplicate detection.
    """
    print(f"Scraping content from page {page_number} ({url})")
    try:
        response = requests.get(url, headers=HEADERS, timeout=30)
        response.raise_for_status() # Raise an exception for bad status codes
        soup = bs(response.text, 'html.parser')
 
        # Remove non-content elements - ADDED header/footer as common areas for repetition
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
        for sel in selectors_to_decompose:
            for tag in soup.select(sel):
                tag.decompose()
 
        content_div = soup.select_one('.entry')
        if not content_div:
            if debug:
                 print(f"Warning: Could not find .entry container on page {page_number}.")
            return [] # Return empty list if main content div is not found
 
        out = []
        for p in content_div.find_all('p'):
            original_text = p.get_text(strip=True)
 
            # Skip empty paragraphs after stripping
            if not original_text:
                 if debug:
                      print(f"Skipping empty paragraph on page {page_number}.")
                 continue
 
            # Apply normalization for the check
            text_to_check = normalize_text(original_text) if normalize else original_text
 
            # --- Duplicate Check ---
            # Use the normalized/checked text for the set lookup and add
            if text_to_check not in seen_texts:
                seen_texts.add(text_to_check)
                # Add the *original* text to the output list
                out.append(original_text)
                if debug:
                    # Print start of checked text when adding new
                    print(f"Added new paragraph (checked text): {text_to_check[:100]}...")
            elif debug:
                # This message confirms the duplicate detection is working for the *checked* text
                # Print start of checked text when skipping duplicate
                print(f"Duplicate (or similar) text found on page {page_number}, skipping (checked text): {text_to_check[:100]}...")
 
 
        if debug:
            print(f"Page {page_number}: Found {len(out)} new paragraphs added to output.")
            print(f"Seen texts set size: {len(seen_texts)}")
            # print a sample of seen texts (the checked version)
            seen_sample = list(seen_texts)[:min(5, len(seen_texts))]
            print(f"Seen texts sample (checked version): {seen_sample}")
 
 
        return out
 
    except requests.exceptions.RequestException as e:
        print(f"Error fetching content from page {page_number} ({url}): {e}")
        return [] # Return empty list on error
    except Exception as e:
        print(f"An unexpected error occurred while parsing page {page_number} ({url}): {e}")
        return [] # Return empty list on unexpected error
 
 
def get_next_page_url(base_url, page_number):
    """Append '/2/', '/3/' etc., but leave Page 1 as-is."""
    if page_number <= 1:
        return base_url
    # Ensure base_url doesn't end with a slash already before adding page number
    next_url = base_url.rstrip('/') + f'/{page_number}/'
    # print(f"Generated URL for page {page_number}: {next_url}") # Optional debug
    return next_url
 
def parse_all_pages(start_url, debug=False, normalize=True):
    """Orchestrates the scraping of all pages."""
    if not start_url:
        print("Error: start_url is empty.")
        return {
            'page_text': '',
            'pages_scraped': 0,
            'total_pages_detected': 0,
            'total_unique_comparison_strings': 0,
            'error': 'Start URL was empty'
        }
 
    total_pages = get_total_pages(start_url)
    print(f"Total pages detected (or assumed): {total_pages}")
 
    seen_texts = set() # This set tracks all unique paragraph strings *used for comparison*
    chunks = []
    pages_scraped_count = 0
 
    # Loop through potential pages - attempt fetching a few pages beyond detected total
    # This helps if total_pages is slightly off or detection fails.
    # parse_page_content returning empty will trigger break if it happens after the first page.
    # Using a range like total_pages + 5 for more buffer, but the break condition is key.
    for i in range(1, total_pages + 5):
        url = get_next_page_url(start_url, i)
 
        if debug:
            print(f"\n--- Attempting to scrape Page {i} ---")
 
        # Pass the normalize flag down
        new_paras = parse_page_content(url, seen_texts, debug=debug, page_number=i, normalize=normalize)
 
        # Break condition: If we get *no* new paragraphs on any page *after* the first page, assume end.
        # This is more robust than relying solely on total_pages prediction.
        if not new_paras and i > 1:
             print(f"No *new* content added from page {i} and it's not the first page. Assuming end of article.")
             # Decide if you want to *stop* completely or just note it and continue for a few more pages
             # The current range +5 will attempt a few more pages before the loop ends naturally.
             # To stop immediately: break
 
        if new_paras:
            # Append the original text paragraphs to the chunks
            chunks.append(f"Page {i}\n\n" + "\n\n".join(new_paras))
            pages_scraped_count += 1
            print(f"Successfully scraped page {i}. Added {len(new_paras)} new paragraphs. Total unique comparison strings seen: {len(seen_texts)}")
        elif debug and i > 1: # Print this warning only for pages after the first if no new content was found
             print(f"Page {i} returned no paragraphs (either empty, content div not found, or all paragraphs were duplicates based on comparison text).")
        elif debug and i == 1 and not new_paras: # Special warning if even the first page had no content
             print(f"Warning: Page 1 returned no paragraphs. Check URL and selectors.")
             return {
                'page_text': '',
                'pages_scraped': 0,
                'total_pages_detected': total_pages,
                'total_unique_comparison_strings': len(seen_texts),
                'error': 'No content found on the first page'
            }
 
 
    full_text = "\n\n".join(chunks).strip()
 
    # Add a final check or summary for debugging
    if debug:
        print(f"\n--- Scraping Complete ---")
        # i will be one more than the last attempted page if break occurred, or loop finished
        print(f"Total pages attempted (approx): {i if i > 1 else 1}") # Report the last page number tried
        print(f"Pages successfully scraped (with new content): {pages_scraped_count}")
        print(f"Total unique comparison strings collected: {len(seen_texts)}")
 
 
    return {
        'page_text': full_text,
        'pages_scraped': pages_scraped_count,
        'total_pages_detected': total_pages,
        'total_unique_comparison_strings': len(seen_texts)
    }
 
# --- Example usage: ---
# Assuming 'input_data' is provided from your environment.
# If running standalone, you need to define 'input_data' manually.
 
# Check if input_data is defined (e.g., by an external system)
if 'input_data' not in locals():
    print("Warning: 'input_data' dictionary not found. Defining a placeholder for standalone execution.")
    # Define a placeholder/default input_data for local testing
    # *** REPLACE THIS WITH YOUR ACTUAL START URL ***
    input_data = {'initial_url': 'YOUR_URL_HERE'}
 
initial_url_to_scrape = input_data.get('initial_url', '').strip() # Use strip() in case of whitespace
 
 
if not initial_url_to_scrape or initial_url_to_scrape == 'YOUR_URL_HERE':
    print("Please provide a valid URL to scrape via 'input_data'.")
    print("Example: input_data = {'initial_url': 'https://w...content-available-to-author-only...e.com/article/page/1/'}")
    # Depending on your environment, you might exit or raise an error here
    # sys.exit(1) # Uncomment this line if you want the script to stop when no URL is given
 
else:
    print(f"Starting scrape for: {initial_url_to_scrape}")
    # Set debug=True to see logging
    # Set normalize=True to use text normalization for duplicate checking (recommended)
    # Set normalize=False to revert to exact string matching only
    output = parse_all_pages(initial_url_to_scrape, debug=True, normalize=True)
 
    # Print the results
    print("\n--- Final Output Summary ---")
    print(f"Pages scraped with new content: {output.get('pages_scraped')}")
    print(f"Total unique comparison strings collected: {output.get('total_unique_comparison_strings')}")
    print(f"Initial total pages detected: {output.get('total_pages_detected')}")
    print("\n--- Extracted Text ---")
    # Use repr() for a small part to see hidden characters if needed for debugging
    # print(repr(output.get('page_text', '')[:500]))
    print(output.get('page_text')) # This prints the full combined text

aW1wb3J0IHJlcXVlc3RzCmZyb20gYnM0IGltcG9ydCBCZWF1dGlmdWxTb3VwIGFzIGJzCmltcG9ydCByZQppbXBvcnQgdW5pY29kZWRhdGEKaW1wb3J0IHN5cwoKIyBEZWZpbmUgeW91ciBoZWFkZXJzIG9uY2UsIGF0IHRoZSB0b3AKSEVBREVSUyA9IHsKICAgICdVc2VyLUFnZW50JzogJ01vemlsbGEvNS4wIChXaW5kb3dzIE5UIDEwLjA7IFdpbjY0OyB4NjQpJwp9CgojIC0tLSBIZWxwZXIgZnVuY3Rpb24gZm9yIHRleHQgbm9ybWFsaXphdGlvbiAtLS0KZGVmIG5vcm1hbGl6ZV90ZXh0KHRleHQpOgogICAgIiIiCiAgICBOb3JtYWxpemUgdGV4dCBmb3IgbW9yZSByb2J1c3QgZHVwbGljYXRlIGNoZWNraW5nLgogICAgQ29udmVydHMgdG8gbG93ZXJjYXNlLCBzdGFuZGFyZGl6ZXMgaW50ZXJuYWwgd2hpdGVzcGFjZS4KICAgIFlvdSBjYW4gYWRkIG1vcmUgbm9ybWFsaXphdGlvbiBzdGVwcyBoZXJlIGlmIG5lZWRlZC4KICAgICIiIgogICAgaWYgbm90IGlzaW5zdGFuY2UodGV4dCwgc3RyKToKICAgICAgICAgcmV0dXJuICIiICMgSGFuZGxlIG5vbi1zdHJpbmcgaW5wdXQgZ3JhY2VmdWxseQoKICAgICMgMS4gQ29udmVydCB0byBsb3dlcmNhc2UKICAgIHRleHQgPSB0ZXh0Lmxvd2VyKCkKICAgICMgMi4gUmVwbGFjZSB2YXJpb3VzIHdoaXRlc3BhY2UgY2hhcmFjdGVycyB3aXRoIGEgc2luZ2xlIHNwYWNlCiAgICAjICAgIFRoaXMgaGFuZGxlcyBzcGFjZXMsIHRhYnMsIG5ld2xpbmVzLCBub24tYnJlYWtpbmcgc3BhY2VzIChceGEwKSwgZXRjLgogICAgdGV4dCA9IHJlLnN1YihyJ1xzKycsICcgJywgdGV4dCkuc3RyaXAoKQogICAgIyAzLiBPcHRpb25hbDogUmVtb3ZlIG9yIHJlcGxhY2UgcHJvYmxlbWF0aWMgY2hhcmFjdGVycyAoZS5nLiwgemVyby13aWR0aCBzcGFjZSBcdTIwMGIpCiAgICB0ZXh0ID0gdGV4dC5yZXBsYWNlKCdcdTIwMGInLCAnJykgIyBFeGFtcGxlOiByZW1vdmUgemVybyB3aWR0aCBzcGFjZQoKICAgICMgT3B0aW9uYWw6IE1vcmUgYWR2YW5jZWQgVW5pY29kZSBub3JtYWxpemF0aW9uIGlmIGNoYXJhY3RlciByZXByZXNlbnRhdGlvbiBpcyBhbiBpc3N1ZQogICAgIyB0ZXh0ID0gdW5pY29kZWRhdGEubm9ybWFsaXplKCdORkMnLCB0ZXh0KQoKICAgIHJldHVybiB0ZXh0CgojIC0tLSBDb3JlIFNjcmFwaW5nIEZ1bmN0aW9ucyAtLS0KCmRlZiBnZXRfdG90YWxfcGFnZXModXJsKToKICAgICIiIgogICAgTG9vayBpbnNpZGUgdGhlIC5lbnRyeSBjb250YWluZXIgZm9yIGFueSA8YT4gdGFncyB3aG9zZSB0ZXh0IGlzIGEgZGlnaXQuCiAgICBSZXR1cm5zIHRoZSBoaWdoZXN0IGRpZ2l0IGZvdW5kLCBvciAxIGlmIG5vbmUgb3IgZXJyb3IuCiAgICAiIiIKICAgIHByaW50KGYiQXR0ZW1wdGluZyB0byBmaW5kIHRvdGFsIHBhZ2VzIGZyb206IHt1cmx9IikKICAgIHRyeToKICAgICAgICByZXNwb25zZSA9IHJlcXVlc3RzLmdldCh1cmwsIGhlYWRlcnM9SEVBREVSUywgdGltZW91dD0zMCkKICAgICAgICByZXNwb25zZS5yYWlzZV9mb3Jfc3RhdHVzKCkgIyBSYWlzZSBhbiBleGNlcHRpb24gZm9yIGJhZCBzdGF0dXMgY29kZXMgKDR4eCBvciA1eHgpCiAgICAgICAgc291cCA9IGJzKHJlc3BvbnNlLnRleHQsICdodG1sLnBhcnNlcicpCiAgICAgICAgY29udGVudF9kaXYgPSBzb3VwLnNlbGVjdF9vbmUoJy5lbnRyeScpCiAgICAgICAgaWYgbm90IGNvbnRlbnRfZGl2OgogICAgICAgICAgICBwcmludCgiV2FybmluZzogQ291bGQgbm90IGZpbmQgLmVudHJ5IGNvbnRhaW5lciBmb3IgcGFnaW5hdGlvbi4iKQogICAgICAgICAgICByZXR1cm4gMQoKICAgICAgICBwYWdlX251bWJlcnMgPSBbXQogICAgICAgICMgTG9vayBmb3IgcGFnaW5hdGlvbiBsaW5rcyB3aXRoaW4gb3IgbmVhciB0aGUgY29udGVudCBhcmVhCiAgICAgICAgIyBDb21tb24gc2VsZWN0b3JzIGZvciBwYWdpbmF0aW9uOiBkaXYucGFnZS1saW5rcywgZGl2LnBhZ2luYXRpb24sIC5lbnRyeSBhCiAgICAgICAgIyBTdGlja2luZyB0byBvcmlnaW5hbCBzY29wZSAoLmVudHJ5IGEpIGJ1dCBtZW50aW9uaW5nIGFsdGVybmF0aXZlcwogICAgICAgIHBhZ2luYXRpb25fY2FuZGlkYXRlcyA9IGNvbnRlbnRfZGl2LnNlbGVjdCgnYScpICMgTG9vayBhdCBhbGwgbGlua3MgaW4gLmVudHJ5CgogICAgICAgIGZvciBhIGluIHBhZ2luYXRpb25fY2FuZGlkYXRlczoKICAgICAgICAgICAgIHRyeToKICAgICAgICAgICAgICAgICMgR2V0IHRleHQgaW5jbHVkaW5nIHRleHQgZnJvbSBuZXN0ZWQgZWxlbWVudHMgbGlrZSA8c3Bhbj4KICAgICAgICAgICAgICAgIHRleHQgPSBhLmdldF90ZXh0KHN0cmlwPVRydWUpCiAgICAgICAgICAgICAgICBpZiB0ZXh0LmlzZGlnaXQoKToKICAgICAgICAgICAgICAgICAgICBwYWdlX251bWJlcnMuYXBwZW5kKGludCh0ZXh0KSkKICAgICAgICAgICAgIGV4Y2VwdCBWYWx1ZUVycm9yOgogICAgICAgICAgICAgICAgIyBJZ25vcmUgbGlua3Mgd2hvc2UgdGV4dCBpcyBub3QgcHVyZWx5IGEgZGlnaXQKICAgICAgICAgICAgICAgIHBhc3MKICAgICAgICAgICAgIGV4Y2VwdCBFeGNlcHRpb24gYXMgZToKICAgICAgICAgICAgICAgICBwcmludChmIkVycm9yIHByb2Nlc3NpbmcgcGFnaW5hdGlvbiBsaW5rIHRleHQ6IHtlfSIpCgoKICAgICAgICBwcmludChmIkZvdW5kIHBvdGVudGlhbCBwYWdlIG51bWJlcnM6IHtwYWdlX251bWJlcnN9IikKCiAgICAgICAgcmV0dXJuIG1heChwYWdlX251bWJlcnMpIGlmIHBhZ2VfbnVtYmVycyBlbHNlIDEKCiAgICBleGNlcHQgcmVxdWVzdHMuZXhjZXB0aW9ucy5SZXF1ZXN0RXhjZXB0aW9uIGFzIGU6CiAgICAgICAgcHJpbnQoZiJFcnJvciBmZXRjaGluZyB0b3RhbCBwYWdlcyBmcm9tIHt1cmx9OiB7ZX0iKQogICAgICAgIHJldHVybiAxICMgQXNzdW1lIDEgcGFnZSBvbiBlcnJvcgogICAgZXhjZXB0IEV4Y2VwdGlvbiBhcyBlOgogICAgICAgIHByaW50KGYiQW4gdW5leHBlY3RlZCBlcnJvciBvY2N1cnJlZCB3aGlsZSBnZXR0aW5nIHRvdGFsIHBhZ2VzIGZyb20ge3VybH06IHtlfSIpCiAgICAgICAgcmV0dXJuIDEgIyBBc3N1bWUgMSBwYWdlIG9uIHVuZXhwZWN0ZWQgZXJyb3IKCgpkZWYgcGFyc2VfcGFnZV9jb250ZW50KHVybCwgc2Vlbl90ZXh0cywgZGVidWc9RmFsc2UsIHBhZ2VfbnVtYmVyPTEsIG5vcm1hbGl6ZT1UcnVlKToKICAgICIiIgogICAgUmV0dXJuIG9ubHkgX25ld18gcGFyYWdyYXBocyAoY29tcGFyZWQgdG8gc2Vlbl90ZXh0cykuCiAgICBJbmNsdWRlcyBvcHRpb25hbCB0ZXh0IG5vcm1hbGl6YXRpb24gZm9yIG1vcmUgcm9idXN0IGR1cGxpY2F0ZSBkZXRlY3Rpb24uCiAgICAiIiIKICAgIHByaW50KGYiU2NyYXBpbmcgY29udGVudCBmcm9tIHBhZ2Uge3BhZ2VfbnVtYmVyfSAoe3VybH0pIikKICAgIHRyeToKICAgICAgICByZXNwb25zZSA9IHJlcXVlc3RzLmdldCh1cmwsIGhlYWRlcnM9SEVBREVSUywgdGltZW91dD0zMCkKICAgICAgICByZXNwb25zZS5yYWlzZV9mb3Jfc3RhdHVzKCkgIyBSYWlzZSBhbiBleGNlcHRpb24gZm9yIGJhZCBzdGF0dXMgY29kZXMKICAgICAgICBzb3VwID0gYnMocmVzcG9uc2UudGV4dCwgJ2h0bWwucGFyc2VyJykKCiAgICAgICAgIyBSZW1vdmUgbm9uLWNvbnRlbnQgZWxlbWVudHMgLSBBRERFRCBoZWFkZXIvZm9vdGVyIGFzIGNvbW1vbiBhcmVhcyBmb3IgcmVwZXRpdGlvbgogICAgICAgIHNlbGVjdG9yc190b19kZWNvbXBvc2UgPSBbJ2Zvcm0nLCAnZGl2LnBhZ2UtbGlua3MnLCAnYXNpZGUnLCAnc2NyaXB0JywgJ3N0eWxlJywgJ2hlYWRlcicsICdmb290ZXInXQogICAgICAgIGZvciBzZWwgaW4gc2VsZWN0b3JzX3RvX2RlY29tcG9zZToKICAgICAgICAgICAgZm9yIHRhZyBpbiBzb3VwLnNlbGVjdChzZWwpOgogICAgICAgICAgICAgICAgdGFnLmRlY29tcG9zZSgpCgogICAgICAgIGNvbnRlbnRfZGl2ID0gc291cC5zZWxlY3Rfb25lKCcuZW50cnknKQogICAgICAgIGlmIG5vdCBjb250ZW50X2RpdjoKICAgICAgICAgICAgaWYgZGVidWc6CiAgICAgICAgICAgICAgICAgcHJpbnQoZiJXYXJuaW5nOiBDb3VsZCBub3QgZmluZCAuZW50cnkgY29udGFpbmVyIG9uIHBhZ2Uge3BhZ2VfbnVtYmVyfS4iKQogICAgICAgICAgICByZXR1cm4gW10gIyBSZXR1cm4gZW1wdHkgbGlzdCBpZiBtYWluIGNvbnRlbnQgZGl2IGlzIG5vdCBmb3VuZAoKICAgICAgICBvdXQgPSBbXQogICAgICAgIGZvciBwIGluIGNvbnRlbnRfZGl2LmZpbmRfYWxsKCdwJyk6CiAgICAgICAgICAgIG9yaWdpbmFsX3RleHQgPSBwLmdldF90ZXh0KHN0cmlwPVRydWUpCgogICAgICAgICAgICAjIFNraXAgZW1wdHkgcGFyYWdyYXBocyBhZnRlciBzdHJpcHBpbmcKICAgICAgICAgICAgaWYgbm90IG9yaWdpbmFsX3RleHQ6CiAgICAgICAgICAgICAgICAgaWYgZGVidWc6CiAgICAgICAgICAgICAgICAgICAgICBwcmludChmIlNraXBwaW5nIGVtcHR5IHBhcmFncmFwaCBvbiBwYWdlIHtwYWdlX251bWJlcn0uIikKICAgICAgICAgICAgICAgICBjb250aW51ZQoKICAgICAgICAgICAgIyBBcHBseSBub3JtYWxpemF0aW9uIGZvciB0aGUgY2hlY2sKICAgICAgICAgICAgdGV4dF90b19jaGVjayA9IG5vcm1hbGl6ZV90ZXh0KG9yaWdpbmFsX3RleHQpIGlmIG5vcm1hbGl6ZSBlbHNlIG9yaWdpbmFsX3RleHQKCiAgICAgICAgICAgICMgLS0tIER1cGxpY2F0ZSBDaGVjayAtLS0KICAgICAgICAgICAgIyBVc2UgdGhlIG5vcm1hbGl6ZWQvY2hlY2tlZCB0ZXh0IGZvciB0aGUgc2V0IGxvb2t1cCBhbmQgYWRkCiAgICAgICAgICAgIGlmIHRleHRfdG9fY2hlY2sgbm90IGluIHNlZW5fdGV4dHM6CiAgICAgICAgICAgICAgICBzZWVuX3RleHRzLmFkZCh0ZXh0X3RvX2NoZWNrKQogICAgICAgICAgICAgICAgIyBBZGQgdGhlICpvcmlnaW5hbCogdGV4dCB0byB0aGUgb3V0cHV0IGxpc3QKICAgICAgICAgICAgICAgIG91dC5hcHBlbmQob3JpZ2luYWxfdGV4dCkKICAgICAgICAgICAgICAgIGlmIGRlYnVnOgogICAgICAgICAgICAgICAgICAgICMgUHJpbnQgc3RhcnQgb2YgY2hlY2tlZCB0ZXh0IHdoZW4gYWRkaW5nIG5ldwogICAgICAgICAgICAgICAgICAgIHByaW50KGYiQWRkZWQgbmV3IHBhcmFncmFwaCAoY2hlY2tlZCB0ZXh0KToge3RleHRfdG9fY2hlY2tbOjEwMF19Li4uIikKICAgICAgICAgICAgZWxpZiBkZWJ1ZzoKICAgICAgICAgICAgICAgICMgVGhpcyBtZXNzYWdlIGNvbmZpcm1zIHRoZSBkdXBsaWNhdGUgZGV0ZWN0aW9uIGlzIHdvcmtpbmcgZm9yIHRoZSAqY2hlY2tlZCogdGV4dAogICAgICAgICAgICAgICAgIyBQcmludCBzdGFydCBvZiBjaGVja2VkIHRleHQgd2hlbiBza2lwcGluZyBkdXBsaWNhdGUKICAgICAgICAgICAgICAgIHByaW50KGYiRHVwbGljYXRlIChvciBzaW1pbGFyKSB0ZXh0IGZvdW5kIG9uIHBhZ2Uge3BhZ2VfbnVtYmVyfSwgc2tpcHBpbmcgKGNoZWNrZWQgdGV4dCk6IHt0ZXh0X3RvX2NoZWNrWzoxMDBdfS4uLiIpCgoKICAgICAgICBpZiBkZWJ1ZzoKICAgICAgICAgICAgcHJpbnQoZiJQYWdlIHtwYWdlX251bWJlcn06IEZvdW5kIHtsZW4ob3V0KX0gbmV3IHBhcmFncmFwaHMgYWRkZWQgdG8gb3V0cHV0LiIpCiAgICAgICAgICAgIHByaW50KGYiU2VlbiB0ZXh0cyBzZXQgc2l6ZToge2xlbihzZWVuX3RleHRzKX0iKQogICAgICAgICAgICAjIHByaW50IGEgc2FtcGxlIG9mIHNlZW4gdGV4dHMgKHRoZSBjaGVja2VkIHZlcnNpb24pCiAgICAgICAgICAgIHNlZW5fc2FtcGxlID0gbGlzdChzZWVuX3RleHRzKVs6bWluKDUsIGxlbihzZWVuX3RleHRzKSldCiAgICAgICAgICAgIHByaW50KGYiU2VlbiB0ZXh0cyBzYW1wbGUgKGNoZWNrZWQgdmVyc2lvbik6IHtzZWVuX3NhbXBsZX0iKQoKCiAgICAgICAgcmV0dXJuIG91dAoKICAgIGV4Y2VwdCByZXF1ZXN0cy5leGNlcHRpb25zLlJlcXVlc3RFeGNlcHRpb24gYXMgZToKICAgICAgICBwcmludChmIkVycm9yIGZldGNoaW5nIGNvbnRlbnQgZnJvbSBwYWdlIHtwYWdlX251bWJlcn0gKHt1cmx9KToge2V9IikKICAgICAgICByZXR1cm4gW10gIyBSZXR1cm4gZW1wdHkgbGlzdCBvbiBlcnJvcgogICAgZXhjZXB0IEV4Y2VwdGlvbiBhcyBlOgogICAgICAgIHByaW50KGYiQW4gdW5leHBlY3RlZCBlcnJvciBvY2N1cnJlZCB3aGlsZSBwYXJzaW5nIHBhZ2Uge3BhZ2VfbnVtYmVyfSAoe3VybH0pOiB7ZX0iKQogICAgICAgIHJldHVybiBbXSAjIFJldHVybiBlbXB0eSBsaXN0IG9uIHVuZXhwZWN0ZWQgZXJyb3IKCgpkZWYgZ2V0X25leHRfcGFnZV91cmwoYmFzZV91cmwsIHBhZ2VfbnVtYmVyKToKICAgICIiIkFwcGVuZCAnLzIvJywgJy8zLycgZXRjLiwgYnV0IGxlYXZlIFBhZ2UgMSBhcy1pcy4iIiIKICAgIGlmIHBhZ2VfbnVtYmVyIDw9IDE6CiAgICAgICAgcmV0dXJuIGJhc2VfdXJsCiAgICAjIEVuc3VyZSBiYXNlX3VybCBkb2Vzbid0IGVuZCB3aXRoIGEgc2xhc2ggYWxyZWFkeSBiZWZvcmUgYWRkaW5nIHBhZ2UgbnVtYmVyCiAgICBuZXh0X3VybCA9IGJhc2VfdXJsLnJzdHJpcCgnLycpICsgZicve3BhZ2VfbnVtYmVyfS8nCiAgICAjIHByaW50KGYiR2VuZXJhdGVkIFVSTCBmb3IgcGFnZSB7cGFnZV9udW1iZXJ9OiB7bmV4dF91cmx9IikgIyBPcHRpb25hbCBkZWJ1ZwogICAgcmV0dXJuIG5leHRfdXJsCgpkZWYgcGFyc2VfYWxsX3BhZ2VzKHN0YXJ0X3VybCwgZGVidWc9RmFsc2UsIG5vcm1hbGl6ZT1UcnVlKToKICAgICIiIk9yY2hlc3RyYXRlcyB0aGUgc2NyYXBpbmcgb2YgYWxsIHBhZ2VzLiIiIgogICAgaWYgbm90IHN0YXJ0X3VybDoKICAgICAgICBwcmludCgiRXJyb3I6IHN0YXJ0X3VybCBpcyBlbXB0eS4iKQogICAgICAgIHJldHVybiB7CiAgICAgICAgICAgICdwYWdlX3RleHQnOiAnJywKICAgICAgICAgICAgJ3BhZ2VzX3NjcmFwZWQnOiAwLAogICAgICAgICAgICAndG90YWxfcGFnZXNfZGV0ZWN0ZWQnOiAwLAogICAgICAgICAgICAndG90YWxfdW5pcXVlX2NvbXBhcmlzb25fc3RyaW5ncyc6IDAsCiAgICAgICAgICAgICdlcnJvcic6ICdTdGFydCBVUkwgd2FzIGVtcHR5JwogICAgICAgIH0KCiAgICB0b3RhbF9wYWdlcyA9IGdldF90b3RhbF9wYWdlcyhzdGFydF91cmwpCiAgICBwcmludChmIlRvdGFsIHBhZ2VzIGRldGVjdGVkIChvciBhc3N1bWVkKToge3RvdGFsX3BhZ2VzfSIpCgogICAgc2Vlbl90ZXh0cyA9IHNldCgpICMgVGhpcyBzZXQgdHJhY2tzIGFsbCB1bmlxdWUgcGFyYWdyYXBoIHN0cmluZ3MgKnVzZWQgZm9yIGNvbXBhcmlzb24qCiAgICBjaHVua3MgPSBbXQogICAgcGFnZXNfc2NyYXBlZF9jb3VudCA9IDAKCiAgICAjIExvb3AgdGhyb3VnaCBwb3RlbnRpYWwgcGFnZXMgLSBhdHRlbXB0IGZldGNoaW5nIGEgZmV3IHBhZ2VzIGJleW9uZCBkZXRlY3RlZCB0b3RhbAogICAgIyBUaGlzIGhlbHBzIGlmIHRvdGFsX3BhZ2VzIGlzIHNsaWdodGx5IG9mZiBvciBkZXRlY3Rpb24gZmFpbHMuCiAgICAjIHBhcnNlX3BhZ2VfY29udGVudCByZXR1cm5pbmcgZW1wdHkgd2lsbCB0cmlnZ2VyIGJyZWFrIGlmIGl0IGhhcHBlbnMgYWZ0ZXIgdGhlIGZpcnN0IHBhZ2UuCiAgICAjIFVzaW5nIGEgcmFuZ2UgbGlrZSB0b3RhbF9wYWdlcyArIDUgZm9yIG1vcmUgYnVmZmVyLCBidXQgdGhlIGJyZWFrIGNvbmRpdGlvbiBpcyBrZXkuCiAgICBmb3IgaSBpbiByYW5nZSgxLCB0b3RhbF9wYWdlcyArIDUpOgogICAgICAgIHVybCA9IGdldF9uZXh0X3BhZ2VfdXJsKHN0YXJ0X3VybCwgaSkKCiAgICAgICAgaWYgZGVidWc6CiAgICAgICAgICAgIHByaW50KGYiXG4tLS0gQXR0ZW1wdGluZyB0byBzY3JhcGUgUGFnZSB7aX0gLS0tIikKCiAgICAgICAgIyBQYXNzIHRoZSBub3JtYWxpemUgZmxhZyBkb3duCiAgICAgICAgbmV3X3BhcmFzID0gcGFyc2VfcGFnZV9jb250ZW50KHVybCwgc2Vlbl90ZXh0cywgZGVidWc9ZGVidWcsIHBhZ2VfbnVtYmVyPWksIG5vcm1hbGl6ZT1ub3JtYWxpemUpCgogICAgICAgICMgQnJlYWsgY29uZGl0aW9uOiBJZiB3ZSBnZXQgKm5vKiBuZXcgcGFyYWdyYXBocyBvbiBhbnkgcGFnZSAqYWZ0ZXIqIHRoZSBmaXJzdCBwYWdlLCBhc3N1bWUgZW5kLgogICAgICAgICMgVGhpcyBpcyBtb3JlIHJvYnVzdCB0aGFuIHJlbHlpbmcgc29sZWx5IG9uIHRvdGFsX3BhZ2VzIHByZWRpY3Rpb24uCiAgICAgICAgaWYgbm90IG5ld19wYXJhcyBhbmQgaSA+IDE6CiAgICAgICAgICAgICBwcmludChmIk5vICpuZXcqIGNvbnRlbnQgYWRkZWQgZnJvbSBwYWdlIHtpfSBhbmQgaXQncyBub3QgdGhlIGZpcnN0IHBhZ2UuIEFzc3VtaW5nIGVuZCBvZiBhcnRpY2xlLiIpCiAgICAgICAgICAgICAjIERlY2lkZSBpZiB5b3Ugd2FudCB0byAqc3RvcCogY29tcGxldGVseSBvciBqdXN0IG5vdGUgaXQgYW5kIGNvbnRpbnVlIGZvciBhIGZldyBtb3JlIHBhZ2VzCiAgICAgICAgICAgICAjIFRoZSBjdXJyZW50IHJhbmdlICs1IHdpbGwgYXR0ZW1wdCBhIGZldyBtb3JlIHBhZ2VzIGJlZm9yZSB0aGUgbG9vcCBlbmRzIG5hdHVyYWxseS4KICAgICAgICAgICAgICMgVG8gc3RvcCBpbW1lZGlhdGVseTogYnJlYWsKCiAgICAgICAgaWYgbmV3X3BhcmFzOgogICAgICAgICAgICAjIEFwcGVuZCB0aGUgb3JpZ2luYWwgdGV4dCBwYXJhZ3JhcGhzIHRvIHRoZSBjaHVua3MKICAgICAgICAgICAgY2h1bmtzLmFwcGVuZChmIlBhZ2Uge2l9XG5cbiIgKyAiXG5cbiIuam9pbihuZXdfcGFyYXMpKQogICAgICAgICAgICBwYWdlc19zY3JhcGVkX2NvdW50ICs9IDEKICAgICAgICAgICAgcHJpbnQoZiJTdWNjZXNzZnVsbHkgc2NyYXBlZCBwYWdlIHtpfS4gQWRkZWQge2xlbihuZXdfcGFyYXMpfSBuZXcgcGFyYWdyYXBocy4gVG90YWwgdW5pcXVlIGNvbXBhcmlzb24gc3RyaW5ncyBzZWVuOiB7bGVuKHNlZW5fdGV4dHMpfSIpCiAgICAgICAgZWxpZiBkZWJ1ZyBhbmQgaSA+IDE6ICMgUHJpbnQgdGhpcyB3YXJuaW5nIG9ubHkgZm9yIHBhZ2VzIGFmdGVyIHRoZSBmaXJzdCBpZiBubyBuZXcgY29udGVudCB3YXMgZm91bmQKICAgICAgICAgICAgIHByaW50KGYiUGFnZSB7aX0gcmV0dXJuZWQgbm8gcGFyYWdyYXBocyAoZWl0aGVyIGVtcHR5LCBjb250ZW50IGRpdiBub3QgZm91bmQsIG9yIGFsbCBwYXJhZ3JhcGhzIHdlcmUgZHVwbGljYXRlcyBiYXNlZCBvbiBjb21wYXJpc29uIHRleHQpLiIpCiAgICAgICAgZWxpZiBkZWJ1ZyBhbmQgaSA9PSAxIGFuZCBub3QgbmV3X3BhcmFzOiAjIFNwZWNpYWwgd2FybmluZyBpZiBldmVuIHRoZSBmaXJzdCBwYWdlIGhhZCBubyBjb250ZW50CiAgICAgICAgICAgICBwcmludChmIldhcm5pbmc6IFBhZ2UgMSByZXR1cm5lZCBubyBwYXJhZ3JhcGhzLiBDaGVjayBVUkwgYW5kIHNlbGVjdG9ycy4iKQogICAgICAgICAgICAgcmV0dXJuIHsKICAgICAgICAgICAgICAgICdwYWdlX3RleHQnOiAnJywKICAgICAgICAgICAgICAgICdwYWdlc19zY3JhcGVkJzogMCwKICAgICAgICAgICAgICAgICd0b3RhbF9wYWdlc19kZXRlY3RlZCc6IHRvdGFsX3BhZ2VzLAogICAgICAgICAgICAgICAgJ3RvdGFsX3VuaXF1ZV9jb21wYXJpc29uX3N0cmluZ3MnOiBsZW4oc2Vlbl90ZXh0cyksCiAgICAgICAgICAgICAgICAnZXJyb3InOiAnTm8gY29udGVudCBmb3VuZCBvbiB0aGUgZmlyc3QgcGFnZScKICAgICAgICAgICAgfQoKCiAgICBmdWxsX3RleHQgPSAiXG5cbiIuam9pbihjaHVua3MpLnN0cmlwKCkKCiAgICAjIEFkZCBhIGZpbmFsIGNoZWNrIG9yIHN1bW1hcnkgZm9yIGRlYnVnZ2luZwogICAgaWYgZGVidWc6CiAgICAgICAgcHJpbnQoZiJcbi0tLSBTY3JhcGluZyBDb21wbGV0ZSAtLS0iKQogICAgICAgICMgaSB3aWxsIGJlIG9uZSBtb3JlIHRoYW4gdGhlIGxhc3QgYXR0ZW1wdGVkIHBhZ2UgaWYgYnJlYWsgb2NjdXJyZWQsIG9yIGxvb3AgZmluaXNoZWQKICAgICAgICBwcmludChmIlRvdGFsIHBhZ2VzIGF0dGVtcHRlZCAoYXBwcm94KToge2kgaWYgaSA+IDEgZWxzZSAxfSIpICMgUmVwb3J0IHRoZSBsYXN0IHBhZ2UgbnVtYmVyIHRyaWVkCiAgICAgICAgcHJpbnQoZiJQYWdlcyBzdWNjZXNzZnVsbHkgc2NyYXBlZCAod2l0aCBuZXcgY29udGVudCk6IHtwYWdlc19zY3JhcGVkX2NvdW50fSIpCiAgICAgICAgcHJpbnQoZiJUb3RhbCB1bmlxdWUgY29tcGFyaXNvbiBzdHJpbmdzIGNvbGxlY3RlZDoge2xlbihzZWVuX3RleHRzKX0iKQoKCiAgICByZXR1cm4gewogICAgICAgICdwYWdlX3RleHQnOiBmdWxsX3RleHQsCiAgICAgICAgJ3BhZ2VzX3NjcmFwZWQnOiBwYWdlc19zY3JhcGVkX2NvdW50LAogICAgICAgICd0b3RhbF9wYWdlc19kZXRlY3RlZCc6IHRvdGFsX3BhZ2VzLAogICAgICAgICd0b3RhbF91bmlxdWVfY29tcGFyaXNvbl9zdHJpbmdzJzogbGVuKHNlZW5fdGV4dHMpCiAgICB9CgojIC0tLSBFeGFtcGxlIHVzYWdlOiAtLS0KIyBBc3N1bWluZyAnaW5wdXRfZGF0YScgaXMgcHJvdmlkZWQgZnJvbSB5b3VyIGVudmlyb25tZW50LgojIElmIHJ1bm5pbmcgc3RhbmRhbG9uZSwgeW91IG5lZWQgdG8gZGVmaW5lICdpbnB1dF9kYXRhJyBtYW51YWxseS4KCiMgQ2hlY2sgaWYgaW5wdXRfZGF0YSBpcyBkZWZpbmVkIChlLmcuLCBieSBhbiBleHRlcm5hbCBzeXN0ZW0pCmlmICdpbnB1dF9kYXRhJyBub3QgaW4gbG9jYWxzKCk6CiAgICBwcmludCgiV2FybmluZzogJ2lucHV0X2RhdGEnIGRpY3Rpb25hcnkgbm90IGZvdW5kLiBEZWZpbmluZyBhIHBsYWNlaG9sZGVyIGZvciBzdGFuZGFsb25lIGV4ZWN1dGlvbi4iKQogICAgIyBEZWZpbmUgYSBwbGFjZWhvbGRlci9kZWZhdWx0IGlucHV0X2RhdGEgZm9yIGxvY2FsIHRlc3RpbmcKICAgICMgKioqIFJFUExBQ0UgVEhJUyBXSVRIIFlPVVIgQUNUVUFMIFNUQVJUIFVSTCAqKioKICAgIGlucHV0X2RhdGEgPSB7J2luaXRpYWxfdXJsJzogJ1lPVVJfVVJMX0hFUkUnfQoKaW5pdGlhbF91cmxfdG9fc2NyYXBlID0gaW5wdXRfZGF0YS5nZXQoJ2luaXRpYWxfdXJsJywgJycpLnN0cmlwKCkgIyBVc2Ugc3RyaXAoKSBpbiBjYXNlIG9mIHdoaXRlc3BhY2UKCgppZiBub3QgaW5pdGlhbF91cmxfdG9fc2NyYXBlIG9yIGluaXRpYWxfdXJsX3RvX3NjcmFwZSA9PSAnWU9VUl9VUkxfSEVSRSc6CiAgICBwcmludCgiUGxlYXNlIHByb3ZpZGUgYSB2YWxpZCBVUkwgdG8gc2NyYXBlIHZpYSAnaW5wdXRfZGF0YScuIikKICAgIHByaW50KCJFeGFtcGxlOiBpbnB1dF9kYXRhID0geydpbml0aWFsX3VybCc6ICdodHRwczovL3cuLi5jb250ZW50LWF2YWlsYWJsZS10by1hdXRob3Itb25seS4uLmUuY29tL2FydGljbGUvcGFnZS8xLyd9IikKICAgICMgRGVwZW5kaW5nIG9uIHlvdXIgZW52aXJvbm1lbnQsIHlvdSBtaWdodCBleGl0IG9yIHJhaXNlIGFuIGVycm9yIGhlcmUKICAgICMgc3lzLmV4aXQoMSkgIyBVbmNvbW1lbnQgdGhpcyBsaW5lIGlmIHlvdSB3YW50IHRoZSBzY3JpcHQgdG8gc3RvcCB3aGVuIG5vIFVSTCBpcyBnaXZlbgoKZWxzZToKICAgIHByaW50KGYiU3RhcnRpbmcgc2NyYXBlIGZvcjoge2luaXRpYWxfdXJsX3RvX3NjcmFwZX0iKQogICAgIyBTZXQgZGVidWc9VHJ1ZSB0byBzZWUgbG9nZ2luZwogICAgIyBTZXQgbm9ybWFsaXplPVRydWUgdG8gdXNlIHRleHQgbm9ybWFsaXphdGlvbiBmb3IgZHVwbGljYXRlIGNoZWNraW5nIChyZWNvbW1lbmRlZCkKICAgICMgU2V0IG5vcm1hbGl6ZT1GYWxzZSB0byByZXZlcnQgdG8gZXhhY3Qgc3RyaW5nIG1hdGNoaW5nIG9ubHkKICAgIG91dHB1dCA9IHBhcnNlX2FsbF9wYWdlcyhpbml0aWFsX3VybF90b19zY3JhcGUsIGRlYnVnPVRydWUsIG5vcm1hbGl6ZT1UcnVlKQoKICAgICMgUHJpbnQgdGhlIHJlc3VsdHMKICAgIHByaW50KCJcbi0tLSBGaW5hbCBPdXRwdXQgU3VtbWFyeSAtLS0iKQogICAgcHJpbnQoZiJQYWdlcyBzY3JhcGVkIHdpdGggbmV3IGNvbnRlbnQ6IHtvdXRwdXQuZ2V0KCdwYWdlc19zY3JhcGVkJyl9IikKICAgIHByaW50KGYiVG90YWwgdW5pcXVlIGNvbXBhcmlzb24gc3RyaW5ncyBjb2xsZWN0ZWQ6IHtvdXRwdXQuZ2V0KCd0b3RhbF91bmlxdWVfY29tcGFyaXNvbl9zdHJpbmdzJyl9IikKICAgIHByaW50KGYiSW5pdGlhbCB0b3RhbCBwYWdlcyBkZXRlY3RlZDoge291dHB1dC5nZXQoJ3RvdGFsX3BhZ2VzX2RldGVjdGVkJyl9IikKICAgIHByaW50KCJcbi0tLSBFeHRyYWN0ZWQgVGV4dCAtLS0iKQogICAgIyBVc2UgcmVwcigpIGZvciBhIHNtYWxsIHBhcnQgdG8gc2VlIGhpZGRlbiBjaGFyYWN0ZXJzIGlmIG5lZWRlZCBmb3IgZGVidWdnaW5nCiAgICAjIHByaW50KHJlcHIob3V0cHV0LmdldCgncGFnZV90ZXh0JywgJycpWzo1MDBdKSkKICAgIHByaW50KG91dHB1dC5nZXQoJ3BhZ2VfdGV4dCcpKSAjIFRoaXMgcHJpbnRzIHRoZSBmdWxsIGNvbWJpbmVkIHRleHQ=

Compilation error #stdin compilation error #stdout 0s 0KB

stdin

Standard input is empty

compilation info

Main.java:1: error: '.' expected
import requests
               ^
Main.java:2: error: ';' expected
from bs4 import BeautifulSoup as bs
    ^
Main.java:2: error: '.' expected
from bs4 import BeautifulSoup as bs
                             ^
Main.java:2: error: ';' expected
from bs4 import BeautifulSoup as bs
                                ^
Main.java:3: error: '.' expected
import re
         ^
Main.java:4: error: '.' expected
import unicodedata
                  ^
Main.java:7: error: illegal character: '#'
# Define your headers once, at the top
^
Main.java:9: error: unclosed character literal
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
    ^
Main.java:9: error: unclosed character literal
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
               ^
Main.java:9: error: unclosed character literal
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                  ^
Main.java:9: error: class, interface, or enum expected
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                                                 ^
Main.java:9: error: class, interface, or enum expected
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                                                        ^
Main.java:9: error: illegal line end in character literal
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                                                            ^
Main.java:12: error: illegal character: '#'
# --- Helper function for text normalization ---
^
Main.java:14: error: unclosed string literal
    """
      ^
Main.java:18: error: unclosed string literal
    """
      ^
Main.java:20: error: illegal character: '#'
         return "" # Handle non-string input gracefully
                   ^
Main.java:22: error: illegal character: '#'
    # 1. Convert to lowercase
    ^
Main.java:24: error: illegal character: '#'
    # 2. Replace various whitespace characters with a single space
    ^
Main.java:25: error: illegal character: '#'
    #    This handles spaces, tabs, newlines, non-breaking spaces (\xa0), etc.
    ^
Main.java:25: error: illegal character: '\'
    #    This handles spaces, tabs, newlines, non-breaking spaces (\xa0), etc.
                                                                   ^
Main.java:26: error: illegal escape character
    text = re.sub(r'\s+', ' ', text).strip()
                     ^
Main.java:26: error: unclosed character literal
    text = re.sub(r'\s+', ' ', text).strip()
                   ^
Main.java:26: error: unclosed character literal
    text = re.sub(r'\s+', ' ', text).strip()
                       ^
Main.java:27: error: illegal character: '#'
    # 3. Optional: Remove or replace problematic characters (e.g., zero-width space \u200b)
    ^
Main.java:27: error: illegal character: '\u200b'
    # 3. Optional: Remove or replace problematic characters (e.g., zero-width space \u200b)
                                                                                         ^
Main.java:28: error: empty character literal
    text = text.replace('\u200b', '') # Example: remove zero width space
                                  ^
Main.java:28: error: illegal character: '#'
    text = text.replace('\u200b', '') # Example: remove zero width space
                                      ^
Main.java:30: error: illegal character: '#'
    # Optional: More advanced Unicode normalization if character representation is an issue
    ^
Main.java:31: error: illegal character: '#'
    # text = unicodedata.normalize('NFC', text)
    ^
Main.java:31: error: unclosed character literal
    # text = unicodedata.normalize('NFC', text)
                                   ^
Main.java:31: error: unclosed character literal
    # text = unicodedata.normalize('NFC', text)
                                       ^
Main.java:35: error: illegal character: '#'
# --- Core Scraping Functions ---
^
Main.java:38: error: unclosed string literal
    """
      ^
Main.java:41: error: unclosed string literal
    """
      ^
Main.java:45: error: illegal character: '#'
        response.raise_for_status() # Raise an exception for bad status codes (4xx or 5xx)
                                    ^
Main.java:46: error: unclosed character literal
        soup = bs(response.text, 'html.parser')
                                 ^
Main.java:46: error: unclosed character literal
        soup = bs(response.text, 'html.parser')
                                             ^
Main.java:47: error: unclosed character literal
        content_div = soup.select_one('.entry')
                                      ^
Main.java:47: error: unclosed character literal
        content_div = soup.select_one('.entry')
                                             ^
Main.java:53: error: illegal character: '#'
        # Look for pagination links within or near the content area
        ^
Main.java:54: error: illegal character: '#'
        # Common selectors for pagination: div.page-links, div.pagination, .entry a
        ^
Main.java:55: error: illegal character: '#'
        # Sticking to original scope (.entry a) but mentioning alternatives
        ^
Main.java:56: error: illegal character: '#'
        pagination_candidates = content_div.select('a') # Look at all links in .entry
                                                        ^
Main.java:60: error: illegal character: '#'
                # Get text including text from nested elements like <span>
                ^
Main.java:65: error: illegal character: '#'
                # Ignore links whose text is not purely a digit
                ^
Main.java:77: error: illegal character: '#'
        return 1 # Assume 1 page on error
                 ^
Main.java:80: error: illegal character: '#'
        return 1 # Assume 1 page on unexpected error
                 ^
Main.java:84: error: unclosed string literal
    """
      ^
Main.java:87: error: unclosed string literal
    """
      ^
Main.java:91: error: illegal character: '#'
        response.raise_for_status() # Raise an exception for bad status codes
                                    ^
Main.java:92: error: unclosed character literal
        soup = bs(response.text, 'html.parser')
                                 ^
Main.java:92: error: unclosed character literal
        soup = bs(response.text, 'html.parser')
                                             ^
Main.java:94: error: illegal character: '#'
        # Remove non-content elements - ADDED header/footer as common areas for repetition
        ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                  ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                       ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                          ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                         ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                            ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                  ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                     ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                            ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                               ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                                     ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                                        ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                                               ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                                                  ^
Main.java:95: error: unclosed character literal
        selectors_to_decompose = ['form', 'div.page-links', 'aside', 'script', 'style', 'header', 'footer']
                                                                                                         ^
Main.java:100: error: unclosed character literal
        content_div = soup.select_one('.entry')
                                      ^
Main.java:100: error: unclosed character literal
        content_div = soup.select_one('.entry')
                                             ^
Main.java:104: error: illegal character: '#'
            return [] # Return empty list if main content div is not found
                      ^
Main.java:110: error: illegal character: '#'
            # Skip empty paragraphs after stripping
            ^
Main.java:116: error: illegal character: '#'
            # Apply normalization for the check
            ^
Main.java:119: error: illegal character: '#'
            # --- Duplicate Check ---
            ^
Main.java:120: error: illegal character: '#'
            # Use the normalized/checked text for the set lookup and add
            ^
Main.java:123: error: illegal character: '#'
                # Add the *original* text to the output list
                ^
Main.java:126: error: illegal character: '#'
                    # Print start of checked text when adding new
                    ^
Main.java:129: error: illegal character: '#'
                # This message confirms the duplicate detection is working for the *checked* text
                ^
Main.java:130: error: illegal character: '#'
                # Print start of checked text when skipping duplicate
                ^
Main.java:137: error: illegal character: '#'
            # print a sample of seen texts (the checked version)
            ^
Main.java:146: error: illegal character: '#'
        return [] # Return empty list on error
                  ^
Main.java:149: error: illegal character: '#'
        return [] # Return empty list on unexpected error
                  ^
Main.java:156: error: illegal character: '#'
    # Ensure base_url doesn't end with a slash already before adding page number
    ^
Main.java:156: error: unclosed character literal
    # Ensure base_url doesn't end with a slash already before adding page number
                           ^
Main.java:157: error: unclosed character literal
    next_url = base_url.rstrip('/') + f'/{page_number}/'
                                       ^
Main.java:157: error: illegal line end in character literal
    next_url = base_url.rstrip('/') + f'/{page_number}/'
                                                       ^
Main.java:158: error: illegal character: '#'
    # print(f"Generated URL for page {page_number}: {next_url}") # Optional debug
    ^
Main.java:158: error: illegal character: '#'
    # print(f"Generated URL for page {page_number}: {next_url}") # Optional debug
                                                                 ^
Main.java:166: error: unclosed character literal
            'page_text': '',
            ^
Main.java:166: error: unclosed character literal
            'page_text': '',
                      ^
Main.java:166: error: empty character literal
            'page_text': '',
                         ^
Main.java:167: error: unclosed character literal
            'pages_scraped': 0,
            ^
Main.java:167: error: unclosed character literal
            'pages_scraped': 0,
                          ^
Main.java:168: error: unclosed character literal
            'total_pages_detected': 0,
            ^
Main.java:168: error: unclosed character literal
            'total_pages_detected': 0,
                                 ^
Main.java:169: error: unclosed character literal
            'total_unique_comparison_strings': 0,
            ^
Main.java:169: error: unclosed character literal
            'total_unique_comparison_strings': 0,
                                            ^
Main.java:170: error: unclosed character literal
            'error': 'Start URL was empty'
            ^
Main.java:170: error: unclosed character literal
            'error': 'Start URL was empty'
                  ^
Main.java:170: error: unclosed character literal
            'error': 'Start URL was empty'
                     ^
100 errors

stdout

Standard output is empty

https://ideone.com/493g7j

language:

Java (HotSpot 12)

created:

visibility:

secret

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language