Ideone.com

fork download

copy

# A resumable Safari Books Online Video downloader
# Main reference: https://m...content-available-to-author-only...b.io/tools/2017/02/02/safari-downloader.html
 
from bs4 import BeautifulSoup
import requests
import os
import re
import subprocess
import unicodedata
import string
 
import config
# Create a config.py file with the following content:
# class Config:
#     URL = 'https://w...content-available-to-author-only...e.com/library/view/strata-data-conference/9781491985373/'
#     DOMAIN = 'https://w...content-available-to-author-only...e.com'
#     OUTPUT_FOLDER = 'D:\\Strata Data Conference 2017 Singapore'
#     USERNAME = 'your_email_address'
#     PASSWORD = 'your_password'
#     DOWNLOADER = './youtube-dl.exe' # Please download from https://g...content-available-to-author-only...b.com/rg3/youtube-dl
 
class SafariDownloader:
 
	def slugify(self, value):
		"""
		Normalizes string, converts to lowercase, removes non-alpha characters,
		and converts spaces to hyphens.
		"""
 
		value = re.sub('[^\w\s-]', '', value).strip().lower()
		value = re.sub('[-\s]+', '-', value)
		return value
 
	def __init__(self, url, output_folder, username, password, domain='https://w...content-available-to-author-only...e.com', downloader_path='./youtube-dl.exe'):
		self.output_folder = output_folder
		self.username = username
		self.password = password
		self.domain = domain
		self.downloader_path = downloader_path
 
		req = requests.get(url)
		soup = BeautifulSoup(req.text, 'html.parser')
		self.topics = soup.find_all('li', class_='toc-level-1') # top-level topic titles
		# Update youtube-dl first
		subprocess.run([self.downloader_path, "-U"])
 
	def validify(self, filename):
		valid_chars = "-_.() %s%s" % (string.ascii_letters, string.digits)
		valid_chars = frozenset(valid_chars)
		# The unicodedata.normalize call replaces accented characters with the unaccented equivalent,
		# which is better than simply stripping them out. After that all disallowed characters are removed.
		cleaned_filename = unicodedata.normalize('NFKD', filename).encode('ascii', 'ignore').decode('ascii')
		return ''.join(c for c in cleaned_filename if c in valid_chars)
 
	def download(self):
		i = 0
		for topic in self.topics:
			i = i + 1
			topic_name = '{:03d} - {}'.format(i, self.slugify(topic.a.text))
			# Creating folder to put the videos in
			save_folder = '{}/{}'.format(self.output_folder, topic_name)
			os.makedirs(save_folder, exist_ok=True)
			# You can choose to skip these topic_name, comment these three lines if you do not want to skip any
			if topic_name in ('Keynotes', 'Strata Business Summit', 'Sponsored'):
				print("Skipping {}...".format(topic_name))
				continue
			for index, video in enumerate(topic.ol.find_all('a')):
				video_name = '{:03d} - {}'.format(index + 1, video.text)
				video_name = self.slugify(video_name)
				video_name = self.validify(video_name)
				video_url = video.get('href')
				video_out = '{}/{}.mp4'.format(save_folder, video_name)
				# Check if file already exists
				if os.path.isfile(video_out):
					print("File {} already exists! Skipping...".format(video_out))
					continue
				print("Downloading {} ...".format(video_name))
				print("Link {} ...".format(video_url))
				subprocess.run([self.downloader_path, "-u", self.username, "-p", self.password, "--verbose", "--output", video_out, video_url])
 
if __name__ == '__main__':
	app_config = config.Config
	downloader = SafariDownloader(url=app_config.URL, output_folder=app_config.OUTPUT_FOLDER,
                                  username=app_config.USERNAME, password=app_config.PASSWORD,
                                  domain=app_config.DOMAIN, downloader_path=app_config.DOWNLOADER)
	downloader.download()

IyBBIHJlc3VtYWJsZSBTYWZhcmkgQm9va3MgT25saW5lIFZpZGVvIGRvd25sb2FkZXIKIyBNYWluIHJlZmVyZW5jZTogaHR0cHM6Ly9tLi4uY29udGVudC1hdmFpbGFibGUtdG8tYXV0aG9yLW9ubHkuLi5iLmlvL3Rvb2xzLzIwMTcvMDIvMDIvc2FmYXJpLWRvd25sb2FkZXIuaHRtbAoKZnJvbSBiczQgaW1wb3J0IEJlYXV0aWZ1bFNvdXAKaW1wb3J0IHJlcXVlc3RzCmltcG9ydCBvcwppbXBvcnQgcmUKaW1wb3J0IHN1YnByb2Nlc3MKaW1wb3J0IHVuaWNvZGVkYXRhCmltcG9ydCBzdHJpbmcKCmltcG9ydCBjb25maWcKIyBDcmVhdGUgYSBjb25maWcucHkgZmlsZSB3aXRoIHRoZSBmb2xsb3dpbmcgY29udGVudDoKIyBjbGFzcyBDb25maWc6CiMgICAgIFVSTCA9ICdodHRwczovL3cuLi5jb250ZW50LWF2YWlsYWJsZS10by1hdXRob3Itb25seS4uLmUuY29tL2xpYnJhcnkvdmlldy9zdHJhdGEtZGF0YS1jb25mZXJlbmNlLzk3ODE0OTE5ODUzNzMvJwojICAgICBET01BSU4gPSAnaHR0cHM6Ly93Li4uY29udGVudC1hdmFpbGFibGUtdG8tYXV0aG9yLW9ubHkuLi5lLmNvbScKIyAgICAgT1VUUFVUX0ZPTERFUiA9ICdEOlxcU3RyYXRhIERhdGEgQ29uZmVyZW5jZSAyMDE3IFNpbmdhcG9yZScKIyAgICAgVVNFUk5BTUUgPSAneW91cl9lbWFpbF9hZGRyZXNzJwojICAgICBQQVNTV09SRCA9ICd5b3VyX3Bhc3N3b3JkJwojICAgICBET1dOTE9BREVSID0gJy4veW91dHViZS1kbC5leGUnICMgUGxlYXNlIGRvd25sb2FkIGZyb20gaHR0cHM6Ly9nLi4uY29udGVudC1hdmFpbGFibGUtdG8tYXV0aG9yLW9ubHkuLi5iLmNvbS9yZzMveW91dHViZS1kbAoKY2xhc3MgU2FmYXJpRG93bmxvYWRlcjoKCQoJZGVmIHNsdWdpZnkoc2VsZiwgdmFsdWUpOgoJCSIiIgoJCU5vcm1hbGl6ZXMgc3RyaW5nLCBjb252ZXJ0cyB0byBsb3dlcmNhc2UsIHJlbW92ZXMgbm9uLWFscGhhIGNoYXJhY3RlcnMsCgkJYW5kIGNvbnZlcnRzIHNwYWNlcyB0byBoeXBoZW5zLgoJCSIiIgoJCQoJCXZhbHVlID0gcmUuc3ViKCdbXlx3XHMtXScsICcnLCB2YWx1ZSkuc3RyaXAoKS5sb3dlcigpCgkJdmFsdWUgPSByZS5zdWIoJ1stXHNdKycsICctJywgdmFsdWUpCgkJcmV0dXJuIHZhbHVlCgkJCglkZWYgX19pbml0X18oc2VsZiwgdXJsLCBvdXRwdXRfZm9sZGVyLCB1c2VybmFtZSwgcGFzc3dvcmQsIGRvbWFpbj0naHR0cHM6Ly93Li4uY29udGVudC1hdmFpbGFibGUtdG8tYXV0aG9yLW9ubHkuLi5lLmNvbScsIGRvd25sb2FkZXJfcGF0aD0nLi95b3V0dWJlLWRsLmV4ZScpOgoJCXNlbGYub3V0cHV0X2ZvbGRlciA9IG91dHB1dF9mb2xkZXIKCQlzZWxmLnVzZXJuYW1lID0gdXNlcm5hbWUKCQlzZWxmLnBhc3N3b3JkID0gcGFzc3dvcmQKCQlzZWxmLmRvbWFpbiA9IGRvbWFpbgoJCXNlbGYuZG93bmxvYWRlcl9wYXRoID0gZG93bmxvYWRlcl9wYXRoCgoJCXJlcSA9IHJlcXVlc3RzLmdldCh1cmwpCgkJc291cCA9IEJlYXV0aWZ1bFNvdXAocmVxLnRleHQsICdodG1sLnBhcnNlcicpCgkJc2VsZi50b3BpY3MgPSBzb3VwLmZpbmRfYWxsKCdsaScsIGNsYXNzXz0ndG9jLWxldmVsLTEnKSAjIHRvcC1sZXZlbCB0b3BpYyB0aXRsZXMKCQkjIFVwZGF0ZSB5b3V0dWJlLWRsIGZpcnN0CgkJc3VicHJvY2Vzcy5ydW4oW3NlbGYuZG93bmxvYWRlcl9wYXRoLCAiLVUiXSkKCglkZWYgdmFsaWRpZnkoc2VsZiwgZmlsZW5hbWUpOgoJCXZhbGlkX2NoYXJzID0gIi1fLigpICVzJXMiICUgKHN0cmluZy5hc2NpaV9sZXR0ZXJzLCBzdHJpbmcuZGlnaXRzKQoJCXZhbGlkX2NoYXJzID0gZnJvemVuc2V0KHZhbGlkX2NoYXJzKQoJCSMgVGhlIHVuaWNvZGVkYXRhLm5vcm1hbGl6ZSBjYWxsIHJlcGxhY2VzIGFjY2VudGVkIGNoYXJhY3RlcnMgd2l0aCB0aGUgdW5hY2NlbnRlZCBlcXVpdmFsZW50LAoJCSMgd2hpY2ggaXMgYmV0dGVyIHRoYW4gc2ltcGx5IHN0cmlwcGluZyB0aGVtIG91dC4gQWZ0ZXIgdGhhdCBhbGwgZGlzYWxsb3dlZCBjaGFyYWN0ZXJzIGFyZSByZW1vdmVkLgoJCWNsZWFuZWRfZmlsZW5hbWUgPSB1bmljb2RlZGF0YS5ub3JtYWxpemUoJ05GS0QnLCBmaWxlbmFtZSkuZW5jb2RlKCdhc2NpaScsICdpZ25vcmUnKS5kZWNvZGUoJ2FzY2lpJykKCQlyZXR1cm4gJycuam9pbihjIGZvciBjIGluIGNsZWFuZWRfZmlsZW5hbWUgaWYgYyBpbiB2YWxpZF9jaGFycykKCglkZWYgZG93bmxvYWQoc2VsZik6CgkJaSA9IDAKCQlmb3IgdG9waWMgaW4gc2VsZi50b3BpY3M6CgkJCWkgPSBpICsgMQoJCQl0b3BpY19uYW1lID0gJ3s6MDNkfSAtIHt9Jy5mb3JtYXQoaSwgc2VsZi5zbHVnaWZ5KHRvcGljLmEudGV4dCkpCgkJCSMgQ3JlYXRpbmcgZm9sZGVyIHRvIHB1dCB0aGUgdmlkZW9zIGluCgkJCXNhdmVfZm9sZGVyID0gJ3t9L3t9Jy5mb3JtYXQoc2VsZi5vdXRwdXRfZm9sZGVyLCB0b3BpY19uYW1lKQoJCQlvcy5tYWtlZGlycyhzYXZlX2ZvbGRlciwgZXhpc3Rfb2s9VHJ1ZSkKCQkJIyBZb3UgY2FuIGNob29zZSB0byBza2lwIHRoZXNlIHRvcGljX25hbWUsIGNvbW1lbnQgdGhlc2UgdGhyZWUgbGluZXMgaWYgeW91IGRvIG5vdCB3YW50IHRvIHNraXAgYW55CgkJCWlmIHRvcGljX25hbWUgaW4gKCdLZXlub3RlcycsICdTdHJhdGEgQnVzaW5lc3MgU3VtbWl0JywgJ1Nwb25zb3JlZCcpOgoJCQkJcHJpbnQoIlNraXBwaW5nIHt9Li4uIi5mb3JtYXQodG9waWNfbmFtZSkpCgkJCQljb250aW51ZQoJCQlmb3IgaW5kZXgsIHZpZGVvIGluIGVudW1lcmF0ZSh0b3BpYy5vbC5maW5kX2FsbCgnYScpKToKCQkJCXZpZGVvX25hbWUgPSAnezowM2R9IC0ge30nLmZvcm1hdChpbmRleCArIDEsIHZpZGVvLnRleHQpCgkJCQl2aWRlb19uYW1lID0gc2VsZi5zbHVnaWZ5KHZpZGVvX25hbWUpCgkJCQl2aWRlb19uYW1lID0gc2VsZi52YWxpZGlmeSh2aWRlb19uYW1lKQoJCQkJdmlkZW9fdXJsID0gdmlkZW8uZ2V0KCdocmVmJykKCQkJCXZpZGVvX291dCA9ICd7fS97fS5tcDQnLmZvcm1hdChzYXZlX2ZvbGRlciwgdmlkZW9fbmFtZSkKCQkJCSMgQ2hlY2sgaWYgZmlsZSBhbHJlYWR5IGV4aXN0cwoJCQkJaWYgb3MucGF0aC5pc2ZpbGUodmlkZW9fb3V0KToKCQkJCQlwcmludCgiRmlsZSB7fSBhbHJlYWR5IGV4aXN0cyEgU2tpcHBpbmcuLi4iLmZvcm1hdCh2aWRlb19vdXQpKQoJCQkJCWNvbnRpbnVlCgkJCQlwcmludCgiRG93bmxvYWRpbmcge30gLi4uIi5mb3JtYXQodmlkZW9fbmFtZSkpCgkJCQlwcmludCgiTGluayB7fSAuLi4iLmZvcm1hdCh2aWRlb191cmwpKQoJCQkJc3VicHJvY2Vzcy5ydW4oW3NlbGYuZG93bmxvYWRlcl9wYXRoLCAiLXUiLCBzZWxmLnVzZXJuYW1lLCAiLXAiLCBzZWxmLnBhc3N3b3JkLCAiLS12ZXJib3NlIiwgIi0tb3V0cHV0IiwgdmlkZW9fb3V0LCB2aWRlb191cmxdKQoKaWYgX19uYW1lX18gPT0gJ19fbWFpbl9fJzoKCWFwcF9jb25maWcgPSBjb25maWcuQ29uZmlnCglkb3dubG9hZGVyID0gU2FmYXJpRG93bmxvYWRlcih1cmw9YXBwX2NvbmZpZy5VUkwsIG91dHB1dF9mb2xkZXI9YXBwX2NvbmZpZy5PVVRQVVRfRk9MREVSLAogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgdXNlcm5hbWU9YXBwX2NvbmZpZy5VU0VSTkFNRSwgcGFzc3dvcmQ9YXBwX2NvbmZpZy5QQVNTV09SRCwKICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGRvbWFpbj1hcHBfY29uZmlnLkRPTUFJTiwgZG93bmxvYWRlcl9wYXRoPWFwcF9jb25maWcuRE9XTkxPQURFUikKCWRvd25sb2FkZXIuZG93bmxvYWQoKQ==

Runtime error #stdin #stdout #stderr 0.16s 26808KB

stdin

copy

Standard input is empty

stdout

copy

Standard output is empty

stderr

copy

Traceback (most recent call last):
  File "./prog.py", line 5, in <module>
ImportError: No module named 'requests'

https://ideone.com/ib8n7W

language:

Python 3 (python 3.9.5)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language