Ideone.com

fork download

copy

#!/bin/bash
 
if [[ ! $1 ]] ; then
    echo -e "Nothing to do, exiting now..."
    exit
fi
 
start_dir="$1"
new_dir="$start_dir"_deduped
new_dir_files="$new_dir"/files
 
mkdir -v "$new_dir"
mkdir -v -p "$new_dir_files"
 
cd "$start_dir"
 
touch known_files_list.sha1
 
for webpage in * ; do
    # Skip directories
    if [[ $webpage == *"_files"* ]]; then
        continue
    fi
 
    echo $webpage
 
    # copy .html
    new_webpage="../$new_dir/$webpage"
    cp "$webpage" "$new_webpage"
 
    #  select matching directory
    html_dir=$(echo $webpage | sed -e "s/.html/_files/" -e "s/.htm/_files/" )
 
    # check if matching directory exists
    if [ ! -d "$html_dir" ]; then
        echo "$html_dir is not found..."
        continue # move to the next page
    fi
 
    # check if matching directory is not empty
    if [ -z "$(ls -A $html_dir)" ]; then
        echo "$html_dir is empty..."
        continue # move to the next page
    fi
 
    # process files for webpage
    for file in $html_dir/* ; do
            # make hash of current file to compare
            new_file_hash=$(cat "$file" | sha1sum)
 
            # try to find matching file from files already copied
            deduped_file_found=""
 
            # fast check if file hash is in the list
            if grep -Fxq "$new_file_hash" known_files_list.sha1
            then
                # search for file with matching hash
                for deduped_file in ../$new_dir_files/* ; do
                    deduped_file_hash=$(cat "$deduped_file" | sha1sum)
 
                    if [[ "$new_file_hash" == "$deduped_file_hash" ]]; then
                        # found matching pair of files
                        deduped_file_found="$deduped_file"
                        break
                    fi
                done
            fi
 
            # extract current filename
            webpage_name=$(echo "$webpage" | sed -e "s/.htm$//" -e "s/.html$//")
            old_filename=$(echo "$file" | sed "s/.*\///")
 
            if [ -z "$deduped_file_found" ]; then 
                # duplicate file is not found, copy new one
                new_filename="$webpage_name$old_filename"
                old_path="$html_dir/$old_filename"
                new_path="files/$new_filename"
                cp $file ../$new_dir_files/$new_filename
                # Append file hash to optimize skipping unique files
                echo "$new_file_hash" >> known_files_list.sha1
            else
                #reuse existing file
                echo "-------------- deduplicated $file"
                new_filename=$(echo "$deduped_file_found" | sed "s/.*\///")
                old_path="$html_dir/$old_filename"
                new_path="files/$new_filename"          
            fi
 
            # replace all paths for file
            sed -i 's,'"$old_path,$new_path," $new_webpage
    done
done

IyEvYmluL2Jhc2gKCmlmIFtbICEgJDEgXV0gOyB0aGVuCiAgICBlY2hvIC1lICJOb3RoaW5nIHRvIGRvLCBleGl0aW5nIG5vdy4uLiIKICAgIGV4aXQKZmkKCnN0YXJ0X2Rpcj0iJDEiCm5ld19kaXI9IiRzdGFydF9kaXIiX2RlZHVwZWQKbmV3X2Rpcl9maWxlcz0iJG5ld19kaXIiL2ZpbGVzCgpta2RpciAtdiAiJG5ld19kaXIiCm1rZGlyIC12IC1wICIkbmV3X2Rpcl9maWxlcyIKCmNkICIkc3RhcnRfZGlyIgoKdG91Y2gga25vd25fZmlsZXNfbGlzdC5zaGExCgpmb3Igd2VicGFnZSBpbiAqIDsgZG8KICAgICMgU2tpcCBkaXJlY3RvcmllcwogICAgaWYgW1sgJHdlYnBhZ2UgPT0gKiJfZmlsZXMiKiBdXTsgdGhlbgogICAgICAgIGNvbnRpbnVlCiAgICBmaQoKICAgIGVjaG8gJHdlYnBhZ2UKCiAgICAjIGNvcHkgLmh0bWwKICAgIG5ld193ZWJwYWdlPSIuLi8kbmV3X2Rpci8kd2VicGFnZSIKICAgIGNwICIkd2VicGFnZSIgIiRuZXdfd2VicGFnZSIKCiAgICAjICBzZWxlY3QgbWF0Y2hpbmcgZGlyZWN0b3J5CiAgICBodG1sX2Rpcj0kKGVjaG8gJHdlYnBhZ2UgfCBzZWQgLWUgInMvLmh0bWwvX2ZpbGVzLyIgLWUgInMvLmh0bS9fZmlsZXMvIiApCgogICAgIyBjaGVjayBpZiBtYXRjaGluZyBkaXJlY3RvcnkgZXhpc3RzCiAgICBpZiBbICEgLWQgIiRodG1sX2RpciIgXTsgdGhlbgogICAgICAgIGVjaG8gIiRodG1sX2RpciBpcyBub3QgZm91bmQuLi4iCiAgICAgICAgY29udGludWUgIyBtb3ZlIHRvIHRoZSBuZXh0IHBhZ2UKICAgIGZpCiAgICAKICAgICMgY2hlY2sgaWYgbWF0Y2hpbmcgZGlyZWN0b3J5IGlzIG5vdCBlbXB0eQogICAgaWYgWyAteiAiJChscyAtQSAkaHRtbF9kaXIpIiBdOyB0aGVuCiAgICAgICAgZWNobyAiJGh0bWxfZGlyIGlzIGVtcHR5Li4uIgogICAgICAgIGNvbnRpbnVlICMgbW92ZSB0byB0aGUgbmV4dCBwYWdlCiAgICBmaQoKICAgICMgcHJvY2VzcyBmaWxlcyBmb3Igd2VicGFnZQogICAgZm9yIGZpbGUgaW4gJGh0bWxfZGlyLyogOyBkbwogICAgICAgICAgICAjIG1ha2UgaGFzaCBvZiBjdXJyZW50IGZpbGUgdG8gY29tcGFyZQogICAgICAgICAgICBuZXdfZmlsZV9oYXNoPSQoY2F0ICIkZmlsZSIgfCBzaGExc3VtKQoKICAgICAgICAgICAgIyB0cnkgdG8gZmluZCBtYXRjaGluZyBmaWxlIGZyb20gZmlsZXMgYWxyZWFkeSBjb3BpZWQKICAgICAgICAgICAgZGVkdXBlZF9maWxlX2ZvdW5kPSIiCgogICAgICAgICAgICAjIGZhc3QgY2hlY2sgaWYgZmlsZSBoYXNoIGlzIGluIHRoZSBsaXN0CiAgICAgICAgICAgIGlmIGdyZXAgLUZ4cSAiJG5ld19maWxlX2hhc2giIGtub3duX2ZpbGVzX2xpc3Quc2hhMQogICAgICAgICAgICB0aGVuCiAgICAgICAgICAgICAgICAjIHNlYXJjaCBmb3IgZmlsZSB3aXRoIG1hdGNoaW5nIGhhc2gKICAgICAgICAgICAgICAgIGZvciBkZWR1cGVkX2ZpbGUgaW4gLi4vJG5ld19kaXJfZmlsZXMvKiA7IGRvCiAgICAgICAgICAgICAgICAgICAgZGVkdXBlZF9maWxlX2hhc2g9JChjYXQgIiRkZWR1cGVkX2ZpbGUiIHwgc2hhMXN1bSkKICAgICAgICAgICAgICAgICAgICAKICAgICAgICAgICAgICAgICAgICBpZiBbWyAiJG5ld19maWxlX2hhc2giID09ICIkZGVkdXBlZF9maWxlX2hhc2giIF1dOyB0aGVuCiAgICAgICAgICAgICAgICAgICAgICAgICMgZm91bmQgbWF0Y2hpbmcgcGFpciBvZiBmaWxlcwogICAgICAgICAgICAgICAgICAgICAgICBkZWR1cGVkX2ZpbGVfZm91bmQ9IiRkZWR1cGVkX2ZpbGUiCiAgICAgICAgICAgICAgICAgICAgICAgIGJyZWFrCiAgICAgICAgICAgICAgICAgICAgZmkKICAgICAgICAgICAgICAgIGRvbmUKICAgICAgICAgICAgZmkKCiAgICAgICAgICAgICMgZXh0cmFjdCBjdXJyZW50IGZpbGVuYW1lCiAgICAgICAgICAgIHdlYnBhZ2VfbmFtZT0kKGVjaG8gIiR3ZWJwYWdlIiB8IHNlZCAtZSAicy8uaHRtJC8vIiAtZSAicy8uaHRtbCQvLyIpCiAgICAgICAgICAgIG9sZF9maWxlbmFtZT0kKGVjaG8gIiRmaWxlIiB8IHNlZCAicy8uKlwvLy8iKQoKICAgICAgICAgICAgaWYgWyAteiAiJGRlZHVwZWRfZmlsZV9mb3VuZCIgXTsgdGhlbiAKICAgICAgICAgICAgICAgICMgZHVwbGljYXRlIGZpbGUgaXMgbm90IGZvdW5kLCBjb3B5IG5ldyBvbmUKICAgICAgICAgICAgICAgIG5ld19maWxlbmFtZT0iJHdlYnBhZ2VfbmFtZSRvbGRfZmlsZW5hbWUiCiAgICAgICAgICAgICAgICBvbGRfcGF0aD0iJGh0bWxfZGlyLyRvbGRfZmlsZW5hbWUiCiAgICAgICAgICAgICAgICBuZXdfcGF0aD0iZmlsZXMvJG5ld19maWxlbmFtZSIKICAgICAgICAgICAgICAgIGNwICRmaWxlIC4uLyRuZXdfZGlyX2ZpbGVzLyRuZXdfZmlsZW5hbWUKICAgICAgICAgICAgICAgICMgQXBwZW5kIGZpbGUgaGFzaCB0byBvcHRpbWl6ZSBza2lwcGluZyB1bmlxdWUgZmlsZXMKICAgICAgICAgICAgICAgIGVjaG8gIiRuZXdfZmlsZV9oYXNoIiA+PiBrbm93bl9maWxlc19saXN0LnNoYTEKICAgICAgICAgICAgZWxzZQogICAgICAgICAgICAgICAgI3JldXNlIGV4aXN0aW5nIGZpbGUKICAgICAgICAgICAgICAgIGVjaG8gIi0tLS0tLS0tLS0tLS0tIGRlZHVwbGljYXRlZCAkZmlsZSIKICAgICAgICAgICAgICAgIG5ld19maWxlbmFtZT0kKGVjaG8gIiRkZWR1cGVkX2ZpbGVfZm91bmQiIHwgc2VkICJzLy4qXC8vLyIpCiAgICAgICAgICAgICAgICBvbGRfcGF0aD0iJGh0bWxfZGlyLyRvbGRfZmlsZW5hbWUiCiAgICAgICAgICAgICAgICBuZXdfcGF0aD0iZmlsZXMvJG5ld19maWxlbmFtZSIgICAgICAgICAgCiAgICAgICAgICAgIGZpCgogICAgICAgICAgICAjIHJlcGxhY2UgYWxsIHBhdGhzIGZvciBmaWxlCiAgICAgICAgICAgIHNlZCAtaSAncywnIiRvbGRfcGF0aCwkbmV3X3BhdGgsIiAkbmV3X3dlYnBhZ2UKICAgIGRvbmUKZG9uZQ==

Success #stdin #stdout 0s 4288KB

stdin

copy

Standard input is empty

stdout

copy

Nothing to do, exiting now...

https://ideone.com/Vm0Wxg

language:

Bash (bash 5.0.3)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language