Ideone.com

fork download

copy

#!/bin/bash
# your code goes here
 
#!/bin/bash
 
if [[ ! $1 ]] ; then
    echo -e "Nothing to do, exiting now..."
    exit
fi
 
start_dir="$1"
new_dir="$start_dir"_deduped
new_dir_files="$new_dir"/files
 
mkdir -v "$new_dir"
mkdir -v -p "$new_dir_files"
 
cd "$start_dir"
 
for webpage in * ; do
    # Skip directories
    if [[ $webpage == *"_files"* ]]; then
        continue
    fi
 
    echo $webpage
 
    # copy .html
    new_webpage="../$new_dir/$webpage"
    cp "$webpage" "$new_webpage"
 
    #  select matching directory
    html_dir=$(echo $webpage | sed -e "s/.html/_files/" -e "s/.htm/_files/" )
 
    # check if matching directory exists
    if [ ! -d "$html_dir" ]; then
        echo "$html_dir is not found..."
        continue # move to the next page
    fi
 
    # check if matching directory is not empty
    if [ -z "$(ls -A $html_dir)" ]; then
        echo "$html_dir is empty..."
        continue # move to the next page
    fi
 
    # process files for webpage
    for file in $html_dir/* ; do
            # make hash of current file to compare
            new_file_hash=$(cat "$file" | sha1sum)
 
            # try to find matching file from files already copied
            deduped_file_found=""
 
                # search for file with matching hash
                for deduped_file in ../$new_dir_files/* ; do
                    deduped_file_hash=$(cat "$deduped_file" | sha1sum)
 
                    if [[ "$new_file_hash" == "$deduped_file_hash" ]]; then
                        # found matching pair of files
                        deduped_file_found="$deduped_file"
                        break
                    fi
                done
 
            # extract current filename
            webpage_name=$(echo "$webpage" | sed -e "s/.htm$//" -e "s/.html$//")
            old_filename=$(echo "$file" | sed "s/.*\///")
 
            if [ -z "$deduped_file_found" ]; then 
                # duplicate file is not found, copy new one
                new_filename="$webpage_name$old_filename"
                old_path="$html_dir/$old_filename"
                new_path="files/$new_filename"
                cp $file ../$new_dir_files/$new_filename
                # Append file hash to optimize skipping unique files
            else
                #reuse existing file
                new_filename=$(echo "$deduped_file_found" | sed "s/.*\///")
                old_path="$html_dir/$old_filename"
                new_path="files/$new_filename"          
            fi
 
            # replace all paths for file
            sed -i 's,'"$old_path,$new_path," $new_webpage
    done
done

IyEvYmluL2Jhc2gKIyB5b3VyIGNvZGUgZ29lcyBoZXJlCgojIS9iaW4vYmFzaAoKaWYgW1sgISAkMSBdXSA7IHRoZW4KICAgIGVjaG8gLWUgIk5vdGhpbmcgdG8gZG8sIGV4aXRpbmcgbm93Li4uIgogICAgZXhpdApmaQoKc3RhcnRfZGlyPSIkMSIKbmV3X2Rpcj0iJHN0YXJ0X2RpciJfZGVkdXBlZApuZXdfZGlyX2ZpbGVzPSIkbmV3X2RpciIvZmlsZXMKCm1rZGlyIC12ICIkbmV3X2RpciIKbWtkaXIgLXYgLXAgIiRuZXdfZGlyX2ZpbGVzIgoKY2QgIiRzdGFydF9kaXIiCgpmb3Igd2VicGFnZSBpbiAqIDsgZG8KICAgICMgU2tpcCBkaXJlY3RvcmllcwogICAgaWYgW1sgJHdlYnBhZ2UgPT0gKiJfZmlsZXMiKiBdXTsgdGhlbgogICAgICAgIGNvbnRpbnVlCiAgICBmaQoKICAgIGVjaG8gJHdlYnBhZ2UKCiAgICAjIGNvcHkgLmh0bWwKICAgIG5ld193ZWJwYWdlPSIuLi8kbmV3X2Rpci8kd2VicGFnZSIKICAgIGNwICIkd2VicGFnZSIgIiRuZXdfd2VicGFnZSIKCiAgICAjICBzZWxlY3QgbWF0Y2hpbmcgZGlyZWN0b3J5CiAgICBodG1sX2Rpcj0kKGVjaG8gJHdlYnBhZ2UgfCBzZWQgLWUgInMvLmh0bWwvX2ZpbGVzLyIgLWUgInMvLmh0bS9fZmlsZXMvIiApCgogICAgIyBjaGVjayBpZiBtYXRjaGluZyBkaXJlY3RvcnkgZXhpc3RzCiAgICBpZiBbICEgLWQgIiRodG1sX2RpciIgXTsgdGhlbgogICAgICAgIGVjaG8gIiRodG1sX2RpciBpcyBub3QgZm91bmQuLi4iCiAgICAgICAgY29udGludWUgIyBtb3ZlIHRvIHRoZSBuZXh0IHBhZ2UKICAgIGZpCiAgICAKICAgICMgY2hlY2sgaWYgbWF0Y2hpbmcgZGlyZWN0b3J5IGlzIG5vdCBlbXB0eQogICAgaWYgWyAteiAiJChscyAtQSAkaHRtbF9kaXIpIiBdOyB0aGVuCiAgICAgICAgZWNobyAiJGh0bWxfZGlyIGlzIGVtcHR5Li4uIgogICAgICAgIGNvbnRpbnVlICMgbW92ZSB0byB0aGUgbmV4dCBwYWdlCiAgICBmaQoKICAgICMgcHJvY2VzcyBmaWxlcyBmb3Igd2VicGFnZQogICAgZm9yIGZpbGUgaW4gJGh0bWxfZGlyLyogOyBkbwogICAgICAgICAgICAjIG1ha2UgaGFzaCBvZiBjdXJyZW50IGZpbGUgdG8gY29tcGFyZQogICAgICAgICAgICBuZXdfZmlsZV9oYXNoPSQoY2F0ICIkZmlsZSIgfCBzaGExc3VtKQoKICAgICAgICAgICAgIyB0cnkgdG8gZmluZCBtYXRjaGluZyBmaWxlIGZyb20gZmlsZXMgYWxyZWFkeSBjb3BpZWQKICAgICAgICAgICAgZGVkdXBlZF9maWxlX2ZvdW5kPSIiCgogICAgICAgICAgICAgICAgIyBzZWFyY2ggZm9yIGZpbGUgd2l0aCBtYXRjaGluZyBoYXNoCiAgICAgICAgICAgICAgICBmb3IgZGVkdXBlZF9maWxlIGluIC4uLyRuZXdfZGlyX2ZpbGVzLyogOyBkbwogICAgICAgICAgICAgICAgICAgIGRlZHVwZWRfZmlsZV9oYXNoPSQoY2F0ICIkZGVkdXBlZF9maWxlIiB8IHNoYTFzdW0pCiAgICAgICAgICAgICAgICAgICAgCiAgICAgICAgICAgICAgICAgICAgaWYgW1sgIiRuZXdfZmlsZV9oYXNoIiA9PSAiJGRlZHVwZWRfZmlsZV9oYXNoIiBdXTsgdGhlbgogICAgICAgICAgICAgICAgICAgICAgICAjIGZvdW5kIG1hdGNoaW5nIHBhaXIgb2YgZmlsZXMKICAgICAgICAgICAgICAgICAgICAgICAgZGVkdXBlZF9maWxlX2ZvdW5kPSIkZGVkdXBlZF9maWxlIgogICAgICAgICAgICAgICAgICAgICAgICBicmVhawogICAgICAgICAgICAgICAgICAgIGZpCiAgICAgICAgICAgICAgICBkb25lCgogICAgICAgICAgICAjIGV4dHJhY3QgY3VycmVudCBmaWxlbmFtZQogICAgICAgICAgICB3ZWJwYWdlX25hbWU9JChlY2hvICIkd2VicGFnZSIgfCBzZWQgLWUgInMvLmh0bSQvLyIgLWUgInMvLmh0bWwkLy8iKQogICAgICAgICAgICBvbGRfZmlsZW5hbWU9JChlY2hvICIkZmlsZSIgfCBzZWQgInMvLipcLy8vIikKCiAgICAgICAgICAgIGlmIFsgLXogIiRkZWR1cGVkX2ZpbGVfZm91bmQiIF07IHRoZW4gCiAgICAgICAgICAgICAgICAjIGR1cGxpY2F0ZSBmaWxlIGlzIG5vdCBmb3VuZCwgY29weSBuZXcgb25lCiAgICAgICAgICAgICAgICBuZXdfZmlsZW5hbWU9IiR3ZWJwYWdlX25hbWUkb2xkX2ZpbGVuYW1lIgogICAgICAgICAgICAgICAgb2xkX3BhdGg9IiRodG1sX2Rpci8kb2xkX2ZpbGVuYW1lIgogICAgICAgICAgICAgICAgbmV3X3BhdGg9ImZpbGVzLyRuZXdfZmlsZW5hbWUiCiAgICAgICAgICAgICAgICBjcCAkZmlsZSAuLi8kbmV3X2Rpcl9maWxlcy8kbmV3X2ZpbGVuYW1lCiAgICAgICAgICAgICAgICAjIEFwcGVuZCBmaWxlIGhhc2ggdG8gb3B0aW1pemUgc2tpcHBpbmcgdW5pcXVlIGZpbGVzCiAgICAgICAgICAgIGVsc2UKICAgICAgICAgICAgICAgICNyZXVzZSBleGlzdGluZyBmaWxlCiAgICAgICAgICAgICAgICBuZXdfZmlsZW5hbWU9JChlY2hvICIkZGVkdXBlZF9maWxlX2ZvdW5kIiB8IHNlZCAicy8uKlwvLy8iKQogICAgICAgICAgICAgICAgb2xkX3BhdGg9IiRodG1sX2Rpci8kb2xkX2ZpbGVuYW1lIgogICAgICAgICAgICAgICAgbmV3X3BhdGg9ImZpbGVzLyRuZXdfZmlsZW5hbWUiICAgICAgICAgIAogICAgICAgICAgICBmaQoKICAgICAgICAgICAgIyByZXBsYWNlIGFsbCBwYXRocyBmb3IgZmlsZQogICAgICAgICAgICBzZWQgLWkgJ3MsJyIkb2xkX3BhdGgsJG5ld19wYXRoLCIgJG5ld193ZWJwYWdlCiAgICBkb25lCmRvbmU=

Success #stdin #stdout 0s 4512KB

stdin

copy

Standard input is empty

stdout

copy

Nothing to do, exiting now...

https://ideone.com/PiycCb

language:

Bash (bash 5.0.3)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language