import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.stream.Collectors;
class Test
{
private static Map
<String, Integer
> tagToIgnores
= new HashMap
<>(); private static Map
<String, Integer
> tagToUsage
= new HashMap
<>();
static
{
tagToIgnores.put("c#", 23790);
tagToIgnores.put("php", 23721);
tagToIgnores.put("java", 22250);
tagToIgnores.put("android", 22201);
tagToIgnores.put("asp.net", 17320);
tagToIgnores.put("c++", 15191);
tagToIgnores.put("python", 14869);
tagToIgnores.put(".net", 13293);
tagToIgnores.put("ruby", 12691);
tagToIgnores.put("ios", 11896);
tagToIgnores.put("ruby-on-rails", 11819);
tagToIgnores.put("iphone", 10955);
tagToIgnores.put("javascript", 10078);
tagToIgnores.put("objective-c", 8587);
tagToIgnores.put("vb.net", 7892);
tagToIgnores.put("c", 7767);
tagToIgnores.put("jquery", 6939);
tagToIgnores.put("delphi", 6563);
tagToIgnores.put("django", 6423);
tagToIgnores.put("perl", 5925);
tagToIgnores.put("asp.net-mvc", 5887);
tagToIgnores.put("flash", 5569);
tagToIgnores.put("mysql", 5142);
tagToIgnores.put("windows", 5131);
tagToIgnores.put("facebook", 4851);
tagToIgnores.put("r", 4629);
tagToIgnores.put("wpf", 4484);
tagToIgnores.put("visual-studio", 4392);
tagToIgnores.put("angularjs", 4298);
tagToIgnores.put("flex", 4186);
tagToIgnores.put("sql-server", 4108);
tagToIgnores.put("wordpress", 4076);
tagToIgnores.put("silverlight", 4016);
tagToIgnores.put("oracle", 4005);
tagToIgnores.put("css", 3972);
tagToIgnores.put("haskell", 3752);
tagToIgnores.put("scala", 3737);
tagToIgnores.put("html", 3663);
tagToIgnores.put("vba", 3624);
tagToIgnores.put("sql", 3359);
tagToIgnores.put("node.js", 3232);
tagToIgnores.put("matlab", 3220);
tagToIgnores.put("sharepoint", 3108);
tagToIgnores.put("eclipse", 3073);
tagToIgnores.put("xcode", 3068);
tagToIgnores.put("swift", 3065);
tagToIgnores.put("angular", 2956);
tagToIgnores.put("spring", 2890);
tagToIgnores.put("linux", 2875);
tagToIgnores.put("macos", 2804);
tagToUsage.put("c#", 1286491);
tagToUsage.put("php", 1263058);
tagToUsage.put("java", 1515802);
tagToUsage.put("android", 1173706);
tagToUsage.put("asp.net", 342947);
tagToUsage.put("c++", 605528);
tagToUsage.put("python", 1114060);
tagToUsage.put(".net", 279901);
tagToUsage.put("ruby", 202463);
tagToUsage.put("ios", 591066);
tagToUsage.put("ruby-on-rails", 303176);
tagToUsage.put("iphone", 219814);
tagToUsage.put("javascript", 1763733);
tagToUsage.put("objective-c", 286812);
tagToUsage.put("vb.net", 122490);
tagToUsage.put("c", 296656);
tagToUsage.put("jquery", 944680);
tagToUsage.put("delphi", 43337);
tagToUsage.put("django", 190837);
tagToUsage.put("perl", 61725);
tagToUsage.put("asp.net-mvc", 178208);
tagToUsage.put("flash", 35282);
tagToUsage.put("mysql", 550486);
tagToUsage.put("windows", 127560);
tagToUsage.put("facebook", 83210);
tagToUsage.put("r", 276465);
tagToUsage.put("wpf", 147423);
tagToUsage.put("visual-studio", 85729);
tagToUsage.put("angularjs", 257148);
tagToUsage.put("flex", 24297);
tagToUsage.put("sql-server", 253505);
tagToUsage.put("wordpress", 145586);
tagToUsage.put("silverlight", 27515);
tagToUsage.put("oracle", 106795);
tagToUsage.put("css", 574065);
tagToUsage.put("haskell", 39976);
tagToUsage.put("scala", 86886);
tagToUsage.put("html", 804877);
tagToUsage.put("vba", 139729);
tagToUsage.put("sql", 479302);
tagToUsage.put("node.js", 262844);
tagToUsage.put("matlab", 82398);
tagToUsage.put("sharepoint", 24236);
tagToUsage.put("eclipse", 115751);
tagToUsage.put("xcode", 130502);
tagToUsage.put("swift", 221958);
tagToUsage.put("angular", 153902);
tagToUsage.put("spring", 147214);
tagToUsage.put("linux", 173188);
tagToUsage.put("macos", 90234);
}
public static void main
(String[] args
) {
final double averageFreq = tagToIgnores.values().stream().mapToInt(x -> x).average().orElse(0);
final double averageUsage = tagToUsage.values().stream().mapToInt(x -> x).average().orElse(0);
final Map
<String, Double
> tagToNormalisedIgnores
= tagToIgnores.
entrySet() .stream()
.
collect(Collectors.
toMap(Map.Entry::getKey, v
-> v.
getValue() / averageFreq
));
final Map
<String, Double
> tagToNormalisedUsage
= tagToUsage.
entrySet() .stream()
.
collect(Collectors.
toMap(Map.Entry::getKey, v
-> v.
getValue() / averageUsage
));
final double similarity = cosineSimilarity(tagToNormalisedIgnores, tagToNormalisedUsage);
System.
out.
println(similarity
);
final Map
<String, Double
> tagToDiff
= new HashMap
<>(); for (final String tag
: tagToNormalisedIgnores.
keySet()) {
double diff = tagToNormalisedIgnores.get(tag) - tagToNormalisedUsage.get(tag);
tagToDiff.put(tag, diff);
}
tagToDiff.entrySet().stream()
.
forEach(System.
out::println
); }
private static double cosineSimilarity
(Map
<String, Double
> a, Map
<String, Double
> b
) {
final Set<String> intersection = new HashSet<>(a.keySet());
intersection.retainAll(b.keySet());
double dotProduct = 0, magnitudeA = 0, magnitudeB = 0;
for (String item
: intersection
) { dotProduct += a.get(item) * b.get(item);
}
magnitudeA
+= Math.
pow(a.
get(k
),
2); }
magnitudeB
+= Math.
pow(b.
get(k
),
2); }
return dotProduct
/ Math.
sqrt(magnitudeA
* magnitudeB
); }
}
import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;
import java.util.stream.Collectors;

class Test
{
    private static Map<String, Integer> tagToIgnores = new HashMap<>();
    private static Map<String, Integer> tagToUsage = new HashMap<>();
    
    static
    {
        tagToIgnores.put("c#", 23790);
        tagToIgnores.put("php", 23721);
        tagToIgnores.put("java", 22250);
        tagToIgnores.put("android", 22201);
        tagToIgnores.put("asp.net", 17320);
        tagToIgnores.put("c++", 15191);
        tagToIgnores.put("python", 14869);
        tagToIgnores.put(".net", 13293);
        tagToIgnores.put("ruby", 12691);
        tagToIgnores.put("ios", 11896);
        tagToIgnores.put("ruby-on-rails", 11819);
        tagToIgnores.put("iphone", 10955);
        tagToIgnores.put("javascript", 10078);
        tagToIgnores.put("objective-c", 8587);
        tagToIgnores.put("vb.net", 7892);
        tagToIgnores.put("c", 7767);
        tagToIgnores.put("jquery", 6939);
        tagToIgnores.put("delphi", 6563);
        tagToIgnores.put("django", 6423);
        tagToIgnores.put("perl", 5925);
        tagToIgnores.put("asp.net-mvc", 5887);
        tagToIgnores.put("flash", 5569);
        tagToIgnores.put("mysql", 5142);
        tagToIgnores.put("windows", 5131);
        tagToIgnores.put("facebook", 4851);
        tagToIgnores.put("r", 4629);
        tagToIgnores.put("wpf", 4484);
        tagToIgnores.put("visual-studio", 4392);
        tagToIgnores.put("angularjs", 4298);
        tagToIgnores.put("flex", 4186);
        tagToIgnores.put("sql-server", 4108);
        tagToIgnores.put("wordpress", 4076);
        tagToIgnores.put("silverlight", 4016);
        tagToIgnores.put("oracle", 4005);
        tagToIgnores.put("css", 3972);
        tagToIgnores.put("haskell", 3752);
        tagToIgnores.put("scala", 3737);
        tagToIgnores.put("html", 3663);
        tagToIgnores.put("vba", 3624);
        tagToIgnores.put("sql", 3359);
        tagToIgnores.put("node.js", 3232);
        tagToIgnores.put("matlab", 3220);
        tagToIgnores.put("sharepoint", 3108);
        tagToIgnores.put("eclipse", 3073);
        tagToIgnores.put("xcode", 3068);
        tagToIgnores.put("swift", 3065);
        tagToIgnores.put("angular", 2956);
        tagToIgnores.put("spring", 2890);
        tagToIgnores.put("linux", 2875);
        tagToIgnores.put("macos", 2804);

        tagToUsage.put("c#", 1286491);
        tagToUsage.put("php", 1263058);
        tagToUsage.put("java", 1515802);
        tagToUsage.put("android", 1173706);
        tagToUsage.put("asp.net", 342947);
        tagToUsage.put("c++", 605528);
        tagToUsage.put("python", 1114060);
        tagToUsage.put(".net", 279901);
        tagToUsage.put("ruby", 202463);
        tagToUsage.put("ios", 591066);
        tagToUsage.put("ruby-on-rails", 303176);
        tagToUsage.put("iphone", 219814);
        tagToUsage.put("javascript", 1763733);
        tagToUsage.put("objective-c", 286812);
        tagToUsage.put("vb.net", 122490);
        tagToUsage.put("c", 296656);
        tagToUsage.put("jquery", 944680);
        tagToUsage.put("delphi", 43337);
        tagToUsage.put("django", 190837);
        tagToUsage.put("perl", 61725);
        tagToUsage.put("asp.net-mvc", 178208);
        tagToUsage.put("flash", 35282);
        tagToUsage.put("mysql", 550486);
        tagToUsage.put("windows", 127560);
        tagToUsage.put("facebook", 83210);
        tagToUsage.put("r", 276465);
        tagToUsage.put("wpf", 147423);
        tagToUsage.put("visual-studio", 85729);
        tagToUsage.put("angularjs", 257148);
        tagToUsage.put("flex", 24297);
        tagToUsage.put("sql-server", 253505);
        tagToUsage.put("wordpress", 145586);
        tagToUsage.put("silverlight", 27515);
        tagToUsage.put("oracle", 106795);
        tagToUsage.put("css", 574065);
        tagToUsage.put("haskell", 39976);
        tagToUsage.put("scala", 86886);
        tagToUsage.put("html", 804877);
        tagToUsage.put("vba", 139729);
        tagToUsage.put("sql", 479302);
        tagToUsage.put("node.js", 262844);
        tagToUsage.put("matlab", 82398);
        tagToUsage.put("sharepoint", 24236);
        tagToUsage.put("eclipse", 115751);
        tagToUsage.put("xcode", 130502);
        tagToUsage.put("swift", 221958);
        tagToUsage.put("angular", 153902);
        tagToUsage.put("spring", 147214);
        tagToUsage.put("linux", 173188);
        tagToUsage.put("macos", 90234);
    }

    public static void main(String[] args)
    {
        final double averageFreq = tagToIgnores.values().stream().mapToInt(x -> x).average().orElse(0);
        final double averageUsage = tagToUsage.values().stream().mapToInt(x -> x).average().orElse(0);

        final Map<String, Double> tagToNormalisedIgnores = tagToIgnores.entrySet()
            .stream()
            .collect(Collectors.toMap(Map.Entry::getKey, v -> v.getValue() / averageFreq));

        final Map<String, Double> tagToNormalisedUsage = tagToUsage.entrySet()
            .stream()
            .collect(Collectors.toMap(Map.Entry::getKey, v -> v.getValue() / averageUsage));

        final double similarity = cosineSimilarity(tagToNormalisedIgnores, tagToNormalisedUsage);
        System.out.println(similarity);
        System.out.println();
        
        
        final Map<String, Double> tagToDiff = new HashMap<>();
        for (final String tag : tagToNormalisedIgnores.keySet())
        {
            double diff = tagToNormalisedIgnores.get(tag) - tagToNormalisedUsage.get(tag);
            tagToDiff.put(tag, diff);
        }
        tagToDiff.entrySet().stream()
            .sorted(Map.Entry.comparingByValue())
            .forEach(System.out::println);
    }

    private static double cosineSimilarity(Map<String, Double> a, Map<String, Double> b)
    {
        final Set<String> intersection = new HashSet<>(a.keySet());
        intersection.retainAll(b.keySet());

        double dotProduct = 0, magnitudeA = 0, magnitudeB = 0;

        for (String item : intersection) {
            dotProduct += a.get(item) * b.get(item);
        }
        for (String k : a.keySet()) {
            magnitudeA += Math.pow(a.get(k), 2);
        }
        for (String k : b.keySet()) {
            magnitudeB += Math.pow(b.get(k), 2);
        }
        return dotProduct / Math.sqrt(magnitudeA * magnitudeB);
    }
}