Ideone.com

download

copy

import pandas as pd
import os
from nltk.corpus import stopwords
import nltk.data
import logging
import numpy as np  # Make sure that numpy is imported
from gensim.models import Word2Vec
 
 
from KaggleWord2VecUtility import KaggleWord2VecUtility
 
 
if __name__ == '__main__':
 
    # Read data from files
    train = pd.read_csv( os.path.join(os.path.dirname(__file__), 'labeledTrainData.tsv'), header=0, delimiter="\t", quoting=3)
    test = pd.read_csv(os.path.join(os.path.dirname(__file__),  'testData.tsv'), header=0, delimiter="\t", quoting=3 )
    unlabeled_train = pd.read_csv( os.path.join(os.path.dirname(__file__),  "unlabeledTrainData.tsv"), header=0,delimiter="\t", quoting=3 )
 
    # Verify the number of reviews that were read (100,000 in total)
    print "Read %d labeled train reviews, %d labeled test reviews, " \
     "and %d unlabeled reviews\n" % (train["review"].size,
     test["review"].size, unlabeled_train["review"].size )
 
 
 
    # Load the punkt tokenizer
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
 
 
 
    # ****** Split the labeled and unlabeled training sets into clean sentences
    #
    sentences = []  # Initialize an empty list of sentences
 
    print "Parsing sentences from training set"
    for review in train["review"]:
        sentences += KaggleWord2VecUtility.review_to_sentences(review, tokenizer)
 
    print "Parsing sentences from unlabeled set"
    for review in unlabeled_train["review"]:
        sentences += KaggleWord2VecUtility.review_to_sentences(review, tokenizer)
 
    # ****** Set parameters and train the word2vec model
    #
    # Import the built-in logging module and configure it so that Word2Vec
    # creates nice output messages
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
        level=logging.INFO)
 
    # Set values for various parameters
    num_features = 300    # Word vector dimensionality
    min_word_count = 40   # Minimum word count
    num_workers = 4       # Number of threads to run in parallel
    context = 10          # Context window size
    downsampling = 1e-3   # Downsample setting for frequent words
 
    # Initialize and train the model (this will take some time)
    print "Training Word2Vec model..."
    model = Word2Vec(sentences, workers=num_workers, \
                size=num_features, min_count = min_word_count, \
                window = context, sample = downsampling, seed=1)
 
    # If you don't plan to train the model any further, calling
    # init_sims will make the model much more memory-efficient.
    model.init_sims(replace=True)
 
    # It can be helpful to create a meaningful model name and
    # save the model for later use. You can load it later using Word2Vec.load()
    model_name = "300features_40minwords_10context.txt"
    model.save(model_name)
 
    model_name = "300features_40minwords_10context.bin"
    model.save(model_name)	
 
    print model.doesnt_match("man woman child kitchen".split())
    model.doesnt_match("france england germany berlin".split())
    model.doesnt_match("paris berlin london austria".split())
    model.most_similar("man")
    model.most_similar("queen")
    model.most_similar("awful")

aW1wb3J0IHBhbmRhcyBhcyBwZAppbXBvcnQgb3MKZnJvbSBubHRrLmNvcnB1cyBpbXBvcnQgc3RvcHdvcmRzCmltcG9ydCBubHRrLmRhdGEKaW1wb3J0IGxvZ2dpbmcKaW1wb3J0IG51bXB5IGFzIG5wICAjIE1ha2Ugc3VyZSB0aGF0IG51bXB5IGlzIGltcG9ydGVkCmZyb20gZ2Vuc2ltLm1vZGVscyBpbXBvcnQgV29yZDJWZWMKCgpmcm9tIEthZ2dsZVdvcmQyVmVjVXRpbGl0eSBpbXBvcnQgS2FnZ2xlV29yZDJWZWNVdGlsaXR5CgoKaWYgX19uYW1lX18gPT0gJ19fbWFpbl9fJzoKCiAgICAjIFJlYWQgZGF0YSBmcm9tIGZpbGVzCiAgICB0cmFpbiA9IHBkLnJlYWRfY3N2KCBvcy5wYXRoLmpvaW4ob3MucGF0aC5kaXJuYW1lKF9fZmlsZV9fKSwgJ2xhYmVsZWRUcmFpbkRhdGEudHN2JyksIGhlYWRlcj0wLCBkZWxpbWl0ZXI9Ilx0IiwgcXVvdGluZz0zKQogICAgdGVzdCA9IHBkLnJlYWRfY3N2KG9zLnBhdGguam9pbihvcy5wYXRoLmRpcm5hbWUoX19maWxlX18pLCAgJ3Rlc3REYXRhLnRzdicpLCBoZWFkZXI9MCwgZGVsaW1pdGVyPSJcdCIsIHF1b3Rpbmc9MyApCiAgICB1bmxhYmVsZWRfdHJhaW4gPSBwZC5yZWFkX2Nzdiggb3MucGF0aC5qb2luKG9zLnBhdGguZGlybmFtZShfX2ZpbGVfXyksICAidW5sYWJlbGVkVHJhaW5EYXRhLnRzdiIpLCBoZWFkZXI9MCxkZWxpbWl0ZXI9Ilx0IiwgcXVvdGluZz0zICkKCiAgICAjIFZlcmlmeSB0aGUgbnVtYmVyIG9mIHJldmlld3MgdGhhdCB3ZXJlIHJlYWQgKDEwMCwwMDAgaW4gdG90YWwpCiAgICBwcmludCAiUmVhZCAlZCBsYWJlbGVkIHRyYWluIHJldmlld3MsICVkIGxhYmVsZWQgdGVzdCByZXZpZXdzLCAiIFwKICAgICAiYW5kICVkIHVubGFiZWxlZCByZXZpZXdzXG4iICUgKHRyYWluWyJyZXZpZXciXS5zaXplLAogICAgIHRlc3RbInJldmlldyJdLnNpemUsIHVubGFiZWxlZF90cmFpblsicmV2aWV3Il0uc2l6ZSApCgoKCiAgICAjIExvYWQgdGhlIHB1bmt0IHRva2VuaXplcgogICAgdG9rZW5pemVyID0gbmx0ay5kYXRhLmxvYWQoJ3Rva2VuaXplcnMvcHVua3QvZW5nbGlzaC5waWNrbGUnKQoKCgogICAgIyAqKioqKiogU3BsaXQgdGhlIGxhYmVsZWQgYW5kIHVubGFiZWxlZCB0cmFpbmluZyBzZXRzIGludG8gY2xlYW4gc2VudGVuY2VzCiAgICAjCiAgICBzZW50ZW5jZXMgPSBbXSAgIyBJbml0aWFsaXplIGFuIGVtcHR5IGxpc3Qgb2Ygc2VudGVuY2VzCgogICAgcHJpbnQgIlBhcnNpbmcgc2VudGVuY2VzIGZyb20gdHJhaW5pbmcgc2V0IgogICAgZm9yIHJldmlldyBpbiB0cmFpblsicmV2aWV3Il06CiAgICAgICAgc2VudGVuY2VzICs9IEthZ2dsZVdvcmQyVmVjVXRpbGl0eS5yZXZpZXdfdG9fc2VudGVuY2VzKHJldmlldywgdG9rZW5pemVyKQoKICAgIHByaW50ICJQYXJzaW5nIHNlbnRlbmNlcyBmcm9tIHVubGFiZWxlZCBzZXQiCiAgICBmb3IgcmV2aWV3IGluIHVubGFiZWxlZF90cmFpblsicmV2aWV3Il06CiAgICAgICAgc2VudGVuY2VzICs9IEthZ2dsZVdvcmQyVmVjVXRpbGl0eS5yZXZpZXdfdG9fc2VudGVuY2VzKHJldmlldywgdG9rZW5pemVyKQoKICAgICMgKioqKioqIFNldCBwYXJhbWV0ZXJzIGFuZCB0cmFpbiB0aGUgd29yZDJ2ZWMgbW9kZWwKICAgICMKICAgICMgSW1wb3J0IHRoZSBidWlsdC1pbiBsb2dnaW5nIG1vZHVsZSBhbmQgY29uZmlndXJlIGl0IHNvIHRoYXQgV29yZDJWZWMKICAgICMgY3JlYXRlcyBuaWNlIG91dHB1dCBtZXNzYWdlcwogICAgbG9nZ2luZy5iYXNpY0NvbmZpZyhmb3JtYXQ9JyUoYXNjdGltZSlzIDogJShsZXZlbG5hbWUpcyA6ICUobWVzc2FnZSlzJyxcCiAgICAgICAgbGV2ZWw9bG9nZ2luZy5JTkZPKQoKICAgICMgU2V0IHZhbHVlcyBmb3IgdmFyaW91cyBwYXJhbWV0ZXJzCiAgICBudW1fZmVhdHVyZXMgPSAzMDAgICAgIyBXb3JkIHZlY3RvciBkaW1lbnNpb25hbGl0eQogICAgbWluX3dvcmRfY291bnQgPSA0MCAgICMgTWluaW11bSB3b3JkIGNvdW50CiAgICBudW1fd29ya2VycyA9IDQgICAgICAgIyBOdW1iZXIgb2YgdGhyZWFkcyB0byBydW4gaW4gcGFyYWxsZWwKICAgIGNvbnRleHQgPSAxMCAgICAgICAgICAjIENvbnRleHQgd2luZG93IHNpemUKICAgIGRvd25zYW1wbGluZyA9IDFlLTMgICAjIERvd25zYW1wbGUgc2V0dGluZyBmb3IgZnJlcXVlbnQgd29yZHMKCiAgICAjIEluaXRpYWxpemUgYW5kIHRyYWluIHRoZSBtb2RlbCAodGhpcyB3aWxsIHRha2Ugc29tZSB0aW1lKQogICAgcHJpbnQgIlRyYWluaW5nIFdvcmQyVmVjIG1vZGVsLi4uIgogICAgbW9kZWwgPSBXb3JkMlZlYyhzZW50ZW5jZXMsIHdvcmtlcnM9bnVtX3dvcmtlcnMsIFwKICAgICAgICAgICAgICAgIHNpemU9bnVtX2ZlYXR1cmVzLCBtaW5fY291bnQgPSBtaW5fd29yZF9jb3VudCwgXAogICAgICAgICAgICAgICAgd2luZG93ID0gY29udGV4dCwgc2FtcGxlID0gZG93bnNhbXBsaW5nLCBzZWVkPTEpCgogICAgIyBJZiB5b3UgZG9uJ3QgcGxhbiB0byB0cmFpbiB0aGUgbW9kZWwgYW55IGZ1cnRoZXIsIGNhbGxpbmcKICAgICMgaW5pdF9zaW1zIHdpbGwgbWFrZSB0aGUgbW9kZWwgbXVjaCBtb3JlIG1lbW9yeS1lZmZpY2llbnQuCiAgICBtb2RlbC5pbml0X3NpbXMocmVwbGFjZT1UcnVlKQoKICAgICMgSXQgY2FuIGJlIGhlbHBmdWwgdG8gY3JlYXRlIGEgbWVhbmluZ2Z1bCBtb2RlbCBuYW1lIGFuZAogICAgIyBzYXZlIHRoZSBtb2RlbCBmb3IgbGF0ZXIgdXNlLiBZb3UgY2FuIGxvYWQgaXQgbGF0ZXIgdXNpbmcgV29yZDJWZWMubG9hZCgpCiAgICBtb2RlbF9uYW1lID0gIjMwMGZlYXR1cmVzXzQwbWlud29yZHNfMTBjb250ZXh0LnR4dCIKICAgIG1vZGVsLnNhdmUobW9kZWxfbmFtZSkKCiAgICBtb2RlbF9uYW1lID0gIjMwMGZlYXR1cmVzXzQwbWlud29yZHNfMTBjb250ZXh0LmJpbiIKICAgIG1vZGVsLnNhdmUobW9kZWxfbmFtZSkJCgogICAgcHJpbnQgbW9kZWwuZG9lc250X21hdGNoKCJtYW4gd29tYW4gY2hpbGQga2l0Y2hlbiIuc3BsaXQoKSkKICAgIG1vZGVsLmRvZXNudF9tYXRjaCgiZnJhbmNlIGVuZ2xhbmQgZ2VybWFueSBiZXJsaW4iLnNwbGl0KCkpCiAgICBtb2RlbC5kb2VzbnRfbWF0Y2goInBhcmlzIGJlcmxpbiBsb25kb24gYXVzdHJpYSIuc3BsaXQoKSkKICAgIG1vZGVsLm1vc3Rfc2ltaWxhcigibWFuIikKICAgIG1vZGVsLm1vc3Rfc2ltaWxhcigicXVlZW4iKQogICAgbW9kZWwubW9zdF9zaW1pbGFyKCJhd2Z1bCIp

Runtime error #stdin #stdout #stderr 0s 7848KB

stdin

copy

Standard input is empty

stdout

copy

Standard output is empty

stderr

copy

Traceback (most recent call last):
  File "prog.py", line 1, in <module>
ImportError: No module named pandas

https://ideone.com/9DXo4w

language:

Python (cpython 2.7.16)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language