Ideone.com

fork download

import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;p
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.jsoup.Jsoup;
 
public class MapReduceProgram1 extends Configured implements Tool{
 
	public static void main(String[] args) throws Exception {
		int exitCode = ToolRunner.run(new MapReduceProgram1(), args);
		System.exit(exitCode);
	}
 
	@Override
	public int run(String[] args) throws Exception {
		if (args.length != 2) {
			System.err.printf("Usage: %s [generic options] <input> <output>\n",
			getClass().getSimpleName());
			ToolRunner.printGenericCommandUsage(System.err);
			return -1;
		}
 
		Job job = new Job(getConf());
		job.setJarByClass(getClass());
		job.setJobName(getClass().getSimpleName());
 
		//WholeFileInputFormat.addInputPath(job, new Path(args[0]));
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
 
		job.setMapperClass(MyMapper.class);
		job.setReducerClass(MyReducer.class);
 
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		return job.waitForCompletion(true) ? 0 : 1;
	}
 
	class MyMapper extends Mapper<NullWritable,BytesWritable,Text,LongWritable>{
 
		private Text word = new Text();
		private LongWritable count = new LongWritable(1);
 
		@Override
		public void map(NullWritable key, BytesWritable value, Context context) throws IOException, InterruptedException{
			String html = value.toString();
			String text = Jsoup.parse(html).text();
 
			String[] keywords = {"education", "politics", "sports", "agriculture"};
			for(int i=0; i<keywords.length; i++){
				text = text.replaceAll("(?i)"+keywords[i], keywords[i]);
 
				int lastIndex = 0;
 
				do{
					lastIndex = text.indexOf(text,lastIndex);
					if (lastIndex != -1){
						word.set(keywords[i]);
						context.write(word, count);
						lastIndex += keywords[i].length();
					}
				}
				while(lastIndex != -1);
			}
 
		}
	}
 
	class MyReducer extends Reducer<Text,LongWritable,Text,LongWritable>{
 
		private LongWritable result = new LongWritable();
 
		@Override
		public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException{
			long sum = 0;
			for(LongWritable val: values){
				sum += val.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}
 
	class NonSplittableTextInputFormat extends TextInputFormat {
		@Override
		protected boolean isSplitable(JobContext context, Path file) {
			return false;
		}
	}
 
	class WholeFileInputFormat extends FileInputFormat<NullWritable, BytesWritable> {
 
		@Override
		protected boolean isSplitable(JobContext context, Path file) {
			return false;
		}
 
		@Override
		public RecordReader<NullWritable, BytesWritable> createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
			WholeFileRecordReader reader = new WholeFileRecordReader();
			reader.initialize(split, context);
			return reader;
		}
	}
 
	class WholeFileRecordReader extends RecordReader<NullWritable, BytesWritable> {
		private FileSplit fileSplit;
		private Configuration conf;
		private BytesWritable value = new BytesWritable();
		private boolean processed = false;
 
		@Override
		public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {
			this.fileSplit = (FileSplit) split;
			this.conf = context.getConfiguration();
		}
 
		@Override
		public boolean nextKeyValue() throws IOException, InterruptedException {
			if (!processed) {
				byte[] contents = new byte[(int) fileSplit.getLength()];
				Path file = fileSplit.getPath();
				FileSystem fs = file.getFileSystem(conf);
				FSDataInputStream in = null;
 
				try {
					in = fs.open(file);
					IOUtils.readFully(in, contents, 0, contents.length);
					value.set(contents, 0, contents.length);
					} finally {
					IOUtils.closeStream(in);
				}
				processed = true;
				return true;
			}
			return false;
		}
 
		@Override
		public NullWritable getCurrentKey() throws IOException, InterruptedException {
			return NullWritable.get();
		}
 
		@Override
		public BytesWritable getCurrentValue() throws IOException, InterruptedException {
			return value;
		}
 
		@Override
		public float getProgress() throws IOException {
			return processed ? 1.0f : 0.0f;
		}
 
		@Override
		public void close() throws IOException {
			// do nothing
		}
	}
}

aW1wb3J0IGphdmEuaW8uSU9FeGNlcHRpb247CgppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AuY29uZi5Db25maWd1cmF0aW9uOwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AuY29uZi5Db25maWd1cmVkOwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AuZnMuRlNEYXRhSW5wdXRTdHJlYW07CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5mcy5GaWxlU3lzdGVtOwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AuZnMuUGF0aDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLmlvLkJ5dGVzV3JpdGFibGU7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5pby5JT1V0aWxzOwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AuaW8uTG9uZ1dyaXRhYmxlO3AKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLmlvLk51bGxXcml0YWJsZTsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLmlvLlRleHQ7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5tYXByZWR1Y2UuSW5wdXRTcGxpdDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLm1hcHJlZHVjZS5Kb2I7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5tYXByZWR1Y2UuSm9iQ29udGV4dDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLm1hcHJlZHVjZS5NYXBwZXI7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5tYXByZWR1Y2UuUmVjb3JkUmVhZGVyOwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AubWFwcmVkdWNlLlJlZHVjZXI7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5tYXByZWR1Y2UuVGFza0F0dGVtcHRDb250ZXh0OwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AubWFwcmVkdWNlLmxpYi5pbnB1dC5GaWxlSW5wdXRGb3JtYXQ7CmltcG9ydCBvcmcuYXBhY2hlLmhhZG9vcC5tYXByZWR1Y2UubGliLmlucHV0LkZpbGVTcGxpdDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLm1hcHJlZHVjZS5saWIuaW5wdXQuVGV4dElucHV0Rm9ybWF0OwppbXBvcnQgb3JnLmFwYWNoZS5oYWRvb3AubWFwcmVkdWNlLmxpYi5vdXRwdXQuRmlsZU91dHB1dEZvcm1hdDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLnV0aWwuVG9vbDsKaW1wb3J0IG9yZy5hcGFjaGUuaGFkb29wLnV0aWwuVG9vbFJ1bm5lcjsKaW1wb3J0IG9yZy5qc291cC5Kc291cDsKCnB1YmxpYyBjbGFzcyBNYXBSZWR1Y2VQcm9ncmFtMSBleHRlbmRzIENvbmZpZ3VyZWQgaW1wbGVtZW50cyBUb29sewoKCXB1YmxpYyBzdGF0aWMgdm9pZCBtYWluKFN0cmluZ1tdIGFyZ3MpIHRocm93cyBFeGNlcHRpb24gewoJCWludCBleGl0Q29kZSA9IFRvb2xSdW5uZXIucnVuKG5ldyBNYXBSZWR1Y2VQcm9ncmFtMSgpLCBhcmdzKTsKCQlTeXN0ZW0uZXhpdChleGl0Q29kZSk7Cgl9CgoJQE92ZXJyaWRlCglwdWJsaWMgaW50IHJ1bihTdHJpbmdbXSBhcmdzKSB0aHJvd3MgRXhjZXB0aW9uIHsKCQlpZiAoYXJncy5sZW5ndGggIT0gMikgewoJCQlTeXN0ZW0uZXJyLnByaW50ZigiVXNhZ2U6ICVzIFtnZW5lcmljIG9wdGlvbnNdIDxpbnB1dD4gPG91dHB1dD5cbiIsCgkJCWdldENsYXNzKCkuZ2V0U2ltcGxlTmFtZSgpKTsKCQkJVG9vbFJ1bm5lci5wcmludEdlbmVyaWNDb21tYW5kVXNhZ2UoU3lzdGVtLmVycik7CgkJCXJldHVybiAtMTsKCQl9CgoJCUpvYiBqb2IgPSBuZXcgSm9iKGdldENvbmYoKSk7CgkJam9iLnNldEphckJ5Q2xhc3MoZ2V0Q2xhc3MoKSk7CgkJam9iLnNldEpvYk5hbWUoZ2V0Q2xhc3MoKS5nZXRTaW1wbGVOYW1lKCkpOwoKCQkvL1dob2xlRmlsZUlucHV0Rm9ybWF0LmFkZElucHV0UGF0aChqb2IsIG5ldyBQYXRoKGFyZ3NbMF0pKTsKCQlGaWxlSW5wdXRGb3JtYXQuYWRkSW5wdXRQYXRoKGpvYiwgbmV3IFBhdGgoYXJnc1swXSkpOwoJCUZpbGVPdXRwdXRGb3JtYXQuc2V0T3V0cHV0UGF0aChqb2IsIG5ldyBQYXRoKGFyZ3NbMV0pKTsKCgkJam9iLnNldE1hcHBlckNsYXNzKE15TWFwcGVyLmNsYXNzKTsKCQlqb2Iuc2V0UmVkdWNlckNsYXNzKE15UmVkdWNlci5jbGFzcyk7CgoJCWpvYi5zZXRPdXRwdXRLZXlDbGFzcyhUZXh0LmNsYXNzKTsKCQlqb2Iuc2V0T3V0cHV0VmFsdWVDbGFzcyhMb25nV3JpdGFibGUuY2xhc3MpOwoJCXJldHVybiBqb2Iud2FpdEZvckNvbXBsZXRpb24odHJ1ZSkgPyAwIDogMTsKCX0KCgljbGFzcyBNeU1hcHBlciBleHRlbmRzIE1hcHBlcjxOdWxsV3JpdGFibGUsQnl0ZXNXcml0YWJsZSxUZXh0LExvbmdXcml0YWJsZT57CgoJCXByaXZhdGUgVGV4dCB3b3JkID0gbmV3IFRleHQoKTsKCQlwcml2YXRlIExvbmdXcml0YWJsZSBjb3VudCA9IG5ldyBMb25nV3JpdGFibGUoMSk7CgoJCUBPdmVycmlkZQoJCXB1YmxpYyB2b2lkIG1hcChOdWxsV3JpdGFibGUga2V5LCBCeXRlc1dyaXRhYmxlIHZhbHVlLCBDb250ZXh0IGNvbnRleHQpIHRocm93cyBJT0V4Y2VwdGlvbiwgSW50ZXJydXB0ZWRFeGNlcHRpb257CgkJCVN0cmluZyBodG1sID0gdmFsdWUudG9TdHJpbmcoKTsKCQkJU3RyaW5nIHRleHQgPSBKc291cC5wYXJzZShodG1sKS50ZXh0KCk7CgoJCQlTdHJpbmdbXSBrZXl3b3JkcyA9IHsiZWR1Y2F0aW9uIiwgInBvbGl0aWNzIiwgInNwb3J0cyIsICJhZ3JpY3VsdHVyZSJ9OwoJCQlmb3IoaW50IGk9MDsgaTxrZXl3b3Jkcy5sZW5ndGg7IGkrKyl7CgkJCQl0ZXh0ID0gdGV4dC5yZXBsYWNlQWxsKCIoP2kpIitrZXl3b3Jkc1tpXSwga2V5d29yZHNbaV0pOwoJCQoJCQkJaW50IGxhc3RJbmRleCA9IDA7CgkJCgkJCQlkb3sKCQkJCQlsYXN0SW5kZXggPSB0ZXh0LmluZGV4T2YodGV4dCxsYXN0SW5kZXgpOwoJCQkJCWlmIChsYXN0SW5kZXggIT0gLTEpewoJCQkJCQl3b3JkLnNldChrZXl3b3Jkc1tpXSk7CgkJCQkJCWNvbnRleHQud3JpdGUod29yZCwgY291bnQpOwoJCQkJCQlsYXN0SW5kZXggKz0ga2V5d29yZHNbaV0ubGVuZ3RoKCk7CgkJCQkJfQoJCQkJfQoJCQkJd2hpbGUobGFzdEluZGV4ICE9IC0xKTsKCQkJfQoKCQl9Cgl9CgoJY2xhc3MgTXlSZWR1Y2VyIGV4dGVuZHMgUmVkdWNlcjxUZXh0LExvbmdXcml0YWJsZSxUZXh0LExvbmdXcml0YWJsZT57CgkJCgkJcHJpdmF0ZSBMb25nV3JpdGFibGUgcmVzdWx0ID0gbmV3IExvbmdXcml0YWJsZSgpOwoJCQoJCUBPdmVycmlkZQoJCXB1YmxpYyB2b2lkIHJlZHVjZShUZXh0IGtleSwgSXRlcmFibGU8TG9uZ1dyaXRhYmxlPiB2YWx1ZXMsIENvbnRleHQgY29udGV4dCkgdGhyb3dzIElPRXhjZXB0aW9uLCBJbnRlcnJ1cHRlZEV4Y2VwdGlvbnsKCQkJbG9uZyBzdW0gPSAwOwoJCQlmb3IoTG9uZ1dyaXRhYmxlIHZhbDogdmFsdWVzKXsKCQkJCXN1bSArPSB2YWwuZ2V0KCk7CgkJCX0KCQkJcmVzdWx0LnNldChzdW0pOwoJCQljb250ZXh0LndyaXRlKGtleSwgcmVzdWx0KTsKCQl9Cgl9CgoJY2xhc3MgTm9uU3BsaXR0YWJsZVRleHRJbnB1dEZvcm1hdCBleHRlbmRzIFRleHRJbnB1dEZvcm1hdCB7CgkJQE92ZXJyaWRlCgkJcHJvdGVjdGVkIGJvb2xlYW4gaXNTcGxpdGFibGUoSm9iQ29udGV4dCBjb250ZXh0LCBQYXRoIGZpbGUpIHsKCQkJcmV0dXJuIGZhbHNlOwoJCX0KCX0KCgljbGFzcyBXaG9sZUZpbGVJbnB1dEZvcm1hdCBleHRlbmRzIEZpbGVJbnB1dEZvcm1hdDxOdWxsV3JpdGFibGUsIEJ5dGVzV3JpdGFibGU+IHsKCgkJQE92ZXJyaWRlCgkJcHJvdGVjdGVkIGJvb2xlYW4gaXNTcGxpdGFibGUoSm9iQ29udGV4dCBjb250ZXh0LCBQYXRoIGZpbGUpIHsKCQkJcmV0dXJuIGZhbHNlOwoJCX0KCgkJQE92ZXJyaWRlCgkJcHVibGljIFJlY29yZFJlYWRlcjxOdWxsV3JpdGFibGUsIEJ5dGVzV3JpdGFibGU+IGNyZWF0ZVJlY29yZFJlYWRlcihJbnB1dFNwbGl0IHNwbGl0LCBUYXNrQXR0ZW1wdENvbnRleHQgY29udGV4dCkgdGhyb3dzIElPRXhjZXB0aW9uLCBJbnRlcnJ1cHRlZEV4Y2VwdGlvbiB7CgkJCVdob2xlRmlsZVJlY29yZFJlYWRlciByZWFkZXIgPSBuZXcgV2hvbGVGaWxlUmVjb3JkUmVhZGVyKCk7CgkJCXJlYWRlci5pbml0aWFsaXplKHNwbGl0LCBjb250ZXh0KTsKCQkJcmV0dXJuIHJlYWRlcjsKCQl9Cgl9CgoJY2xhc3MgV2hvbGVGaWxlUmVjb3JkUmVhZGVyIGV4dGVuZHMgUmVjb3JkUmVhZGVyPE51bGxXcml0YWJsZSwgQnl0ZXNXcml0YWJsZT4gewoJCXByaXZhdGUgRmlsZVNwbGl0IGZpbGVTcGxpdDsKCQlwcml2YXRlIENvbmZpZ3VyYXRpb24gY29uZjsKCQlwcml2YXRlIEJ5dGVzV3JpdGFibGUgdmFsdWUgPSBuZXcgQnl0ZXNXcml0YWJsZSgpOwoJCXByaXZhdGUgYm9vbGVhbiBwcm9jZXNzZWQgPSBmYWxzZTsKCgkJQE92ZXJyaWRlCgkJcHVibGljIHZvaWQgaW5pdGlhbGl6ZShJbnB1dFNwbGl0IHNwbGl0LCBUYXNrQXR0ZW1wdENvbnRleHQgY29udGV4dCkgdGhyb3dzIElPRXhjZXB0aW9uLCBJbnRlcnJ1cHRlZEV4Y2VwdGlvbiB7CgkJCXRoaXMuZmlsZVNwbGl0ID0gKEZpbGVTcGxpdCkgc3BsaXQ7CgkJCXRoaXMuY29uZiA9IGNvbnRleHQuZ2V0Q29uZmlndXJhdGlvbigpOwoJCX0KCgkJQE92ZXJyaWRlCgkJcHVibGljIGJvb2xlYW4gbmV4dEtleVZhbHVlKCkgdGhyb3dzIElPRXhjZXB0aW9uLCBJbnRlcnJ1cHRlZEV4Y2VwdGlvbiB7CgkJCWlmICghcHJvY2Vzc2VkKSB7CgkJCQlieXRlW10gY29udGVudHMgPSBuZXcgYnl0ZVsoaW50KSBmaWxlU3BsaXQuZ2V0TGVuZ3RoKCldOwoJCQkJUGF0aCBmaWxlID0gZmlsZVNwbGl0LmdldFBhdGgoKTsKCQkJCUZpbGVTeXN0ZW0gZnMgPSBmaWxlLmdldEZpbGVTeXN0ZW0oY29uZik7CgkJCQlGU0RhdGFJbnB1dFN0cmVhbSBpbiA9IG51bGw7CgkJCQkKCQkJCXRyeSB7CgkJCQkJaW4gPSBmcy5vcGVuKGZpbGUpOwoJCQkJCUlPVXRpbHMucmVhZEZ1bGx5KGluLCBjb250ZW50cywgMCwgY29udGVudHMubGVuZ3RoKTsKCQkJCQl2YWx1ZS5zZXQoY29udGVudHMsIDAsIGNvbnRlbnRzLmxlbmd0aCk7CgkJCQkJfSBmaW5hbGx5IHsKCQkJCQlJT1V0aWxzLmNsb3NlU3RyZWFtKGluKTsKCQkJCX0KCQkJCXByb2Nlc3NlZCA9IHRydWU7CgkJCQlyZXR1cm4gdHJ1ZTsKCQkJfQoJCQlyZXR1cm4gZmFsc2U7CgkJfQoKCQlAT3ZlcnJpZGUKCQlwdWJsaWMgTnVsbFdyaXRhYmxlIGdldEN1cnJlbnRLZXkoKSB0aHJvd3MgSU9FeGNlcHRpb24sIEludGVycnVwdGVkRXhjZXB0aW9uIHsKCQkJcmV0dXJuIE51bGxXcml0YWJsZS5nZXQoKTsKCQl9CgkJCgkJQE92ZXJyaWRlCgkJcHVibGljIEJ5dGVzV3JpdGFibGUgZ2V0Q3VycmVudFZhbHVlKCkgdGhyb3dzIElPRXhjZXB0aW9uLCBJbnRlcnJ1cHRlZEV4Y2VwdGlvbiB7CgkJCXJldHVybiB2YWx1ZTsKCQl9CgoJCUBPdmVycmlkZQoJCXB1YmxpYyBmbG9hdCBnZXRQcm9ncmVzcygpIHRocm93cyBJT0V4Y2VwdGlvbiB7CgkJCXJldHVybiBwcm9jZXNzZWQgPyAxLjBmIDogMC4wZjsKCQl9CgoJCUBPdmVycmlkZQoJCXB1YmxpYyB2b2lkIGNsb3NlKCkgdGhyb3dzIElPRXhjZXB0aW9uIHsKCQkJLy8gZG8gbm90aGluZwoJCX0KCX0KfQ==

Compilation error #stdin compilation error #stdout 0s 0KB

stdin

Standard input is empty

compilation info

Main.java:10: error: class, interface, or enum expected
import org.apache.hadoop.io.LongWritable;p
                                         ^
1 error

stdout

Standard output is empty

https://ideone.com/SyDFso

language:

Java (HotSpot 12)

created:

visibility:

public

Share or Embed source code

Discover > Sphere Engine API

The brand new service which powers Ideone!

Discover > IDE Widget

Widget for compiling and running the source code in a web browser!

Discover > Sphere Engine API

Discover > IDE Widget

Choose your language