Run Wordcount

The document outlines 10 steps to run a WordCount program on Hadoop: 1) Install Hadoop and Java, 2) Create input and output directories locally and on HDFS, 3) Add input file, 4) Export Hadoop classpath, 5) Create directories on HDFS, 6) View files on HDFS, 7) Compile WordCount.java, 8) Create Jar file, 9) Run Jar file on Hadoop, 10) Output results. The WordCount.java file provided implements a Mapper, Reducer, and main method to count word frequencies in an input file.

Uploaded by

Khushi Patil

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Download as docx, pdf, or txt

0% found this document useful (0 votes)

53 views3 pages

Run Wordcount

Uploaded by

Khushi Patil

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Download as docx, pdf, or txt

You are on page 1/ 3

Steps to run WordCount Program on Hadoop:

1. Make sure Hadoop and Java are installed properly

hadoop version
javac -version

2. Create a directory on the Desktop named Lab and inside it create two
folders; one called “Input” and the other called “tutorial_classes”.
[You can do this step using GUI normally or through terminal
commands]
cd /home/hadoop
mkdir WordCountTutorial
mkdir WordCountTutorial/input_data
mkdir WordCountTutorial/tutorial_classes
paste WordCount.java file in dir- WordCountTutorial
3. Add the file attached with this document “input.txt” in the directory
WordCountTutorial/input_data
4. Type the following command to export the hadoop classpath into bash.
export HADOOP_CLASSPATH=$(hadoop classpath)
Make sure it is now exported.
echo $HADOOP_CLASSPATH
5. It is time to create these directories on HDFS rather than locally. Type the
following commands.
hadoop fs -mkdir /WordCountTutorial
hadoop fs -mkdir /WordCountTutorial/Input
hadoop fs -put WordCountTutorial/input_data/input.txt
/WordCountTutorial/Input
6. Go to localhost:9870 from the browser, Open “Utilities → Browse File
System” and you should see the directories and files we placed in the file
system.
7. Then, back to local machine where we will compile the WordCount.java
file. Assuming we are currently in the Desktop directory.
cd WordCountTutorial
javac -classpath $HADOOP_CLASSPATH -d tutorial_classes
WordCount.java
Put the output files in one jar file (There is a dot at the end)
jar -cvf WordCount.jar -C tutorial_classes .

9. Now, we run the jar file on Hadoop.

hadoop jar WordCount.jar WordCount
/WordCountTutorial/Input /WordCountTutorial/Output
10. Output the result:
hadoop dfs -cat /WordCountTutorial/Output/*

Wordcount.java

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

public static class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, Context context

) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumReducer

extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,

Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

Running Jar Program
No ratings yet
Running Jar Program
3 pages
Wordcount
No ratings yet
Wordcount
3 pages
Practical 2c
No ratings yet
Practical 2c
2 pages
DSBDA GRP B Print
No ratings yet
DSBDA GRP B Print
21 pages
BDA Lab
No ratings yet
BDA Lab
13 pages
Word Count
No ratings yet
Word Count
10 pages
Practical-1: Aim: Hadoop Configuration and Single Node Cluster Setup and Perform File Management Task in
No ratings yet
Practical-1: Aim: Hadoop Configuration and Single Node Cluster Setup and Perform File Management Task in
61 pages
Cp5261 Da Lab Me-Cse 2021 - Edit
No ratings yet
Cp5261 Da Lab Me-Cse 2021 - Edit
88 pages
BDT Lab Manual
No ratings yet
BDT Lab Manual
48 pages
Mcsl26 See QP Solution 2024
No ratings yet
Mcsl26 See QP Solution 2024
33 pages
Source Code for Wordcount
No ratings yet
Source Code for Wordcount
3 pages
Tutorial-Counting Words in File (S) Using Mapreduce: Prerequisites
No ratings yet
Tutorial-Counting Words in File (S) Using Mapreduce: Prerequisites
11 pages
02-Wordcount Mapreduce
No ratings yet
02-Wordcount Mapreduce
5 pages
Big Data Practical 2
No ratings yet
Big Data Practical 2
11 pages
OddEven Program
No ratings yet
OddEven Program
2 pages
Word Count Program
No ratings yet
Word Count Program
3 pages
Step 2 - First MapReduce Program
No ratings yet
Step 2 - First MapReduce Program
25 pages
Week-8 de
No ratings yet
Week-8 de
9 pages
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
No ratings yet
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
13 pages
Steps to create jar file and execute word count problem in mapper reducer
No ratings yet
Steps to create jar file and execute word count problem in mapper reducer
5 pages
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
No ratings yet
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
5 pages
DA Lab Program-2
No ratings yet
DA Lab Program-2
6 pages
CSF443 Lab-Report Nimish Shandilya 1000016934
No ratings yet
CSF443 Lab-Report Nimish Shandilya 1000016934
17 pages
Ravinder Big Data 4 PDF
No ratings yet
Ravinder Big Data 4 PDF
15 pages
Practical 3bcbs
No ratings yet
Practical 3bcbs
5 pages
Installation of Hadoop
No ratings yet
Installation of Hadoop
37 pages
12 CodigoNetbeans
No ratings yet
12 CodigoNetbeans
5 pages
Part B Assignment - No - 1
No ratings yet
Part B Assignment - No - 1
6 pages
To Count Using Map and Reduce Program: Wordcount - Java
No ratings yet
To Count Using Map and Reduce Program: Wordcount - Java
2 pages
Map Reduce Example
No ratings yet
Map Reduce Example
6 pages
BDALab Assn4
No ratings yet
BDALab Assn4
9 pages
Import Import Import Import Import Import Import Import Public Class Extends Implements
No ratings yet
Import Import Import Import Import Import Import Import Public Class Extends Implements
7 pages
MapReduce Example
No ratings yet
MapReduce Example
3 pages
6 - Simple Wordcount
No ratings yet
6 - Simple Wordcount
2 pages
BDA Exp Removed Removed
No ratings yet
BDA Exp Removed Removed
33 pages
BDA LabManual
No ratings yet
BDA LabManual
20 pages
BDA3
No ratings yet
BDA3
7 pages
BDF Programs
No ratings yet
BDF Programs
32 pages
Developing A Simple Map-Reduce Program For Hadoop: Big Data Course CS6350 Professor: Dr. Latifur Khan
No ratings yet
Developing A Simple Map-Reduce Program For Hadoop: Big Data Course CS6350 Professor: Dr. Latifur Khan
22 pages
bda lab
No ratings yet
bda lab
39 pages
BDA
No ratings yet
BDA
6 pages
Lab3_BigData-MapReduce
No ratings yet
Lab3_BigData-MapReduce
8 pages
BDALab Assn4
No ratings yet
BDALab Assn4
9 pages
Exp-12
No ratings yet
Exp-12
7 pages
ADA Lab Manual
No ratings yet
ADA Lab Manual
34 pages
SalesData Map Reduce
No ratings yet
SalesData Map Reduce
3 pages
Word Count Program
No ratings yet
Word Count Program
2 pages
Lab Manual
No ratings yet
Lab Manual
86 pages
Big Data Manual
No ratings yet
Big Data Manual
82 pages
BDA Lab 8 Manual
No ratings yet
BDA Lab 8 Manual
7 pages
WordCount Program Hadoop Task 2
No ratings yet
WordCount Program Hadoop Task 2
7 pages
Big Data
No ratings yet
Big Data
23 pages
Big Data - ASSIGNMENT 2
No ratings yet
Big Data - ASSIGNMENT 2
15 pages
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
No ratings yet
Prácticas Bigdata: 1. Lanzar Un Proceso Mapreduce Contra El Cluster
3 pages
Hadoop WordCount
No ratings yet
Hadoop WordCount
2 pages
Big Data Fundamentals and Platforms Assginment 3
No ratings yet
Big Data Fundamentals and Platforms Assginment 3
6 pages
Exp 4 Word Count
No ratings yet
Exp 4 Word Count
4 pages
049
No ratings yet
049
2 pages
wrordcount
No ratings yet
wrordcount
2 pages
50 Recipes for Programming Node.js
From Everand
50 Recipes for Programming Node.js
Jamie Munro
3/5 (4)
TVL CSS11 Q2 DW10
No ratings yet
TVL CSS11 Q2 DW10
4 pages
Win XP
No ratings yet
Win XP
13 pages
Unit V Cloud Technologies and Advancements
No ratings yet
Unit V Cloud Technologies and Advancements
33 pages
CM Speed Tweaks (XDA and FE Versions)
No ratings yet
CM Speed Tweaks (XDA and FE Versions)
10 pages
Surti kepeleset
No ratings yet
Surti kepeleset
37 pages
Increasing The JVM Memory Allocation and Thread Stack Size - Documentation For Remedy Action Request System 9.1 - BMC Documentation
No ratings yet
Increasing The JVM Memory Allocation and Thread Stack Size - Documentation For Remedy Action Request System 9.1 - BMC Documentation
4 pages
Chapter 5: Threads: Silberschatz, Galvin and Gagne ©2013 Operating System Concepts - 9 Edition
No ratings yet
Chapter 5: Threads: Silberschatz, Galvin and Gagne ©2013 Operating System Concepts - 9 Edition
16 pages
Silent Install For The DT Trainer: Record Installation Answers
No ratings yet
Silent Install For The DT Trainer: Record Installation Answers
1 page
Air Horn 8 Crashed
No ratings yet
Air Horn 8 Crashed
17 pages
2024-12-03_00-50-56.7066_-0500-717f4236b7e6a4231c8a0f95424f1cf0d1edbac7
No ratings yet
2024-12-03_00-50-56.7066_-0500-717f4236b7e6a4231c8a0f95424f1cf0d1edbac7
12 pages
Operating Systems Test 2: Number of Questions: 35 Section Marks: 30
No ratings yet
Operating Systems Test 2: Number of Questions: 35 Section Marks: 30
5 pages
Internal Consistency Evaluators - Ices: Message Solution
100% (1)
Internal Consistency Evaluators - Ices: Message Solution
11 pages
7720 06b SD Card Backup and Restore
No ratings yet
7720 06b SD Card Backup and Restore
27 pages
File System Structure
No ratings yet
File System Structure
12 pages
Linux Pracs
No ratings yet
Linux Pracs
66 pages
A Review of Architectures - Intel Single Core, Intel Dual Core and AMD Dual Core Processors and The Benefits
No ratings yet
A Review of Architectures - Intel Single Core, Intel Dual Core and AMD Dual Core Processors and The Benefits
10 pages
Pipes, Redirection and Regex
No ratings yet
Pipes, Redirection and Regex
70 pages
2ND QUARTER ICT 11
No ratings yet
2ND QUARTER ICT 11
3 pages
Eject USB
No ratings yet
Eject USB
9 pages
Distributed Computing With Python - Sample Chapter
No ratings yet
Distributed Computing With Python - Sample Chapter
18 pages
Unix Case Study
88% (8)
Unix Case Study
5 pages
Tutorial - How To Install Debian Lenny To RB-100
No ratings yet
Tutorial - How To Install Debian Lenny To RB-100
23 pages
Advanced Database Management Systems: Assignment 01
No ratings yet
Advanced Database Management Systems: Assignment 01
8 pages
Active Directory Pentest Course-2
No ratings yet
Active Directory Pentest Course-2
109 pages
Replacement Algo
No ratings yet
Replacement Algo
13 pages
Windows Privilege Escalation (AlwaysInstallElevated)
No ratings yet
Windows Privilege Escalation (AlwaysInstallElevated)
14 pages
Patch Animation Files
No ratings yet
Patch Animation Files
2 pages
01 Linux Intro
No ratings yet
01 Linux Intro
12 pages
Downloaded From Stucor App: A Process Is A Program in Execution
No ratings yet
Downloaded From Stucor App: A Process Is A Program in Execution
40 pages
Memory Usage of Linux VMs Is A Little Misleading - Nutanix Community
No ratings yet
Memory Usage of Linux VMs Is A Little Misleading - Nutanix Community
4 pages

Run Wordcount

Uploaded by

Run Wordcount

Uploaded by

Steps to run WordCount Program on Hadoop:

1. Make sure Hadoop and Java are installed properly

9. Now, we run the jar file on Hadoop.

public class WordCount {

public static class TokenizerMapper

private final static IntWritable one = new IntWritable(1);

public void map(Object key, Text value, Context context

public static class IntSumReducer

public void reduce(Text key, Iterable<IntWritable> values,

public static void main(String[] args) throws Exception {

You might also like