Lab3_BigData-MapReduce

This document outlines a lab exercise for implementing a Word Count program using Hadoop MapReduce. It details the prerequisites, lab tasks, and provides code snippets for creating Mapper, Reducer, and Runner classes. The final steps include creating a JAR file, uploading a sample text file to HDFS, and running the Word Count job while tracking its progress online.

Uploaded by

bts.nou.waw

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

0% found this document useful (0 votes)

0 views8 pages

Lab3_BigData-MapReduce

Uploaded by

bts.nou.waw

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

You are on page 1/ 8

Lab3 Big Data

MapReduce

Objective:
The objective of this lab is to implement a basic Word Count program using Hadoop MapReduce.
Students will go through the process of setting up a Hadoop project, defining dependencies, writing
Mapper and Reducer classes, running the job, and verifying the results.

Prerequisites:
− Java Development Environment: Ensure that you have Java installed on your machine, and the
Java development environment is set up.
− Apache Maven: Maven should be installed to manage the project build and
dependencies. Participants should have a basic understanding of Maven.
− Hadoop Installation: A Hadoop cluster or a local Hadoop installation should be available.
Hadoop binaries and configurations should be properly set up.
− Text Editor or IDE: Choose a text editor or integrated development environment (IDE) for
editing code and managing the project.
− Basic Understanding of Hadoop MapReduce: Participants should have a basic understanding of
the MapReduce programming model and its key components such as Mapper, Reducer, and
the overall workflow..
Note :
− Adjust paths based on your specific project setup.

− Ensure that you have the necessary permissions to perform the operations.

Lab Tasks:
1. Open your java IDE and create a maven project “WordCount”
2. Open the pom.xml and add the following dependencies

3. Save the pom.xml file and update the project

<?xml version="1.0" encoding="UTF-8"?>

<groupId>org.codenouhayla</groupId>
<artifactId>WordCount</artifactId>
<version>1.0-SNAPSHOT</version>

<properties>
<maven.compiler.source>8</maven.compiler.source>
<maven.compiler.target>8</maven.compiler.target>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.2.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>3.2.2</version>
</dependency>

</dependencies>

</project>

4. Create the WC_Mapper class and the add the following code

package org.codenouhayla;

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reporter;

public class WC_Mapper extends MapReduceBase implements Mapper<LongWritable, Text,

Text, IntWritable> {

private final static IntWritable one = new IntWritable(1);

private final Text word = new Text();

@Override
public void map(LongWritable key,
Text value,
OutputCollector<Text, IntWritable> output,
Reporter reporter) throws IOException {

String line = value.toString();

StringTokenizer tokenizer = new StringTokenizer(line);

while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, one);
}
}
}

5. Create the WC_Reducer class and the add the following code

package org.codenouhayla;

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
public class WC_Reducer extends MapReduceBase implements Reducer<Text, IntWritable,
Text, IntWritable> {

@Override
public void reduce(Text key,
Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output,
Reporter reporter) throws IOException {

int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}

output.collect(key, new IntWritable(sum));

}
}

6. Create the WC_Runner class and the add the following code
package org.codenouhayla;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
public class WC_Runner {
public static void main(String[] args) throws IOException {
if (args.length < 2) {
System.err.println("Usage: WC_Runner <input path> <output path>");
System.exit(-1);
}
JobConf conf = new JobConf(WC_Runner.class);
conf.setJobName("WordCount");
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
conf.setMapperClass(WC_Mapper.class);
conf.setCombinerClass(WC_Reducer.class);
conf.setReducerClass(WC_Reducer.class);
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);
FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));
JobClient.runJob(conf);
}
}

7. Create the jar file and verify its existence.

9. Create a directory named “input" in HDFS

10. Upload a local file sample.txt to the “input" directory in HDFS:

11. Run the Wordcount using the following command

hadoop jar <localpatht>\WordCount2024\target\WordCount2024-1.0-
SNAPSHOT.jar org.codenouhayla.WC_Runner /input/sample.txt /output
12. Open the /output directory and view its content.
13. Open in the browser the url http://localhost:8088/cluster to track the job.

Mod2Inheritance Assignment
No ratings yet
Mod2Inheritance Assignment
2 pages
Code With Mosh - Object-Oriented Programming in JavaScript
No ratings yet
Code With Mosh - Object-Oriented Programming in JavaScript
4 pages
DA Lab Program-2
No ratings yet
DA Lab Program-2
6 pages
02-Wordcount Mapreduce
No ratings yet
02-Wordcount Mapreduce
5 pages
Import Import Import Import Import Import Import Import Public Class Extends Implements
No ratings yet
Import Import Import Import Import Import Import Import Public Class Extends Implements
7 pages
BDA3
No ratings yet
BDA3
7 pages
Part B Assignment - No - 1
No ratings yet
Part B Assignment - No - 1
6 pages
Developing A Simple Map-Reduce Program For Hadoop: Big Data Course CS6350 Professor: Dr. Latifur Khan
No ratings yet
Developing A Simple Map-Reduce Program For Hadoop: Big Data Course CS6350 Professor: Dr. Latifur Khan
22 pages
BDF Programs
No ratings yet
BDF Programs
32 pages
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
No ratings yet
CS246 TA Session: Hadoop Tutorial: Peyman Kazemian 1/11/2011
13 pages
Steps: /usr/lib/hadoop-0.20/ Usr/lib/hadoop-0.20/lib
No ratings yet
Steps: /usr/lib/hadoop-0.20/ Usr/lib/hadoop-0.20/lib
4 pages
Steps to create jar file and execute word count problem in mapper reducer
No ratings yet
Steps to create jar file and execute word count problem in mapper reducer
5 pages
6 - Simple Wordcount
No ratings yet
6 - Simple Wordcount
2 pages
BDT Lab Manual
No ratings yet
BDT Lab Manual
48 pages
Exp 4 Word Count
No ratings yet
Exp 4 Word Count
4 pages
Prerequisites: Single Node Setup Cluster Setup
No ratings yet
Prerequisites: Single Node Setup Cluster Setup
5 pages
wrordcount
No ratings yet
wrordcount
2 pages
Practical 2c
No ratings yet
Practical 2c
2 pages
Run Wordcount
No ratings yet
Run Wordcount
3 pages
Big Data Practical 2
No ratings yet
Big Data Practical 2
11 pages
BDA Lab
No ratings yet
BDA Lab
13 pages
ExNo04
No ratings yet
ExNo04
4 pages
MR Progs For Self Excercise
No ratings yet
MR Progs For Self Excercise
14 pages
Palak
No ratings yet
Palak
10 pages
Word Count Program With MapReduce and Java
No ratings yet
Word Count Program With MapReduce and Java
6 pages
Source Code for Wordcount
No ratings yet
Source Code for Wordcount
3 pages
Word Count Program With MapReduce and Java
No ratings yet
Word Count Program With MapReduce and Java
6 pages
BDC Output 3
No ratings yet
BDC Output 3
4 pages
Word Count
No ratings yet
Word Count
10 pages
Tutorial-Counting Words in File (S) Using Mapreduce: Prerequisites
No ratings yet
Tutorial-Counting Words in File (S) Using Mapreduce: Prerequisites
11 pages
Codigo Haddop
No ratings yet
Codigo Haddop
3 pages
Ravinder Big Data 4 PDF
No ratings yet
Ravinder Big Data 4 PDF
15 pages
Example - (Map Function in Word Count)
No ratings yet
Example - (Map Function in Word Count)
6 pages
WordCount Program Hadoop Task 2
No ratings yet
WordCount Program Hadoop Task 2
7 pages
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
No ratings yet
Word Count Program To Demonstrate The Use of Map and Reduce Tasks
5 pages
Word Count Example
No ratings yet
Word Count Example
4 pages
Hadoop Wordcount Program
No ratings yet
Hadoop Wordcount Program
20 pages
Word Count Program
No ratings yet
Word Count Program
2 pages
049
No ratings yet
049
2 pages
Map Reduce Java Program
No ratings yet
Map Reduce Java Program
2 pages
Wordcount
No ratings yet
Wordcount
3 pages
3 MapReduce program ex code
No ratings yet
3 MapReduce program ex code
14 pages
BDA
No ratings yet
BDA
6 pages
CS702_Big_Data_Programs
No ratings yet
CS702_Big_Data_Programs
58 pages
Practical 2-1
No ratings yet
Practical 2-1
4 pages
Unit IV Programming Model
No ratings yet
Unit IV Programming Model
30 pages
12 CodigoNetbeans
No ratings yet
12 CodigoNetbeans
5 pages
Exp-11
No ratings yet
Exp-11
4 pages
Exp 3-Word Count
No ratings yet
Exp 3-Word Count
4 pages
BDA Lab 8 Manual
No ratings yet
BDA Lab 8 Manual
7 pages
DSBDA GRP B Print
No ratings yet
DSBDA GRP B Print
21 pages
1WordCount
No ratings yet
1WordCount
2 pages
Cp5261 Da Lab Me-Cse 2021 - Edit
No ratings yet
Cp5261 Da Lab Me-Cse 2021 - Edit
88 pages
CSF443 Lab-Report Nimish Shandilya 1000016934
No ratings yet
CSF443 Lab-Report Nimish Shandilya 1000016934
17 pages
Core Java Programming Book
From Everand
Core Java Programming Book
Manish Soni
No ratings yet
Classcreation
No ratings yet
Classcreation
2 pages
11. WordCountApp
No ratings yet
11. WordCountApp
2 pages
Hadoop and Map Reduce
No ratings yet
Hadoop and Map Reduce
27 pages
CCBDI Full Lab Manual Anurag Removed
No ratings yet
CCBDI Full Lab Manual Anurag Removed
97 pages
CS702 Big Data Programs
No ratings yet
CS702 Big Data Programs
59 pages
Advanced Mapreduce
No ratings yet
Advanced Mapreduce
37 pages
Running Jar Program
No ratings yet
Running Jar Program
3 pages
Object Oriented Programming With C+ +: Chapter - 13
No ratings yet
Object Oriented Programming With C+ +: Chapter - 13
10 pages
Constructor in Java
No ratings yet
Constructor in Java
6 pages
Project Program Question 4
No ratings yet
Project Program Question 4
7 pages
18CS653 Module 4
No ratings yet
18CS653 Module 4
20 pages
Lab Guides: Java SE 8 Programming Language
No ratings yet
Lab Guides: Java SE 8 Programming Language
15 pages
Testng: Case1 ( (Priority 1) Tcase1 (System. .Println ) (Priority 0) Tcase2
No ratings yet
Testng: Case1 ( (Priority 1) Tcase1 (System. .Println ) (Priority 0) Tcase2
5 pages
Computer Project Programs
No ratings yet
Computer Project Programs
26 pages
Trace
No ratings yet
Trace
62 pages
Lab 4
No ratings yet
Lab 4
5 pages
Kalyani Kadam Resume 2K24 PDF
No ratings yet
Kalyani Kadam Resume 2K24 PDF
1 page
Jadwal Group Wfo Stage 2 New Normal
No ratings yet
Jadwal Group Wfo Stage 2 New Normal
4 pages
Creating A Domain Specific Language (DSL) With Xtext
No ratings yet
Creating A Domain Specific Language (DSL) With Xtext
37 pages
Tic Tac Toe Java Applet
100% (2)
Tic Tac Toe Java Applet
6 pages
Spring Boot - Rest Template
No ratings yet
Spring Boot - Rest Template
8 pages
JUnit Installation Guideline
No ratings yet
JUnit Installation Guideline
27 pages
060010203-Object Oriented Programming: Long Questions
No ratings yet
060010203-Object Oriented Programming: Long Questions
1 page
Quiz Pbo
100% (3)
Quiz Pbo
25 pages
A Presentation On: Thread Local & Features of JAVA SE6
No ratings yet
A Presentation On: Thread Local & Features of JAVA SE6
39 pages
OOP - QB Chapter 04
No ratings yet
OOP - QB Chapter 04
3 pages
Comparison Index C++ Java: Platform-Independent C++ Is Platform-Dependent. Mainly Used For
No ratings yet
Comparison Index C++ Java: Platform-Independent C++ Is Platform-Dependent. Mainly Used For
11 pages
Object Oriented Programming CE-102T/CE-102L
No ratings yet
Object Oriented Programming CE-102T/CE-102L
32 pages
Lesson Plan - Object-Oriented Programming Using Java
No ratings yet
Lesson Plan - Object-Oriented Programming Using Java
4 pages
Question Bank Java A2
No ratings yet
Question Bank Java A2
2 pages
Testng Tutorial: Install Testng Into Eclipse
No ratings yet
Testng Tutorial: Install Testng Into Eclipse
7 pages
123 Kamble Aditya AJP
No ratings yet
123 Kamble Aditya AJP
20 pages
Big Data Analytics - Lab-Manual
No ratings yet
Big Data Analytics - Lab-Manual
19 pages
Java API Package
No ratings yet
Java API Package
8 pages
Java Lab
No ratings yet
Java Lab
25 pages