Data Cleaning R

Data cleaning is the process of transforming raw data into a suitable format for analysis, primarily by addressing missing values and duplicates. The document provides examples using R's dplyr library to remove rows with missing values, replace them with median values, and eliminate duplicate rows. Each example includes code snippets demonstrating the cleaning techniques.

Uploaded by

getu zerga

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views2 pages

Data Cleaning R

Uploaded by

getu zerga

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

Data cleaning refers to the process of transforming raw data into data that is suitable for analysis or

model-building.

In most cases, “cleaning” a dataset involves dealing with missing values and duplicated data.

1.Example 1: Remove Rows with Missing Values

library(dplyr)

#remove rows with missing values

new_df <- df %>% na.omit()

#view new data frame

new_df

2.Example 2: Replace Missing Values with Another Value

library(dplyr)

library(tidyr)

#replace missing values in each numeric column with median value of column

new_df <-df %>% mutate(across(where(is.numeric),~replace_na(.,median(.,na.rm=TRUE))))

#view new data frame

new_df

3.Example 3: Remove Duplicate Rows

We can use the following syntax to replace any missing values with the median value of each column:

library(dplyr)
#remove duplicate rows

new_df <- df %>% distinct(.keep_all=TRUE)

#view new data frame

new_df

Data Cleaning R
No ratings yet
Data Cleaning R
16 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
4a. Data Cleaning
No ratings yet
4a. Data Cleaning
2 pages
Project
No ratings yet
Project
4 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Cleaning Techniques (Slides)
No ratings yet
Cleaning Techniques (Slides)
20 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
17 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
26 pages
Date Cleaning Notes
No ratings yet
Date Cleaning Notes
2 pages
ADTU 2021 25 B.Tech (CTIS) 015 18
No ratings yet
ADTU 2021 25 B.Tech (CTIS) 015 18
9 pages
R Data Cleaning Techniques
No ratings yet
R Data Cleaning Techniques
26 pages
PHD Seminar
No ratings yet
PHD Seminar
38 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Rlab Exp 8
No ratings yet
Rlab Exp 8
3 pages
Foundation of DS
No ratings yet
Foundation of DS
21 pages
Data Cleaning Essentials Guide
No ratings yet
Data Cleaning Essentials Guide
22 pages
Data Cleaning and Transformation in Python
No ratings yet
Data Cleaning and Transformation in Python
26 pages
Data Cleaning for Analysts
No ratings yet
Data Cleaning for Analysts
1 page
Integrating Data From Different Sources
No ratings yet
Integrating Data From Different Sources
11 pages
Data Cleaning
No ratings yet
Data Cleaning
2 pages
CleaningData Chapter 3
No ratings yet
CleaningData Chapter 3
29 pages
Cleaning Data3
No ratings yet
Cleaning Data3
41 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
Document
No ratings yet
Document
29 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
Unit2 Part2 Da
No ratings yet
Unit2 Part2 Da
45 pages
Tutorial-Identifying and Imputation of Missing Values
No ratings yet
Tutorial-Identifying and Imputation of Missing Values
20 pages
M-II FDS U-II Questions
No ratings yet
M-II FDS U-II Questions
43 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Data Clean R
100% (1)
Data Clean R
11 pages
Data Cleaning: A Brief Guide To
100% (2)
Data Cleaning: A Brief Guide To
15 pages
Data Cleaning: A Brief Guide To
No ratings yet
Data Cleaning: A Brief Guide To
15 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleansing
No ratings yet
Data Cleansing
4 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Lec 9
No ratings yet
Lec 9
1 page
Data Pre-processing in Machine Learning
No ratings yet
Data Pre-processing in Machine Learning
84 pages
Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
AIDS C04-Session-21
No ratings yet
AIDS C04-Session-21
18 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Study Material Data Preprocessing
No ratings yet
Study Material Data Preprocessing
11 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Data Cleaning Techniques Guide
No ratings yet
Data Cleaning Techniques Guide
11 pages
Ids Unit 2
No ratings yet
Ids Unit 2
26 pages
Introduction To Data Cleaning
No ratings yet
Introduction To Data Cleaning
2 pages
Abush
No ratings yet
Abush
2 pages
Gabaasa
No ratings yet
Gabaasa
2 pages
Time Table
No ratings yet
Time Table
2 pages
Application Sof
No ratings yet
Application Sof
2 pages
Gebita Togaa Report
No ratings yet
Gebita Togaa Report
2 pages

Data Cleaning R

Uploaded by

Data Cleaning R

Uploaded by

Data cleaning refers to the process of transforming raw data into data that is suitable for analysis or

1.Example 1: Remove Rows with Missing Values

#remove rows with missing values

new_df <- df %>% na.omit()

#view new data frame

2.Example 2: Replace Missing Values with Another Value

new_df <-df %>% mutate(across(where(is.numeric),~replace_na(.,median(.,na.rm=TRUE))))

#view new data frame

3.Example 3: Remove Duplicate Rows

new_df <- df %>% distinct(.keep_all=TRUE)

#view new data frame

You might also like