Project

Data cleaning is the process of detecting and correcting inaccurate or incomplete records in a dataset. It involves importing data, exploring for errors, removing unwanted observations, fixing structural errors, managing unwanted data, handling missing values, and exporting the cleaned dataset. When cleaning data in R, common steps include loading packages like dplyr, examining the structure and dimensions of the data, checking for and dealing with missing values, separating and uniting columns, and visualizing relationships between variables.

Uploaded by

satyam upadhayay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

62 views4 pages

Project

Uploaded by

satyam upadhayay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

DATA CLEANING

Data cleaning or say data cleansing is the process of

detecting and correcting (or removing) corrupt or inaccurate
records from a record set, table, or database and refers to
identifying incomplete, incorrect, inaccurate or irrelevant parts
of the data and then replacing, modifying, or deleting the
dirty data.
STEPS FOR DATA CLEANING

1. IMPORTING OF DATA.
2. EXPLORING THE RAW DATA
3. REMOVAL OF UNWANTED OBSERVATIONS
4. FIXING STRUCTURAL ERRORS
5. MANAGING UNWANTED DATA
6. HANDLING MISSING DATA
7. EXPORTING THE DATASET
DATA CLEANING WITH R
• FOR UNDERSTANDING OF DATA- WE LOAD DPLYR LIBRARY FOR FOLLOWING FUNCTION

Launch<-[Link] (dataset) library(dplyr)

• View its class:- class(abc) • Glimpse(abc) #same as structure

• View its dimension:- dim(abc) • Summary(abc)

• Head(abc)
• For rows and column:- name(abc)
• Tail(abc)
• For the structure of data:- str(abc)
• FOR VISUALIZING FOR MISSING VALUES
Checking for NAS
We use
• [Link](abc)
hist(abc$xy) single variable • which([Link](x)) particular row/col
• any([Link](abc))
plot(abc$xy ty) b/w two variable • sum([Link](abc))
• Summery(abc)

For tidy data Another method to remove rows with nas

Observation as row and column • [Link](abc)
One type of obs unit per table
We use To deal with date and times
gather(data, key, value) We use lubridates library
spread(data, key, value) Ex- library(lubridate)
seprate(data, col, into) Weather$day<-ymd(weather2date)
unite(data, col, ….)

Dealing with missing values

Row with no missing value
• [Link](abc)

Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Data Cleaning R
No ratings yet
Data Cleaning R
2 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
Process-Phase (Data Cleaning Features and Techniques (Lab-Topics)
No ratings yet
Process-Phase (Data Cleaning Features and Techniques (Lab-Topics)
6 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Date Cleaning Notes
No ratings yet
Date Cleaning Notes
2 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
4a. Data Cleaning
No ratings yet
4a. Data Cleaning
2 pages
Data Cleaning for Analysts
No ratings yet
Data Cleaning for Analysts
1 page
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
Foundation of DS
No ratings yet
Foundation of DS
21 pages
Session 7 - Data Preprocessing and Transformation - 2025
No ratings yet
Session 7 - Data Preprocessing and Transformation - 2025
20 pages
Data Cleaning in Power Query - Best Practices and Techniques
No ratings yet
Data Cleaning in Power Query - Best Practices and Techniques
20 pages
Ids Unit 2
No ratings yet
Ids Unit 2
26 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Cleaning Guide for Analysts
100% (2)
Data Cleaning Guide for Analysts
19 pages
Data Clean R
100% (1)
Data Clean R
11 pages
SQL Data Cleaning Guide for Beginners
No ratings yet
SQL Data Cleaning Guide for Beginners
36 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
AIDS C04-Session-21
No ratings yet
AIDS C04-Session-21
18 pages
Data Cleaning Essentials Guide
No ratings yet
Data Cleaning Essentials Guide
22 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
1 Data Cleaning A Foundation For Data Analysis
No ratings yet
1 Data Cleaning A Foundation For Data Analysis
9 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
Data Cleansing
No ratings yet
Data Cleansing
4 pages
Unit 2
No ratings yet
Unit 2
16 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
Data Cleansing Using R
0% (1)
Data Cleansing Using R
10 pages
Data Cleaning Preprocessing
No ratings yet
Data Cleaning Preprocessing
28 pages
Data Cleansing Guide for Analysts
No ratings yet
Data Cleansing Guide for Analysts
5 pages
Data Segmentation
No ratings yet
Data Segmentation
11 pages
BA-Unit 2
No ratings yet
BA-Unit 2
31 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Topics For Lab
No ratings yet
Topics For Lab
2 pages
SMA Expt 3
No ratings yet
SMA Expt 3
9 pages
Rlab Exp 8
No ratings yet
Rlab Exp 8
3 pages
Cleaning Techniques (Slides)
No ratings yet
Cleaning Techniques (Slides)
20 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Introduction To Data Cleaning
No ratings yet
Introduction To Data Cleaning
2 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
10 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
Data Collection Cleaning Preprocessing Presentation
No ratings yet
Data Collection Cleaning Preprocessing Presentation
13 pages
Data201 A#3
No ratings yet
Data201 A#3
9 pages
Data Warehouse and Data Mining - Unit 3
No ratings yet
Data Warehouse and Data Mining - Unit 3
14 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Data Cleaning
No ratings yet
Data Cleaning
2 pages
12 - Data Cleaning
No ratings yet
12 - Data Cleaning
8 pages