0% found this document useful (0 votes)

94 views26 pages

Data Cleaning and Transformation in Python

Uploaded by

Rachell Ann Uson

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

94 views26 pages

Data Cleaning and Transformation in Python

Uploaded by

Rachell Ann Uson

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Data cleaning and transformation

Stephen F Elston | Principle Consultant , Quantia Analytics, LLC

Chapter Overview

• Data preparation process

• Missing and repeated values
• Outliers and errors
• Scaling
Data Cleaning and Transformation
Overview (data munging)
• Data rarely arrives in the form needed for analysis
• Data munging is typically the most time consuming part of a data
science project
• Is an iterative process
– Often discovered with visualization
– Fix modeling problems
Data Cleaning and Transformation
Process
Iterative process
Missing and repeated values

Stephen F Elston | Principle Consultant , Quantia Analytics, LLC

Missing and Repeated Values

• Missing values and repeated values are common

• Many ML algorithms don’t deal with missing values
• Repeated values bias results
Missing Values

Col1 Col2 Col3 Col4 Col5

12456 0.99 Male 43 Small
98567 1.23 55 Medium
34567 9999 Female NA Large
67231 0.72 Male 35 ?
Treating Missing Values

• Remove rows
• Substitute a specific value
• Interpolate values
• Forward fill
• Backward fill
• Impute
Clean Missing and Repeated Values

• Clean Missing Data module

• With R – [Link]()
• With Python – [Link]()
Repeated Values
Key Col Col2 Col3 Col4 Col5
12456 0.99 Male 43 Small
98567 1.23 Male 55 Medium
34567 1.55 Female 43 Large
34567 1.55 Female 43 Large
34567 1.55 Female 43 Large
34567 .78 Male 43 Large
67231 0.72 Male 35 Small
Clean Missing and Repeated Values

• Clean Repeated Values module

• With R – [Link][ !duplicated(), ]
• With Python – DataFrame.drop_duplicates()
Cleaning outliers and errors
Outliers and Errors

• Errors and outliers can bias model training

• Many possible sources of errors
– Erroneous measurements
– Entry errors
– Transposed values in table
• Discover and evaluate with summary statistics and visualization
Visualizing Outliers

• Scatter plot matrix helps validate outliers

• R – pairs plot
• Python – [Link].scatter_matrix
Visualizing Outliers
Identify Outliers and Errors

Outliers?
Identify Outliers and Errors

Outliers?
Clean Outliers and Errors
• Error treatments
– Censor
– Trim
– Interpolate
– Substitute
• Clip Values module
• With R
• With Python
Removing Outliers

R: [Link] = [Link][[Link], ]
library(dplyr)
frame1 <- frame1 %>% filter(Col1 > 40) %>%
filter(Col2 < 30) %>%
filter(Col3 < 3)

Python: DataFrame = DataFrame[filter_expression]

frame1 = frame1[(frame1["Col1"] > 40.0) &
(frame1["Col2"] < 30.0) &
(frame1["Col3"] < 3.0)]
Scaling Data
Scaling

• Numeric variables need similar scale

• Often scale to zero mean and unit variance
• May need to de-trend
• Other scaling includes min-max
• Scale after treating outliers
Scatter plot of two numeric columns
Unscaled data biases model construction
Scaled data biases model construction
Scaling

• Normalize Data module

• With R: scale()
• With Python:
e.g. [Link]()
©2014 Microsoft Corporation. All rights reserved. Microsoft, Windows, Office, Azure, System Center, Dynamics and other product names are or may be registered trademarks and/or trademarks in the
U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft
must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after
the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

Data Cleaning for Analytics & ML
No ratings yet
Data Cleaning for Analytics & ML
23 pages
Importance of Data Cleaning in ML
No ratings yet
Importance of Data Cleaning in ML
27 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
17 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
9 pages
Data Cleaning Essentials
No ratings yet
Data Cleaning Essentials
42 pages
Data Pre-processing Techniques in R
No ratings yet
Data Pre-processing Techniques in R
37 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
Comprehensive Guide to Data Cleaning
No ratings yet
Comprehensive Guide to Data Cleaning
36 pages
Data Processing and Statistics Basics
No ratings yet
Data Processing and Statistics Basics
21 pages
C2 - Data Cleaning & Preprocessing
No ratings yet
C2 - Data Cleaning & Preprocessing
59 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
ML ch-1
No ratings yet
ML ch-1
32 pages
Data Cleaning: Handling Missing Data & Outliers
No ratings yet
Data Cleaning: Handling Missing Data & Outliers
4 pages
Essential Data Cleaning Techniques
No ratings yet
Essential Data Cleaning Techniques
27 pages
DSBDA Lab Assignment No 2
No ratings yet
DSBDA Lab Assignment No 2
7 pages
Data Quality and Remediation
No ratings yet
Data Quality and Remediation
40 pages
Data Prep and Cleaning For Machine Learning
No ratings yet
Data Prep and Cleaning For Machine Learning
22 pages
04 Data Cleaning in R
No ratings yet
04 Data Cleaning in R
36 pages
Data Pre-processing in Machine Learning
No ratings yet
Data Pre-processing in Machine Learning
84 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Mastering Exploratory Data Analysis
No ratings yet
Mastering Exploratory Data Analysis
24 pages
Data Wrangling and Cleaning in Python
No ratings yet
Data Wrangling and Cleaning in Python
22 pages
Essential Data Cleaning Techniques
No ratings yet
Essential Data Cleaning Techniques
8 pages
Data Cleaning Essentials Guide
No ratings yet
Data Cleaning Essentials Guide
22 pages
DS-Unit-2 ABM Final
No ratings yet
DS-Unit-2 ABM Final
134 pages
Ch03 DS-Unit-2 ABM Final
No ratings yet
Ch03 DS-Unit-2 ABM Final
143 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
33 pages
Dataminin Presentation (1) .PPTX - Read-Only
No ratings yet
Dataminin Presentation (1) .PPTX - Read-Only
23 pages
ML Lecture 5 Data Quality
No ratings yet
ML Lecture 5 Data Quality
19 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
Data Wrangling for Student Performance
No ratings yet
Data Wrangling for Student Performance
4 pages
Data Cleansing Techniques for Analytics
No ratings yet
Data Cleansing Techniques for Analytics
30 pages
Data Collection Cleaning Preprocessing Presentation
No ratings yet
Data Collection Cleaning Preprocessing Presentation
13 pages
Lec 3 Data Preprocessing and Transformation
No ratings yet
Lec 3 Data Preprocessing and Transformation
73 pages
Feature Engineering
No ratings yet
Feature Engineering
66 pages
Lect 04 Preprocessing Structured
No ratings yet
Lect 04 Preprocessing Structured
39 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
PHD Seminar
No ratings yet
PHD Seminar
38 pages
Data Cleaning R
No ratings yet
Data Cleaning R
2 pages
Data Cleansing in Data Science
No ratings yet
Data Cleansing in Data Science
5 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Chapter 2
No ratings yet
Chapter 2
37 pages
Outliners
No ratings yet
Outliners
15 pages
Cleaning Techniques (Slides)
No ratings yet
Cleaning Techniques (Slides)
20 pages
Unit 2 Preprocessing in Data Analytics
No ratings yet
Unit 2 Preprocessing in Data Analytics
36 pages
Data Analytics 02: Drag Connect It Change Remove Cabin, Life Boat, Name, and Ticket Number
No ratings yet
Data Analytics 02: Drag Connect It Change Remove Cabin, Life Boat, Name, and Ticket Number
2 pages
Essential Data Cleaning Techniques
No ratings yet
Essential Data Cleaning Techniques
10 pages
Data Cleaning Techniques in Data Science
No ratings yet
Data Cleaning Techniques in Data Science
44 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Essential R Data Cleaning Techniques
No ratings yet
Essential R Data Cleaning Techniques
5 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
Academic Performance Data Wrangling
No ratings yet
Academic Performance Data Wrangling
9 pages
Data Cleaning Techniques in R
No ratings yet
Data Cleaning Techniques in R
29 pages
Rlab Exp 8
No ratings yet
Rlab Exp 8
3 pages
Feature Engineering Techniques Guide
No ratings yet
Feature Engineering Techniques Guide
69 pages
Handling Missing Data in Pandas
No ratings yet
Handling Missing Data in Pandas
47 pages
Exploratory Data Analysis Guide
No ratings yet
Exploratory Data Analysis Guide
33 pages
Statutory Construction: One Subject Rule
No ratings yet
Statutory Construction: One Subject Rule
21 pages
Personal Reflection Prompts for Growth
No ratings yet
Personal Reflection Prompts for Growth
2 pages
Constitutional Supremacy in Law
No ratings yet
Constitutional Supremacy in Law
106 pages
Data Exploration and Visualization Techniques
No ratings yet
Data Exploration and Visualization Techniques
80 pages
Education for Lifelong Learning Skills
No ratings yet
Education for Lifelong Learning Skills
2 pages
Module 2 Iris Data Set
100% (1)
Module 2 Iris Data Set
1 page
Statutory Construction in Philippine Law
No ratings yet
Statutory Construction in Philippine Law
109 pages
R Programming for Data Analysis Basics
No ratings yet
R Programming for Data Analysis Basics
26 pages
National ICT Month 2023 Overview
No ratings yet
National ICT Month 2023 Overview
3 pages
Journal Prompts To Get To Know Yourself
No ratings yet
Journal Prompts To Get To Know Yourself
8 pages
Lidasan vs Comelec: One Bill, One Subject
No ratings yet
Lidasan vs Comelec: One Bill, One Subject
23 pages
Statutory Construction: One Subject Rule
No ratings yet
Statutory Construction: One Subject Rule
65 pages
De Facto Government in Philippine Law
No ratings yet
De Facto Government in Philippine Law
3 pages
Unit 7 Writing Assignment
No ratings yet
Unit 7 Writing Assignment
4 pages
Loan Recovery Case: Gov't vs. Monte de Piedad
No ratings yet
Loan Recovery Case: Gov't vs. Monte de Piedad
4 pages
Promoting Filipino Innovations and IP Rights
No ratings yet
Promoting Filipino Innovations and IP Rights
8 pages
Intellectual Property Rights Assistance Program
No ratings yet
Intellectual Property Rights Assistance Program
2 pages
WACC Calculation for CBPG Financials
No ratings yet
WACC Calculation for CBPG Financials
5 pages
5111 Written Assignment Unit 7
No ratings yet
5111 Written Assignment Unit 7
6 pages
A-48 Technical Information
No ratings yet
A-48 Technical Information
12 pages
Cased Fan Coil Units Specifications
No ratings yet
Cased Fan Coil Units Specifications
3 pages
Gaur City Centre Price List 2019
No ratings yet
Gaur City Centre Price List 2019
1 page
Construction Bid Details
No ratings yet
Construction Bid Details
31 pages
Connect Lyra Trio to Modem Guide
No ratings yet
Connect Lyra Trio to Modem Guide
5 pages
Question Bank of Haloalkanes and Haloarenes: Very Short Answer Type Questions of One Mark Each
No ratings yet
Question Bank of Haloalkanes and Haloarenes: Very Short Answer Type Questions of One Mark Each
3 pages
Reading Toefl Detail Pembahasan
0% (1)
Reading Toefl Detail Pembahasan
13 pages
Work, Power, and Energy Calculations
No ratings yet
Work, Power, and Energy Calculations
25 pages
Tissue Banking Procedure Guide
No ratings yet
Tissue Banking Procedure Guide
1 page
Monthly Carpenter Maintenance Checklist
No ratings yet
Monthly Carpenter Maintenance Checklist
18 pages
Engine Room Watchkeeping Guide
No ratings yet
Engine Room Watchkeeping Guide
1 page
Product Analysis-: 8. Metallurgical Structure
No ratings yet
Product Analysis-: 8. Metallurgical Structure
1 page
Types of Upholstery Material
No ratings yet
Types of Upholstery Material
15 pages
Acti9 Disbo - A9H312MNS100FD
No ratings yet
Acti9 Disbo - A9H312MNS100FD
2 pages
Momentum Transfer in Fluid Mechanics
No ratings yet
Momentum Transfer in Fluid Mechanics
6 pages
Lipid Chemistry Quiz for Medical Biochemistry
No ratings yet
Lipid Chemistry Quiz for Medical Biochemistry
11 pages
Medical Terms in Hindi
93% (15)
Medical Terms in Hindi
4 pages
Center-Tapped Full-Wave Rectifier Lab
No ratings yet
Center-Tapped Full-Wave Rectifier Lab
6 pages
CC EN14439 en
100% (4)
CC EN14439 en
27 pages
+baader Test Anti Fringing Filters
No ratings yet
+baader Test Anti Fringing Filters
5 pages
Financial Analysis of Easy Composite Ltd
No ratings yet
Financial Analysis of Easy Composite Ltd
4 pages
Mercedes OM 460 LA Engine Overview
No ratings yet
Mercedes OM 460 LA Engine Overview
2 pages
Firing Pin Initiation Methods Explained
No ratings yet
Firing Pin Initiation Methods Explained
2 pages
Automatic Railway Gate Control by Using Microcontroller - 24 Pages
No ratings yet
Automatic Railway Gate Control by Using Microcontroller - 24 Pages
44 pages
Mark Scheme
No ratings yet
Mark Scheme
19 pages
In This Place Rulebook 1.0
No ratings yet
In This Place Rulebook 1.0
18 pages
Reading #11
67% (3)
Reading #11
2 pages
Computational Methods For Prediction of Drug Likeness
No ratings yet
Computational Methods For Prediction of Drug Likeness
10 pages
SEW-EURODRIVE RF80A Parts List
No ratings yet
SEW-EURODRIVE RF80A Parts List
1 page
Hnology and Livelihood Education: Quarter 1 - Module 2: Cookery
No ratings yet
Hnology and Livelihood Education: Quarter 1 - Module 2: Cookery
15 pages

Data Cleaning and Transformation in Python

Uploaded by

Data Cleaning and Transformation in Python

Uploaded by

Data cleaning and transformation

Stephen F Elston | Principle Consultant , Quantia Analytics, LLC

• Data preparation process

Stephen F Elston | Principle Consultant , Quantia Analytics, LLC

• Missing values and repeated values are common

Col1 Col2 Col3 Col4 Col5

• Clean Missing Data module

• Clean Repeated Values module

• Errors and outliers can bias model training

• Scatter plot matrix helps validate outliers

Python: DataFrame = DataFrame[filter_expression]

• Numeric variables need similar scale

• Normalize Data module

You might also like