0% found this document useful (0 votes)

51 views25 pages

D06A Data Preprocessing

Uploaded by

Abdul Barir Hakim

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

51 views25 pages

D06A Data Preprocessing

Uploaded by

Abdul Barir Hakim

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Persiapan Data

1. Data Cleaning
2. Data Reduction
3. Data Transformation and Data Discretization
Data Integration
CRISP-DM

2
Why Preprocess the Data?
Measures for data quality: A multidimensional view

• Accuracy: correct or wrong, accurate or not

• Completeness: not recorded, unavailable, …
• Consistency: some modified but some not, …
• Timeliness: timely update?
• Believability: how trustable the data are correct?
• Interpretability: how easily the data can be
understood?

3
Major Tasks in Data Preprocessing
1. Data cleaning
• Fill in missing values
• Smooth noisy data
• Identify or remove outliers
• Resolve inconsistencies
2. Data reduction
• Dimensionality reduction
• Numerosity reduction
• Data compression
3. Data transformation and data discretization
• Normalization
• Concept hierarchy generation
4. Data integration
• Integration of multiple databases or files

4
Data Preparation Law (Data Mining Law 3)
Data preparation is more than half of every data
mining process

• Maxim of data mining: most of the effort in a data

mining project is spent in data acquisition and
preparation, and informal estimates vary from 50 to
80 percent
• The purpose of data preparation is:
1. To put the data into a form in which the data mining
question can be asked
2. To make it easier for the analytical techniques (such as
data mining algorithms) to answer it

5
1. Data Cleaning

6
Data Cleaning
Data in the Real World Is Dirty: Lots of potentially
incorrect data, e.g., instrument faulty, human or computer
error, transmission error
• Incomplete: lacking attribute values, lacking certain
attributes of interest, or containing only aggregate data
• e.g., Occupation=“ ” (missing data)
• Noisy: containing noise, errors, or outliers
• e.g., Salary=“−10” (an error)
• Inconsistent: containing discrepancies in codes or names
• e.g., Age=“42”, Birthday=“03/07/2010”
• Was rating “1, 2, 3”, now rating “A, B, C”
• Discrepancy between duplicate records
• Intentional (e.g., disguised missing data)
• Jan. 1 as everyone’s birthday?
7
Incomplete (Missing) Data

• Data is not always available

• E.g., many tuples have no recorded value for several attributes, such as
customer income in sales data
• Missing data may be due to
• equipment malfunction
• inconsistent with other recorded data and thus deleted
• data not entered due to misunderstanding
• certain data may not be considered important at the time of entry
• not register history or changes of the data
• Missing data may need to be inferred

8
Contoh Missing Data

• Dataset: MissingDataSet.csv

9
MissingDataSet.csv

• Jerry is the marketing manager for a small Internet design and advertising firm
• Jerry’s boss asks him to develop a data set containing information about Internet users
• The company will use this data to determine what kinds of people are using the Internet
and how the firm may be able to market their services to this group of users
• To accomplish his assignment, Jerry creates an online survey and places links to the
survey on several popular Web sites
• Within two weeks, Jerry has collected enough data to begin analysis, but he finds that his
data needs to be denormalized
• He also notes that some observations in the set are missing values or they appear to
contain invalid values
• Jerry realizes that some additional work on the data needs to take place before analysis
begins.

10
Relational Data

11
View of Data (Denormalized Data)

12
Contoh Missing Data

• Dataset: MissingDataSet.csv

13
How to Handle Missing Data?
• Ignore the tuple:
• Usually done when class label is missing (when doing
classification)—not effective when the % of missing values
per attribute varies considerably
• Fill in the missing value manually:
• Tedious + infeasible?
• Fill in it automatically with
• A global constant: e.g., “unknown”, a new class?!
• The attribute mean
• The attribute mean for all samples belonging to the same
class: smarter
• The most probable value: inference-based such as
Bayesian formula or decision tree

14
Latihan
• Lakukan eksperimen mengikuti buku
Matthew North, Data Mining for the Masses
2nd Edition, 2016, Chapter 3 Data
Preparation
1. Handling Missing Data, pp. 34-48 (replace)
2. Data Reduction, pp. 48-51 (delete/filter)

• Dataset: MissingDataSet.csv

• Analisis metode preprocessing apa saja yang

digunakan dan mengapa perlu dilakukan
pada dataset tersebut?
15
Missing Value Detection

16
Missing Value Replace

17
Missing Value Filtering

18
Noisy Data

• Noise: random error or variance in a measured variable

• Incorrect attribute values may be due to
• Faulty data collection instruments
• Data entry problems
• Data transmission problems
• Technology limitation
• Inconsistency in naming convention
• Other data problems which require data cleaning
• Duplicate records
• Incomplete data
• Inconsistent data

19
How to Handle Noisy Data?

• Binning
• First sort data and partition into (equal-frequency) bins
• Then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Regression
• Smooth by fitting the data into regression functions
• Clustering
• Detect and remove outliers
• Combined computer and human inspection
• Detect suspicious values and check by human (e.g., deal with possible
outliers)

20
Data Cleaning as a Process
• Data discrepancy detection
• Use metadata (e.g., domain, range, dependency, distribution)
• Check field overloading
• Check uniqueness rule, consecutive rule and null rule
• Use commercial tools
• Data scrubbing: use simple domain knowledge (e.g., postal code,
spell-check) to detect errors and make corrections
• Data auditing: by analyzing data to discover rules and relationship
to detect violators (e.g., correlation and clustering to find outliers)
• Data migration and integration
• Data migration tools: allow transformations to be specified
• ETL (Extraction/Transformation/Loading) tools: allow users to
specify transformations through a graphical user interface
• Integration of the two processes
• Iterative and interactive (e.g., Potter’s Wheels)

21
Latihan

• Lakukan eksperimen mengikuti buku Matthew North, Data

Mining for the Masses 2nd Edition, 2016, Chapter 3 Data
Preparation, pp. 52-54 (Handling Inconsistence Data)

• Dataset: MissingDataSet.csv

• Analisis metode preprocessing apa saja yang digunakan dan

mengapa perlu dilakukan pada dataset tersebut!

22
23
Setting Regex

Ujicoba Regex
24
Latihan
• Impor data MissingDataValue-Noisy.csv
• Gunakan Regular Expression (operator Replace)
untuk mengganti semua noisy data pada atribut
nominal menjadi “N”

Data Cleaning for IT Students
No ratings yet
Data Cleaning for IT Students
28 pages
Data Preparation in Data Mining
No ratings yet
Data Preparation in Data Mining
83 pages
Unsia - Data Mining Pertemuan 9
No ratings yet
Unsia - Data Mining Pertemuan 9
39 pages
Dwina DM 03 Persiapan 2018
No ratings yet
Dwina DM 03 Persiapan 2018
82 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
82 pages
DSF - Data Preprocessing
No ratings yet
DSF - Data Preprocessing
20 pages
CH 3
No ratings yet
CH 3
34 pages
03preprocessing Part1
No ratings yet
03preprocessing Part1
21 pages
03 Data Preprocessing
No ratings yet
03 Data Preprocessing
15 pages
Aiml Data Preprocessing
No ratings yet
Aiml Data Preprocessing
99 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
VIPDMTheory Chapter 3
No ratings yet
VIPDMTheory Chapter 3
87 pages
Data Preparation Guide COS10022
No ratings yet
Data Preparation Guide COS10022
61 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
14 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
60 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Chapter 3& 4
No ratings yet
Chapter 3& 4
60 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
11 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
33 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
94 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
8 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Major Data Preprocessing Tasks
No ratings yet
Major Data Preprocessing Tasks
11 pages
Lecture 02
No ratings yet
Lecture 02
41 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Lecture 3 - Data Preprocessing
No ratings yet
Lecture 3 - Data Preprocessing
50 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
Data Preprocessing 1 - Annotated
No ratings yet
Data Preprocessing 1 - Annotated
23 pages
18mca52c U2
No ratings yet
18mca52c U2
23 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
Pengenalan Beragam Macam Data
No ratings yet
Pengenalan Beragam Macam Data
113 pages
DataSet Special Session-AI
No ratings yet
DataSet Special Session-AI
22 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
36.why Data Preprocessing Introduction
No ratings yet
36.why Data Preprocessing Introduction
37 pages
FDS Chapter 3
No ratings yet
FDS Chapter 3
103 pages
Chapter 2
No ratings yet
Chapter 2
22 pages
Dmi Unit 3
No ratings yet
Dmi Unit 3
12 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
41 pages
Unit 2 Preprocessing
No ratings yet
Unit 2 Preprocessing
39 pages
Data Cleaning Essentials
No ratings yet
Data Cleaning Essentials
42 pages
Machine Learning Chapter 2
No ratings yet
Machine Learning Chapter 2
37 pages
CS322 - Lec 3 - S25
No ratings yet
CS322 - Lec 3 - S25
42 pages
Data Preprocessing
No ratings yet
Data Preprocessing
67 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Unit-2 Preprocessing
No ratings yet
Unit-2 Preprocessing
18 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
DWM
No ratings yet
DWM
14 pages
Unit - II
No ratings yet
Unit - II
56 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
MC4020 - Data Mining & Data Warehousing Techniques
No ratings yet
MC4020 - Data Mining & Data Warehousing Techniques
52 pages
Wa0063.
No ratings yet
Wa0063.
40 pages
A Review of Machine Learning in Additive Manufacturing: Design and Process
No ratings yet
A Review of Machine Learning in Additive Manufacturing: Design and Process
37 pages
490 2220 2 PB
No ratings yet
490 2220 2 PB
11 pages
Afaan Oromo Hate Speech Detection Proposal
No ratings yet
Afaan Oromo Hate Speech Detection Proposal
14 pages
Sasidhar Alavala, Anil Kumar Vadde, Aparnamala Kancheti, Subrahmanyam Gorthi
No ratings yet
Sasidhar Alavala, Anil Kumar Vadde, Aparnamala Kancheti, Subrahmanyam Gorthi
3 pages
Assessing The Performance of Python Data Visualization Libraries A Review
No ratings yet
Assessing The Performance of Python Data Visualization Libraries A Review
13 pages
Synthetic Data Generation Leveraging Generative AI
No ratings yet
Synthetic Data Generation Leveraging Generative AI
12 pages
Paddy Leaf Disease Detection ML Project Report
No ratings yet
Paddy Leaf Disease Detection ML Project Report
2 pages
Chapter 2 - Data Preprocessing
No ratings yet
Chapter 2 - Data Preprocessing
15 pages
MLOps Resume Parser Project Report
No ratings yet
MLOps Resume Parser Project Report
68 pages
Final Report (B&W)
No ratings yet
Final Report (B&W)
31 pages
Data Preprocessing in Predictive Data Mining: The Knowledge Engineering Review
No ratings yet
Data Preprocessing in Predictive Data Mining: The Knowledge Engineering Review
33 pages
ESGReveal
No ratings yet
ESGReveal
17 pages
Mlops Report
No ratings yet
Mlops Report
17 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Data Mining & Predictive Modeling Lab
No ratings yet
Data Mining & Predictive Modeling Lab
23 pages
CNN Simulation Work
No ratings yet
CNN Simulation Work
14 pages
Final Report Eduvision
No ratings yet
Final Report Eduvision
39 pages
Report
No ratings yet
Report
24 pages
Data Mining Notes Jntuh Compress
No ratings yet
Data Mining Notes Jntuh Compress
62 pages
Medical Insurance Cost Prediction Report Full
100% (1)
Medical Insurance Cost Prediction Report Full
50 pages
Final Review Paper 1
No ratings yet
Final Review Paper 1
19 pages
Music Genre Classification Report
No ratings yet
Music Genre Classification Report
36 pages
Data Preprocessing PT 2
No ratings yet
Data Preprocessing PT 2
7 pages
Name Matching
No ratings yet
Name Matching
14 pages
Internship Report Winter 2024-2025
No ratings yet
Internship Report Winter 2024-2025
29 pages
Livro - Machine Learning in sPORTS (2025)
No ratings yet
Livro - Machine Learning in sPORTS (2025)
140 pages
Machine Learning for Weather Forecasting
No ratings yet
Machine Learning for Weather Forecasting
6 pages

D06A Data Preprocessing

Uploaded by

D06A Data Preprocessing

Uploaded by

Persiapan Data

• Accuracy: correct or wrong, accurate or not

• Maxim of data mining: most of the effort in a data

• Data is not always available

• Analisis metode preprocessing apa saja yang

• Noise: random error or variance in a measured variable

• Lakukan eksperimen mengikuti buku Matthew North, Data

• Analisis metode preprocessing apa saja yang digunakan dan

You might also like