Kabir Data Preprocessing Python

This document discusses data preprocessing techniques in Python, including standardization, missing value replacement, resampling, discretization, feature selection, dimensionality reduction, and relevant Python packages. It provides code examples for standardization, imputing missing values, and PCA. Key packages mentioned are Scikit-learn, Pandas, NumPy, and SciPy.

Uploaded by

El Arbi Abdellaoui Alaoui

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Download as pptx, pdf, or txt

0% found this document useful (0 votes)

77 views14 pages

Kabir Data Preprocessing Python

Uploaded by

El Arbi Abdellaoui Alaoui

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Download as pptx, pdf, or txt

You are on page 1/ 14

Data Preprocessing in

1
Python
Ahmedul Kabir
TA, CS 548, Spring 2015
2 Preprocessing Techniques Covered

Standardization and Normalization

Missing value replacement
Resampling
Discretization
Feature Selection
Dimensionality Reduction: PCA
3 Python Packages/Tools for Data Mining

Scikit-learn
Orange
Pandas
MLPy
MDP
PyBrain … and many more
4 Some Other Basic Packages

 NumPy and SciPy

 Fundamental Packages for scientific computing with Python
 Contains powerful n-dimensional array objects
 Useful linear algebra, random number and other capabilities
 Pandas
 Contains useful data structures and algorithms
 Matplotlib
 Contains functions for plotting/visualizing data.
5 Standardization and Normalization

 Standardization: To transform data so that it has zero mean and unit variance.
Also called scaling
 Use function sklearn.preprocessing.scale()
 Parameters:
 X: Data to be scaled
 with_mean: Boolean. Whether to center the data (make zero mean)
 with_std: Boolean (whether to make unit standard deviation

 Normalization: to transform data so that it is scaled to the [0,1] range.

 Use function sklearn.preprocessing.normalize()
 Parameters:
 X: Data to be normalized
 norm: which norm to use: l1 or l2
 axis: whether to normalize by row or column
6 Example code of
Standardization/Scaling
>>> from sklearn import preprocessing
>>> import numpy as np
>>> X = np.array([[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]])
>>> X_scaled = preprocessing.scale(X)

>>> X_scaled
array([[ 0. ..., -1.22..., 1.33...],
[ 1.22..., 0. ..., -0.26...],
[-1.22..., 1.22..., -1.06...]])
7 Missing Value Replacement

 In scikit-learn, this is referred to as “Imputation”

 Class be used sklearn.preprocessing.Imputer
 Important parameters:
 strategy: What to replace the missing value with: mean / median / most_frequent
 axis: Boolean. Whether to replace along rows or columns

 Attribute:
 statistics_ : The imputer-filled values for each feature

 Important methods
 fit(X[, y]) Fit the model with X.
 transform(X) Replace all the missing values in X.
8 Example code for Replacing Missing
Values
>>> import numpy as np
>>> from sklearn.preprocessing import Imputer
>>> imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
>>> imp.fit([[1, 2], [np.nan, 3], [7, 6]])
Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)
>>> X = [[np.nan, 2], [6, np.nan], [7, 6]]
>>> print(imp.transform(X))
[[ 4. 2. ]
[ 6. 3.666...]
[ 7. 6. ]]
9 Resampling

 Using class sklearn.utils.resample

 Important parameters:
 n_sample: No. of samples to keep
 replace: Boolean. Whether to resample with or without replacement
 Returns sequence of resampled views of the collections. The
original arrays are not impacted.

 Another useful class is sklearn.utils.shuffle

10 Discretization

 Scikit-learn doesn’t have a direct class that performs

discretization.

 Can be performed with cut and qcut functions available

in pandas.

 Orange has discretization functions in

Orange.feature.discretization
11 Feature Selection

 The sklearn.feature_selection module implements feature selection

algorithms.
 Some classes in this module are:
 GenericUnivariateSelect: Univariate feature selector based on statistical tests.
 SelectKBest: Select features according to the k highest scores.
 RFE: Feature ranking with recursive feature elimination.
 VarianceThreshold: Feature selector that removes all low-variance features.

 Scikit-learn does not have a CFS implementation, but RFE works in

somewhat similar fashion.
12 Dimensionality Reduction: PCA
 The sklearn.decomposition module includes matrix decomposition
algorithms, including PCA
 sklearn.decomposition.PCA class
 Important parameters:
 n_components: No. of components to keep

 Important attributes:
 components_ : Components with maximum variance
 explained_variance_ratio_ : Percentage of variance explained by each of the selected
components

 Important methods
 fit(X[, y]) Fit the model with X.
 score_samples(X) Return the log-likelihood of each sample
 transform(X) Apply the dimensionality reduction on X.
13 Other Useful Information

 Generate a random permutation of numbers 1.… n:

numpy.random.permutation(n)
 You can randomly generate some toy datasets using Sample generators in
sklearn.datasets
 Scikit-learn doesn’t directly handle categorical/nominal attributes well. In
order to use them in the dataset, some sort of encoding needs to be
performed.
 One good way to encode categorical attributes: if there are n categories,
create n dummy binary variables representing each category.
 Can be done easily using the sklearn.preprocessing.oneHotEncoder class.
14 References

 Preprocessing Modules: http://scikit-learn.org/stable/modules/preprocessing.html

 Video Tutorial: http://conference.scipy.org/scipy2013/tutorial_detail.php?id=107
 Quick Start Tutorial http://scikit-learn.org/stable/tutorial/basic/tutorial.html
 User Guide http://scikit-learn.org/stable/user_guide.html
 API Reference http://scikit-learn.org/stable/modules/classes.html
 Example Gallery http://scikit-learn.org/stable/auto_examples/index.html

Unit 2 ML
No ratings yet
Unit 2 ML
93 pages
MIC Assignment4
No ratings yet
MIC Assignment4
9 pages
Assignment 5 - NN
No ratings yet
Assignment 5 - NN
4 pages
DIP Lab Manual No 02
No ratings yet
DIP Lab Manual No 02
24 pages
Unbalanced Data Loading For Multi-Task Learning in PyTorch (Blog)
No ratings yet
Unbalanced Data Loading For Multi-Task Learning in PyTorch (Blog)
11 pages
Scikit-Learn
No ratings yet
Scikit-Learn
8 pages
Python SciKit Learn Tutorial _ DigitalOcean
No ratings yet
Python SciKit Learn Tutorial _ DigitalOcean
11 pages
Applied Machine Learning in Python: Nikhil Sharma 1710991526 Data Science Batch
No ratings yet
Applied Machine Learning in Python: Nikhil Sharma 1710991526 Data Science Batch
27 pages
Image Classification Using Backpropagation Algorithm (Presentation)
No ratings yet
Image Classification Using Backpropagation Algorithm (Presentation)
23 pages
Implemented LeNet on PyTorch
100% (1)
Implemented LeNet on PyTorch
17 pages
ML_Pipelines_AI_Community
No ratings yet
ML_Pipelines_AI_Community
53 pages
Machine Learning - Python Libraries
No ratings yet
Machine Learning - Python Libraries
12 pages
Python GTU Study Material Presentations Unit-2 24072020062038AM
No ratings yet
Python GTU Study Material Presentations Unit-2 24072020062038AM
18 pages
Data Analysis Library: by Muthu Priya J 19MZ06
No ratings yet
Data Analysis Library: by Muthu Priya J 19MZ06
3 pages
Udemy Test4
No ratings yet
Udemy Test4
41 pages
Recognizing Handwritten Digits With Scikit-Learn: Punam Seal
No ratings yet
Recognizing Handwritten Digits With Scikit-Learn: Punam Seal
21 pages
Kaolin: A Pytorch Library For Accelerating 3D Deep Learning Research
No ratings yet
Kaolin: A Pytorch Library For Accelerating 3D Deep Learning Research
7 pages
Machine Learning Lab Dlihebca6sem
No ratings yet
Machine Learning Lab Dlihebca6sem
25 pages
Ankit-Tejwan-Resume
No ratings yet
Ankit-Tejwan-Resume
1 page
Semantic Kernel
100% (1)
Semantic Kernel
162 pages
Clustering Algorithms SciKit Learn 1705740354
No ratings yet
Clustering Algorithms SciKit Learn 1705740354
22 pages
Designing An ML-Minded Product and A Product-Minded ML System
No ratings yet
Designing An ML-Minded Product and A Product-Minded ML System
43 pages
Machine Translation Using Natural Language Process
No ratings yet
Machine Translation Using Natural Language Process
6 pages
Pytorch
No ratings yet
Pytorch
38 pages
Done Assignment
No ratings yet
Done Assignment
9 pages
Intro To Scikit Learning
No ratings yet
Intro To Scikit Learning
18 pages
Panaversity Cloud Native Applied Generative AI Engineer
No ratings yet
Panaversity Cloud Native Applied Generative AI Engineer
36 pages
Applying LLMs To Threat Intelligence - by Thomas Roccia - Nov, 2023 - SecurityBreak
No ratings yet
Applying LLMs To Threat Intelligence - by Thomas Roccia - Nov, 2023 - SecurityBreak
25 pages
Practical 1to10
No ratings yet
Practical 1to10
32 pages
Ch1 - Slides - Supervised Learning
No ratings yet
Ch1 - Slides - Supervised Learning
32 pages
School of Computer Science: Python For ML/Al Internship
No ratings yet
School of Computer Science: Python For ML/Al Internship
12 pages
Module-2
100% (1)
Module-2
62 pages
Natural Language Processing Rahul Sahai
No ratings yet
Natural Language Processing Rahul Sahai
30 pages
Image Quality Techniques
No ratings yet
Image Quality Techniques
6 pages
Scikit Learn
No ratings yet
Scikit Learn
10 pages
CSE3099-TARP: Automated E-Mail Reply by Chatbot Using Pytorch (Neural Networks)
No ratings yet
CSE3099-TARP: Automated E-Mail Reply by Chatbot Using Pytorch (Neural Networks)
24 pages
A Recipe For Training Neural Networks
No ratings yet
A Recipe For Training Neural Networks
15 pages
LDA
No ratings yet
LDA
10 pages
Satya Final Minor Report
100% (1)
Satya Final Minor Report
25 pages
AI project logbook
No ratings yet
AI project logbook
5 pages
Statistical Learning and Text Classification With NLTK and Scikit-Learn
No ratings yet
Statistical Learning and Text Classification With NLTK and Scikit-Learn
24 pages
Optimizations For Cpus, Gpus and Numerical Stability: Georg Zitzlsberger
No ratings yet
Optimizations For Cpus, Gpus and Numerical Stability: Georg Zitzlsberger
9 pages
Natural Language Processing in Investigative Journalism
No ratings yet
Natural Language Processing in Investigative Journalism
53 pages
Deep Learning
No ratings yet
Deep Learning
45 pages
Modern AI Pro Essentials
100% (1)
Modern AI Pro Essentials
9 pages
Expert System Architecture
No ratings yet
Expert System Architecture
5 pages
Pytorch (Tabular) - Regression
No ratings yet
Pytorch (Tabular) - Regression
13 pages
Fundamentals of Machine Learning Support Vector Machines, Practical Session
No ratings yet
Fundamentals of Machine Learning Support Vector Machines, Practical Session
4 pages
Springer Lecture Notes in Computer Science 1
No ratings yet
Springer Lecture Notes in Computer Science 1
10 pages
Python file
No ratings yet
Python file
15 pages
Scikit
No ratings yet
Scikit
81 pages
Support Vector Machines
No ratings yet
Support Vector Machines
16 pages
AC Project
No ratings yet
AC Project
7 pages
Machine Learning Bro Ids
No ratings yet
Machine Learning Bro Ids
25 pages
Unit5_AI_Top AIML Tools
No ratings yet
Unit5_AI_Top AIML Tools
15 pages
Torch Optimization
No ratings yet
Torch Optimization
17 pages
Machine Learning Models
100% (1)
Machine Learning Models
2 pages
Health Prediction System Using Machine Learning & Python
No ratings yet
Health Prediction System Using Machine Learning & Python
17 pages
Text Mining: Fundamentals and Applications
From Everand
Text Mining: Fundamentals and Applications
Fouad Sabry
No ratings yet
Vtu ML
No ratings yet
Vtu ML
13 pages
A Hybrid Modeling Approach For Parking Assignment in Urban Areas
No ratings yet
A Hybrid Modeling Approach For Parking Assignment in Urban Areas
31 pages
Salih 2020
No ratings yet
Salih 2020
33 pages
(Green Energy and Technology) Rocco Papa, Romano Fistola (Eds.) - Smart Energy in The Smart City - Urban Planning For A Sustainable Future-Springer International Publishing (2016)
No ratings yet
(Green Energy and Technology) Rocco Papa, Romano Fistola (Eds.) - Smart Energy in The Smart City - Urban Planning For A Sustainable Future-Springer International Publishing (2016)
344 pages
Smart Cities, Green Technologies, and Intelligent Transport Systems
No ratings yet
Smart Cities, Green Technologies, and Intelligent Transport Systems
329 pages
Lecture Notes in Computer Science
No ratings yet
Lecture Notes in Computer Science
834 pages
Livre
No ratings yet
Livre
250 pages
Labs Kali
93% (15)
Labs Kali
668 pages
Wcmdoc
No ratings yet
Wcmdoc
4 pages
Modulation Classifier of Digitally Modulated Signals Based On Method of Artificial Neural Networks
No ratings yet
Modulation Classifier of Digitally Modulated Signals Based On Method of Artificial Neural Networks
3 pages
SCSS
No ratings yet
SCSS
30 pages
Introduction To Oracle - PL/SQL Exam Practice Questions
100% (2)
Introduction To Oracle - PL/SQL Exam Practice Questions
40 pages
Huawei CE Utilization Guideline
No ratings yet
Huawei CE Utilization Guideline
3 pages
2 Marks
No ratings yet
2 Marks
17 pages
Unit Ii Arrays and List
No ratings yet
Unit Ii Arrays and List
35 pages
Special Purpose
100% (2)
Special Purpose
100 pages
Re To DFA
No ratings yet
Re To DFA
6 pages
2016 Winter Model Answer Paper
No ratings yet
2016 Winter Model Answer Paper
31 pages
Ravina Parmar
No ratings yet
Ravina Parmar
2 pages
Seminar Research Paper
No ratings yet
Seminar Research Paper
5 pages
PI-PCS Interface PDF
No ratings yet
PI-PCS Interface PDF
111 pages
Distributed Computing - Lab Report: - :By:-Ms Poonam Singh Chandravanshi
No ratings yet
Distributed Computing - Lab Report: - :By:-Ms Poonam Singh Chandravanshi
58 pages
ClassIX AIPracticalfiletemplate 448118ada4fa4febbcf5d75c95d0699a 7185
No ratings yet
ClassIX AIPracticalfiletemplate 448118ada4fa4febbcf5d75c95d0699a 7185
15 pages
Vineelapadi-resume
No ratings yet
Vineelapadi-resume
6 pages
Loggs
No ratings yet
Loggs
33 pages
9.core Theory - 8 Web Development With PHP and MYSQL (INTEGRATED)
No ratings yet
9.core Theory - 8 Web Development With PHP and MYSQL (INTEGRATED)
6 pages
Format Excel Page in VB
No ratings yet
Format Excel Page in VB
6 pages
Theory of Computation
No ratings yet
Theory of Computation
4 pages
Dbms Ques & Ans-1
No ratings yet
Dbms Ques & Ans-1
9 pages
Weekly Report 42
No ratings yet
Weekly Report 42
23 pages
The AmigaDOS Manual
100% (2)
The AmigaDOS Manual
304 pages
DesignStudio ReleaseNotes R22.26
No ratings yet
DesignStudio ReleaseNotes R22.26
6 pages
19ECS448P Secure Software Engineering - Lab Manual
No ratings yet
19ECS448P Secure Software Engineering - Lab Manual
26 pages
Hadoop Distributed File System HDFS 1688981751
No ratings yet
Hadoop Distributed File System HDFS 1688981751
49 pages
Debuggathon
No ratings yet
Debuggathon
21 pages
OS Handout 2023
No ratings yet
OS Handout 2023
49 pages
Chapter 4 - Vi Editor
No ratings yet
Chapter 4 - Vi Editor
10 pages
Get Engineering Software Products: An Introduction to Modern Software Engineering 1st Edition Ian Sommerville free all chapters
100% (3)
Get Engineering Software Products: An Introduction to Modern Software Engineering 1st Edition Ian Sommerville free all chapters
65 pages
Lab 1
No ratings yet
Lab 1
27 pages
Generate and Load Data Using Custom Payroll Flow Pattern 1666067816
No ratings yet
Generate and Load Data Using Custom Payroll Flow Pattern 1666067816
15 pages