0% found this document useful (0 votes)

0 views

MachineLearningCheatSheet

The document outlines a comprehensive workflow for data preprocessing, visualization, machine learning model selection, evaluation, and optimization using techniques like GridSearch and Pipelines. It includes steps for cleaning data, visualizing results with plots, applying various machine learning classifiers, and performing cross-validation. Additionally, it discusses ensemble methods such as bagging and boosting for improved model performance.

Uploaded by

Bart Mania

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views

MachineLearningCheatSheet

Uploaded by

Bart Mania

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 4

1.

Clean data
- verwijder onnodige/overbodige kolommen
- bepaal o.a. shape en unieke waardes van belangrijke kolommen (df.shape,
df.info, df.value_counts)

- overview maken import ydata_profiling

profile = ydata_profiling.ProfileReport(dt)
profile

- label encoding voor class

preprocessing.LabelEncoder()

2. Visualize
- melten en plotten: p = pd.DataFrame(X, columns = labels)
p['class'] = y

# prepare for plotting

p = p.melt(id_vars='class')

plt.figure(figsize=(10,5))
sns.boxplot(data = p, x = 'variable', y='value',
hue='class')

- Facetgrid: g = sns.FacetGrid(p, col='class', row='variable',

height=4)
var = np.unique(p.variable)
g.map(sns.histplot, 'value', kde=True)

3. ML1
- bepaal soort ML (KNeighbors, RandomForestClassifier, DummyClassifier,
LogisticRegression, DecisionTreeClassifier)

- splitten: from sklearn.model_selection import train_test_split

X = df.drop(['class'], axis=1)
y = df['class']
le = preprocessing.LaberEncoder()
y_label = le.fit(y)
y_transform = y_label.transform(y)
X_train, X_test, y_train, y_test = train_test_split(X, y,
test_size=0.x, randomstate=...)

eventueel nogmaals voor train set:

X_train, X_validation, y_train, y_validation =
train_test_split(X_trainval, y_trainval, random_state=1)

- scalen: from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
y = df['class'].values
data = df.drop('class', axis=1)
labels = data.columns
X = scaler.fit_transform(data)

- fitten voorbeeld:
'classifier' = neighbors.KNeighborsClassifier()
'classifier'.fit(X_train, y_train)

- evalueren/testen 'classifier'.score(X_test, y_test)

from sklearn.metrics import confusion_matrix
yhat = 'classifier'.predict(X_test)
ytrue = y_test
labels = ['class']
cfm = confusion_matrix(y_test, yhat, labels=labels)
cfm

clf_'classifier' = 'classifier'.fit(X_train, y_train)

print('Accuracy of the Decision Tree Classifier on train
set: {:.2f}'.format(clf_'classifier'.score(X_train, y_train)))
print('Accuracy of the Decision Tree Classifier on test
set: {:.2f}'.format(clf_'classifier'.score(X_test, y_test)))

from sklearn.metrics import classification_report,

accuracy_score
print(accuracy_score(y_test, predictions))
report = classification_report(y_test, predictions,
target_names = iris.target_names)
print(report)

- cross validation cross_val_score('classifier', X, y, cv=5)

kfold = model_selection.KFold(n_splits=10)
'classifier'CrossResults =
model_selection.cross_val_score('classifier', X, y_transform, cv=kfold)
'classifier2'CrossResults =
model_selection.cross_val_score('classifier2', X, y_transform, cv=kfold)

sns.boxplot(data=['classifier'CrossResults,
'classifier2'CrossResults])
plt.xticks([0, 1], [''classifier'', ''classifier2''])
plt.xlabel('Model')
plt.ylabel('Accuracy')
plt.title('Cross validated accuracies')
plt.show()

4. GridSearch
- bepalen parameters voor model (e.g. C (regularization parameter) of gamma
(kernel bandwidth))

_____________________________________________________________________________

best_score = 0
for gamma in [0.001, 0.01, 0.1, 1, 10, 100]:
for C in [0.001, 0.01, 0.1, 1, 10, 100]:
# Initialize SVC model for given combination of
parameters
svm = SVC(gamma=gamma, C=C)
# Train on train set
svm.fit(X_train, y_train)
# Evaluate on validation set
score = svm.score(X_validation, y_validation)
# Store the best score
if score > best_score:
best_score = score
best_parameters = {'C': C, 'gamma':
gamma}
_____________________________________________________________________________

svm = SVC(**best_parameters)
# Train on train/validation set
svm.fit(X_trainval, y_trainval)
# Score on test set
test_score = svm.score(X_test, y_test)

_____________________________________________________________________________

- Gridsearch ook ingebouwd

param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],

'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}

grid_search = GridSearchCV(SVC(), param_grid, cv=3)

cv = 2 aangeraden!!!!

Voor beste parameters:

grid_search.best_param_

Voor beste score:

grid_search.best_score_

Voor Cross Validation resultaten:

grid_search.cv_results_

- visualizeren results = pd.DataFrame(grid_search.cv_results_)

# Reshape test scores and plot heatmap
scores = np.array(results.mean_test_score).reshape(7, 6)
ax = sns.heatmap(scores, xticklabels=param_grid['gamma'],
yticklabels=param_grid['C'], annot=True)
ax.set(xlabel='gamma', ylabel='C')

5. Pipeline
- sklearn object dat stappen volgt uit een toegevoegde [LIJST] met (TUPLES)
Iedere tuple bevat gespecificeerde naam en instance van
estimator.
e.g. Pipeline([("scaler", MinMaxScaler()), ("svm", SVC())])

- .fit(X_train, y_train) aanroepen op Pipeline voor trainen model

.score(X_test, y_test) aanroepen voor score

- Pipeline kan in een GridSearch worden gedaan

Wanneer je dit doet, moet je in de Dictionary met parameter
grids (para_grid) aangeven bij welke stap in de Pipeline deze hoort
Voorbeeld:
param_grid = {'svm__C': [0.001, 0.01, 0.1, 1, 10,
100],
'svm__gamma': [0.001, 0.01, 0.1, 1,
10, 100]}
Deze is dus voor de "svm" estimator

GridSearchCV('pipeline', param_grid=param_grid, cv=2)

#. Ensemble, Baggin, Boosting

- ensemble VotingClassifier(['lijst van estimators'])
- bagging BaggingClassifier(estimator='model',
n_estimators='number_of_trees')
RandomForestClassifier(n_estimators='number_of_trees',
max_features='max_features')
ExtraTreesClassifier(n_estimators='number_of_trees',
max_features='max_features')
- boosting AdaBoostClassifier(n_estimators='number_of_trees')
GradientBoostingClassifier(n_estimators='number_of_trees')

XG boost

Regression Analysis - Cheatsheet
No ratings yet
Regression Analysis - Cheatsheet
9 pages
Google Colab Material
No ratings yet
Google Colab Material
4 pages
Advanced Scikit Learn
No ratings yet
Advanced Scikit Learn
98 pages
SVM K NN MLP With Sklearn Jupyter NoteBo
No ratings yet
SVM K NN MLP With Sklearn Jupyter NoteBo
22 pages
Codes
No ratings yet
Codes
6 pages
Models
No ratings yet
Models
2 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Sentimental
No ratings yet
Sentimental
11 pages
Tous Les Algo de ML
No ratings yet
Tous Les Algo de ML
7 pages
Slip
No ratings yet
Slip
5 pages
Data Collection
No ratings yet
Data Collection
8 pages
data preprocessing
No ratings yet
data preprocessing
9 pages
ML Internal questions
No ratings yet
ML Internal questions
15 pages
To Improve The Performance of Models Predicting Ba
No ratings yet
To Improve The Performance of Models Predicting Ba
6 pages
vertopal.com_project
No ratings yet
vertopal.com_project
16 pages
AML_code_for_m2
No ratings yet
AML_code_for_m2
7 pages
Python Essential Methods In Machine Learning
No ratings yet
Python Essential Methods In Machine Learning
6 pages
AIML%20Short%20Term%20Internship%20Session%2010%20Summary-1719293295226
No ratings yet
AIML%20Short%20Term%20Internship%20Session%2010%20Summary-1719293295226
3 pages
ml_pipeline
No ratings yet
ml_pipeline
6 pages
Machine Learning Practice
No ratings yet
Machine Learning Practice
17 pages
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
100% (1)
Python For Data Science Cheat Sheet: Scikit-Learn Create Your Model Evaluate Your Model's Performance
1 page
Data Modeling - Cheatsheet
No ratings yet
Data Modeling - Cheatsheet
9 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
Boston housing
No ratings yet
Boston housing
5 pages
ML Codes
No ratings yet
ML Codes
9 pages
5) Randomforest - Ipynb - Colaboratory
No ratings yet
5) Randomforest - Ipynb - Colaboratory
12 pages
17 Ensemble Techniques Problem Statement
No ratings yet
17 Ensemble Techniques Problem Statement
28 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
21 pages
Correction
No ratings yet
Correction
3 pages
Model Evaluation and Selection Cheatsheet 1708023215
No ratings yet
Model Evaluation and Selection Cheatsheet 1708023215
7 pages
Reference guide- Validation & cross-validation
No ratings yet
Reference guide- Validation & cross-validation
7 pages
Melbourne Ia
No ratings yet
Melbourne Ia
16 pages
Data Cleaning: Noise: Outlier Detection, Using ML That Robust To Noise Missing Value: Ignore, Estimate by The Remaining Data Preprocessing
No ratings yet
Data Cleaning: Noise: Outlier Detection, Using ML That Robust To Noise Missing Value: Ignore, Estimate by The Remaining Data Preprocessing
3 pages
Exp 6
No ratings yet
Exp 6
6 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
CV 5
No ratings yet
CV 5
4 pages
import pandas as pd
No ratings yet
import pandas as pd
2 pages
Data Science Practical
No ratings yet
Data Science Practical
22 pages
3c]Cross Validation
No ratings yet
3c]Cross Validation
6 pages
3.2 Grid Search
No ratings yet
3.2 Grid Search
28 pages
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
100% (1)
Scikit-Learn: Scikit-Learn Is An Open Source Python Library That
1 page
Hyperparameter Tuning
No ratings yet
Hyperparameter Tuning
7 pages
Supple Maximizing Performance in Cs CuBiCl
No ratings yet
Supple Maximizing Performance in Cs CuBiCl
5 pages
Predictive Modeling Machine Learning
No ratings yet
Predictive Modeling Machine Learning
16 pages
Untitled document-2-1-13-7-11.4
No ratings yet
Untitled document-2-1-13-7-11.4
5 pages
assig_5_mining
No ratings yet
assig_5_mining
5 pages
AML_lab[1] (1)
No ratings yet
AML_lab[1] (1)
14 pages
graph_analysis2_code
No ratings yet
graph_analysis2_code
2 pages
ML Lab6
No ratings yet
ML Lab6
4 pages
ML 7
No ratings yet
ML 7
6 pages
Decision Tree (1)
No ratings yet
Decision Tree (1)
2 pages
Notebook - Main Code
No ratings yet
Notebook - Main Code
4 pages
Kabir Khan 1147 - 4
No ratings yet
Kabir Khan 1147 - 4
4 pages
Cheat Sheet Modeldeploy
No ratings yet
Cheat Sheet Modeldeploy
2 pages
Python Cheat Sheet For Data Analysis
No ratings yet
Python Cheat Sheet For Data Analysis
2 pages
Vertopal.com Experiment4
No ratings yet
Vertopal.com Experiment4
3 pages
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Maxbox - Starter67 Machine Learning
No ratings yet
Maxbox - Starter67 Machine Learning
7 pages
Linear SVM: 'Target'
No ratings yet
Linear SVM: 'Target'
13 pages
Java Programming Tutorial With Screen Shots & Many Code Example
From Everand
Java Programming Tutorial With Screen Shots & Many Code Example
Desmond Ohwofosirai
No ratings yet
Classification and Clustering
No ratings yet
Classification and Clustering
8 pages
4 Neural Network
No ratings yet
4 Neural Network
74 pages
MODULE 5
No ratings yet
MODULE 5
31 pages
Machine Learning and Deep Learning Approaches For CyberSecurity A Review
No ratings yet
Machine Learning and Deep Learning Approaches For CyberSecurity A Review
14 pages
1916210-Soft Computing Techniques
No ratings yet
1916210-Soft Computing Techniques
11 pages
2021 Lecture11 NeuralNetworks
No ratings yet
2021 Lecture11 NeuralNetworks
48 pages
DL NOTES
No ratings yet
DL NOTES
34 pages
Machine Learning File
No ratings yet
Machine Learning File
7 pages
Skin Disease Detection System
No ratings yet
Skin Disease Detection System
3 pages
6 - 23 - Deep Learning Approaches On Image Captioning A Review
No ratings yet
6 - 23 - Deep Learning Approaches On Image Captioning A Review
41 pages
ML UNIT-4 Notes PDF
100% (1)
ML UNIT-4 Notes PDF
40 pages
Aiml Iii
No ratings yet
Aiml Iii
28 pages
Semppl: Predicting Pseudo - Labels For Better Contrastive Representations
No ratings yet
Semppl: Predicting Pseudo - Labels For Better Contrastive Representations
25 pages
An Unsupervised Deep Domain Adaptation Approach For Robust Speech Recognition PDF
No ratings yet
An Unsupervised Deep Domain Adaptation Approach For Robust Speech Recognition PDF
12 pages
Introduction To Machine Learning
No ratings yet
Introduction To Machine Learning
10 pages
Spam Comments Detection On Instagram Usi
No ratings yet
Spam Comments Detection On Instagram Usi
14 pages
Locally Interpretable Model-Agnostic Explanations (Lime) : Solfinder Research
No ratings yet
Locally Interpretable Model-Agnostic Explanations (Lime) : Solfinder Research
11 pages
The Backpropagation Algorithm for a Math Student
No ratings yet
The Backpropagation Algorithm for a Math Student
9 pages
Deep Learning: Huawei AI Academy Training Materials
No ratings yet
Deep Learning: Huawei AI Academy Training Materials
47 pages
Deep Super Learner: A Deep Ensemble For Classification Problems
No ratings yet
Deep Super Learner: A Deep Ensemble For Classification Problems
12 pages
DL Modules
No ratings yet
DL Modules
1 page
Machine Learning Lecture
No ratings yet
Machine Learning Lecture
433 pages
Raunaks Resume
No ratings yet
Raunaks Resume
1 page
CSC462-AI Lec02 Slides
No ratings yet
CSC462-AI Lec02 Slides
27 pages
Arg Essay Simple Outline Dang Hoang Anh
No ratings yet
Arg Essay Simple Outline Dang Hoang Anh
3 pages
Artificial Intelligence and Marketing, Pitfalls and Opportunities
No ratings yet
Artificial Intelligence and Marketing, Pitfalls and Opportunities
16 pages
Various Neural Network Architect Assignment Questions
No ratings yet
Various Neural Network Architect Assignment Questions
9 pages
Lab Experiment#08: Edge Detection
No ratings yet
Lab Experiment#08: Edge Detection
6 pages
Machine Learning With Python
No ratings yet
Machine Learning With Python
41 pages
Introduction To AI With Python
No ratings yet
Introduction To AI With Python
6 pages