0% found this document useful (0 votes)

56 views7 pages

Chapter05 Fundamentals-Of-Ml

This notebook summarizes key concepts from the book Deep Learning with Python. It contains code examples and explanations for fundamental machine learning topics like overfitting, generalization, improving model fit, and regularization. Code blocks demonstrate techniques like adding noise channels to mitigate overfitting, tuning hyperparameters like learning rate, and using dropout and weight regularization to improve generalization. The notebook is intended to be used alongside the corresponding text from the book.

Uploaded by

Jas Lim

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

56 views7 pages

Chapter05 Fundamentals-Of-Ml

Uploaded by

Jas Lim

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

This is a companion notebook for the book Deep Learning with Python, Second Edition.

For
readability, it only contains runnable code blocks and section titles, and omits everything
else in the book: text paragraphs, figures, and pseudocode.
If you want to be able to follow what's going on, I recommend reading the notebook
side by side with your copy of the book.
This notebook was generated for TensorFlow 2.6.

Fundamentals of machine learning

Generalization: The goal of machine learning
Underfitting and overfitting

Noisy training data

Ambiguous features

Rare features and spurious correlations

Adding white-noise channels or all-zeros channels to MNIST
from [Link] import mnist
import numpy as np

(train_images, train_labels), _ = mnist.load_data()

train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255

train_images_with_noise_channels = [Link](
[train_images, [Link]((len(train_images), 784))], axis=1)

train_images_with_zeros_channels = [Link](
[train_images, [Link]((len(train_images), 784))], axis=1)

Training the same model on MNIST data with noise channels or all-zero channels
from tensorflow import keras
from [Link] import layers

def get_model():
model = [Link]([
[Link](512, activation="relu"),
[Link](10, activation="softmax")
])
[Link](optimizer="rmsprop",
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
return model

model = get_model()
history_noise = [Link](
train_images_with_noise_channels, train_labels,
epochs=10,
batch_size=128,
validation_split=0.2)

model = get_model()
history_zeros = [Link](
train_images_with_zeros_channels, train_labels,
epochs=10,
batch_size=128,
validation_split=0.2)

Plotting a validation accuracy comparison

import [Link] as plt
val_acc_noise = history_noise.history["val_accuracy"]
val_acc_zeros = history_zeros.history["val_accuracy"]
epochs = range(1, 11)
[Link](epochs, val_acc_noise, "b-",
label="Validation accuracy with noise channels")
[Link](epochs, val_acc_zeros, "b--",
label="Validation accuracy with zeros channels")
[Link]("Effect of noise channels on validation accuracy")
[Link]("Epochs")
[Link]("Accuracy")
[Link]()

The nature of generalization in deep learning

Fitting a MNIST model with randomly shuffled labels
(train_images, train_labels), _ = mnist.load_data()
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255

random_train_labels = train_labels[:]
[Link](random_train_labels)

model = [Link]([
[Link](512, activation="relu"),
[Link](10, activation="softmax")
])
[Link](optimizer="rmsprop",
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
[Link](train_images, random_train_labels,
epochs=100,
batch_size=128,
validation_split=0.2)

The manifold hypothesis

Interpolation as a source of generalization

Why deep learning works

Training data is paramount

Evaluating machine-learning models

Training, validation, and test sets

Simple hold-out validation

K-fold validation

Iterated K-fold validation with shuffling

Beating a common-sense baseline

Things to keep in mind about model evaluation

Improving model fit

Tuning key gradient descent parameters
Training a MNIST model with an incorrectly high learning rate
(train_images, train_labels), _ = mnist.load_data()
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255

model = [Link]([
[Link](512, activation="relu"),
[Link](10, activation="softmax")
])
[Link](optimizer=[Link](1.),
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
[Link](train_images, train_labels,
epochs=10,
batch_size=128,
validation_split=0.2)

The same model with a more appropriate learning rate

model = [Link]([
[Link](512, activation="relu"),
[Link](10, activation="softmax")
])
[Link](optimizer=[Link](1e-2),
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
[Link](train_images, train_labels,
epochs=10,
batch_size=128,
validation_split=0.2)

Leveraging better architecture priors

Increasing model capacity

A simple logistic regression on MNIST
model = [Link]([[Link](10, activation="softmax")])
[Link](optimizer="rmsprop",
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
history_small_model = [Link](
train_images, train_labels,
epochs=20,
batch_size=128,
validation_split=0.2)

import [Link] as plt

val_loss = history_small_model.history["val_loss"]
epochs = range(1, 21)
[Link](epochs, val_loss, "b--",
label="Validation loss")
[Link]("Effect of insufficient model capacity on validation loss")
[Link]("Epochs")
[Link]("Loss")
[Link]()

model = [Link]([
[Link](96, activation="relu"),
[Link](96, activation="relu"),
[Link](10, activation="softmax"),
])
[Link](optimizer="rmsprop",
loss="sparse_categorical_crossentropy",
metrics=["accuracy"])
history_large_model = [Link](
train_images, train_labels,
epochs=20,
batch_size=128,
validation_split=0.2)
Improving generalization
Dataset curation

Feature engineering

Using early stopping

Regularizing your model

Reducing the network's size

Original model
from [Link] import imdb
(train_data, train_labels), _ = imdb.load_data(num_words=10000)

def vectorize_sequences(sequences, dimension=10000):

results = [Link]((len(sequences), dimension))
for i, sequence in enumerate(sequences):
results[i, sequence] = 1.
return results
train_data = vectorize_sequences(train_data)

model = [Link]([
[Link](16, activation="relu"),
[Link](16, activation="relu"),
[Link](1, activation="sigmoid")
])
[Link](optimizer="rmsprop",
loss="binary_crossentropy",
metrics=["accuracy"])
history_original = [Link](train_data, train_labels,
epochs=20, batch_size=512, validation_split=0.4)

Version of the model with lower capacity

model = [Link]([
[Link](4, activation="relu"),
[Link](4, activation="relu"),
[Link](1, activation="sigmoid")
])
[Link](optimizer="rmsprop",
loss="binary_crossentropy",
metrics=["accuracy"])
history_smaller_model = [Link](
train_data, train_labels,
epochs=20, batch_size=512, validation_split=0.4)

Version of the model with higher capacity

model = [Link]([
[Link](512, activation="relu"),
[Link](512, activation="relu"),
[Link](1, activation="sigmoid")
])
[Link](optimizer="rmsprop",
loss="binary_crossentropy",
metrics=["accuracy"])
history_larger_model = [Link](
train_data, train_labels,
epochs=20, batch_size=512, validation_split=0.4)

Adding weight regularization

Adding L2 weight regularization to the model
from [Link] import regularizers
model = [Link]([
[Link](16,
kernel_regularizer=regularizers.l2(0.002),
activation="relu"),
[Link](16,
kernel_regularizer=regularizers.l2(0.002),
activation="relu"),
[Link](1, activation="sigmoid")
])
[Link](optimizer="rmsprop",
loss="binary_crossentropy",
metrics=["accuracy"])
history_l2_reg = [Link](
train_data, train_labels,
epochs=20, batch_size=512, validation_split=0.4)

Different weight regularizers available in Keras

from [Link] import regularizers
regularizers.l1(0.001)
regularizers.l1_l2(l1=0.001, l2=0.001)

Adding dropout
Adding dropout to the IMDB model
model = [Link]([
[Link](16, activation="relu"),
[Link](0.5),
[Link](16, activation="relu"),
[Link](0.5),
[Link](1, activation="sigmoid")
])
[Link](optimizer="rmsprop",
loss="binary_crossentropy",
metrics=["accuracy"])
history_dropout = [Link](
train_data, train_labels,
epochs=20, batch_size=512, validation_split=0.4)

Summary

GMAT Cheat Sheet
78% (9)
GMAT Cheat Sheet
3 pages
Number System and Base Conversions
No ratings yet
Number System and Base Conversions
9 pages
Adaptive Control in Lathe Operations
No ratings yet
Adaptive Control in Lathe Operations
19 pages
Fitness Enthusiasts' TDEE Guide
No ratings yet
Fitness Enthusiasts' TDEE Guide
1 page
Unsaturated Soil Impact on Pile Design
No ratings yet
Unsaturated Soil Impact on Pile Design
22 pages
Algebra & Trigonometry Guide
No ratings yet
Algebra & Trigonometry Guide
21 pages
Differential Equations Solving Techniques
100% (8)
Differential Equations Solving Techniques
5 pages
A Novel Hybrid Moth-Flame Optimization Algorithm For Enhanced Convergence and Search
No ratings yet
A Novel Hybrid Moth-Flame Optimization Algorithm For Enhanced Convergence and Search
7 pages
Vásquez-Castillo Et Al. (2023)
No ratings yet
Vásquez-Castillo Et Al. (2023)
12 pages
0s3 8MA0-01 Pure 1 - Mock Set 3 Mark Schememe PDF
No ratings yet
0s3 8MA0-01 Pure 1 - Mock Set 3 Mark Schememe PDF
22 pages
Understanding Demography and Population Trends
No ratings yet
Understanding Demography and Population Trends
45 pages
Math Teacher Skills in Lopez East
No ratings yet
Math Teacher Skills in Lopez East
7 pages
3a Confidence Interval
No ratings yet
3a Confidence Interval
52 pages
Mud Loss Behavior in Fractured Formation With High Temperature and Pressure
No ratings yet
Mud Loss Behavior in Fractured Formation With High Temperature and Pressure
15 pages
Design and Analysis of Algorithm: Binary Tree
No ratings yet
Design and Analysis of Algorithm: Binary Tree
18 pages
G10 Maths - FAKE TEST of Emg Math Education Here
No ratings yet
G10 Maths - FAKE TEST of Emg Math Education Here
10 pages
Voronoi Diagrams Explained
No ratings yet
Voronoi Diagrams Explained
14 pages
Sensitivity
No ratings yet
Sensitivity
6 pages
Report of Hilbert Matrix Assignement No 3 - R1
No ratings yet
Report of Hilbert Matrix Assignement No 3 - R1
5 pages
Digital Signal Processing : Lecture Notes
No ratings yet
Digital Signal Processing : Lecture Notes
88 pages
Lab Experiment
No ratings yet
Lab Experiment
7 pages
E-Tech Reviewer
No ratings yet
E-Tech Reviewer
2 pages
Third and Fourth Year Curriculum For Civil Engineeering
No ratings yet
Third and Fourth Year Curriculum For Civil Engineeering
38 pages
Differential Pressure Sensor Guide
No ratings yet
Differential Pressure Sensor Guide
4 pages
Understanding Percentages and Discounts
No ratings yet
Understanding Percentages and Discounts
24 pages
Group Technology for Engineers
No ratings yet
Group Technology for Engineers
115 pages
2010meta Report Rubiales-Piriri Final - Rev
No ratings yet
2010meta Report Rubiales-Piriri Final - Rev
46 pages
C Programming Size and Memory Questions
No ratings yet
C Programming Size and Memory Questions
5 pages
Ceramic Inlays Is The Inlay Thickness An Important Factor Influencing The Fracture Risk
No ratings yet
Ceramic Inlays Is The Inlay Thickness An Important Factor Influencing The Fracture Risk
8 pages
Today 500+ Midterm Papers by PIN2 and MUHAMMAD (MAS All Rounder)
No ratings yet
Today 500+ Midterm Papers by PIN2 and MUHAMMAD (MAS All Rounder)
545 pages