Non-Convex Optimization For Deep Networks and Stochastic

The document discusses non-convex optimization in deep learning, particularly focusing on Stochastic Gradient Descent (SGD) as a method for optimizing machine learning models. It highlights a case study where a deep learning model suffers from inefficiencies and overfitting due to lack of optimization, achieving only 70% accuracy. The document outlines the SGD algorithm, emphasizing its computational efficiency and the process of updating model parameters using random training examples.

Uploaded by

recognitionface397

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

43 views9 pages

Non-Convex Optimization For Deep Networks and Stochastic

Uploaded by

recognitionface397

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

SNS COLLEGE OF ENGINEERING

Kurumbapalayam(Po), Coimbatore – 641 107

Accredited by NAAC-UGC with ‘A’ Grade
Approved by AICTE, Recognized by UGC & Affiliated to Anna University, Chennai

Department of AI &DS

Course Name – 19AD602 DEEP LEARNING

III Year / VI Semester

UNIT-4 OPTIMIZATION AND GENERALIZATION

Topic: Non-convex optimization for deep networks AND Stochastic
Gradient Descent

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE
NON CONVEX OPTIMIZATION IN DEEP LEARNING

CASE STUDY:
A company trains a deep learning model for image recognition without optimizations. The model takes 10
hours to train, achieves only 70% accuracy, and suffers from overfitting, leading to poor generalization on
new data.

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE 1/8
NON CONVEX OPTIMIZATION IN DEEP LEARNING

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE 2/8
NON CONVEX OPTIMIZATION IN DEEP LEARNING

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE 3/8
NON CONVEX OPTIMIZATION IN DEEP LEARNING

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE 4/8
NON CONVEX OPTIMIZATION IN DEEP LEARNING

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks AND
Stochastic Gradient Descent/SNSCE 5/8
STOCHASTIC GRADIENT DESCENT IN DEEP LEARNING

Stochastic Gradient Descent (SGD) is a variant of the Gradient Descent algorithm that is used for optimizing machine learning
models. It addresses the computational inefficiency of traditional Gradient Descent methods when dealing with large datasets in
machine learning projects.
In SGD, instead of using the entire dataset for each iteration, only a single random training example (or a small batch) is selected to
calculate the gradient and update the model parameters. This random selection introduces randomness into the optimization
process, hence the term “stochastic” in stochastic Gradient Descent
The advantage of using SGD is its computational efficiency, especially when dealing with large datasets. By using a single example
or a small batch, the computational cost per iteration is significantly reduced compared to traditional Gradient Descent methods
that require processing the entire dataset.

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks and Stochastic Gradient
Descent/SNSCE 6/8
STOCHASTIC GRADIENT DESCENT IN DEEP LEARNING

Stochastic Gradient Descent Algorithm

● Initialization: Randomly initialize the parameters of the model.
● Set Parameters: Determine the number of iterations and the learning rate (alpha) for updating the parameters.
● Stochastic Gradient Descent Loop: Repeat the following steps until the model converges or reaches the maximum number of iterations:
○ Shuffle the training dataset to introduce randomness.
○ Iterate over each training example (or a small batch) in the shuffled order.
○ Compute the gradient of the cost function with respect to the model parameters using the current training
example (or batch).
○ Update the model parameters by taking a step in the direction of the negative gradient, scaled by the learning rate.
○ Evaluate the convergence criteria, such as the difference in the cost function between iterations of the gradient.
● Return Optimized Parameters: Once the convergence criteria are met or the maximum number of iterations is reached, return the optimized
model parameters.

In SGD, since only one sample from the dataset is chosen at random for each iteration, the path taken by the algorithm to reach the minima is usually
noisier than your typical Gradient Descent algorithm. But that doesn’t matter all that much because the path taken by the algorithm does not matter,
as long as we reach the minimum and with a significantly shorter training time.

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks and Stochastic Gradient
Descent/SNSCE 7/8
STOCHASTIC GRADIENT DESCENT IN DEEP LEARNING

thank you

GULSHAN BANU.A/ AP/AI AND DS /Non-convex optimization for deep networks and Stochastic Gradient
Descent/SNSCE 8/8

Optimization in Deep Learning
No ratings yet
Optimization in Deep Learning
15 pages
Dla-Cat 1
No ratings yet
Dla-Cat 1
37 pages
Advanced Stochastic Gradient Descent
No ratings yet
Advanced Stochastic Gradient Descent
23 pages
2,5 Stochastic Gradient Descent
No ratings yet
2,5 Stochastic Gradient Descent
11 pages
2.stochastic Gradient Descent (SGD)
No ratings yet
2.stochastic Gradient Descent (SGD)
11 pages
Stochastic Gradient Descent For Nonconvex Learning Without Bounded Gradient Assumptions
No ratings yet
Stochastic Gradient Descent For Nonconvex Learning Without Bounded Gradient Assumptions
7 pages
Train Longer, Generalize Better: Closing The Generalization Gap in Large Batch Training of Neural Networks
No ratings yet
Train Longer, Generalize Better: Closing The Generalization Gap in Large Batch Training of Neural Networks
15 pages
SGD Explained for Data Scientists
No ratings yet
SGD Explained for Data Scientists
23 pages
DL Test-2
No ratings yet
DL Test-2
28 pages
Tut04 - One Algorithm To Optimize Them All
No ratings yet
Tut04 - One Algorithm To Optimize Them All
19 pages
Stochastic Gradient Descent Tuning
No ratings yet
Stochastic Gradient Descent Tuning
8 pages
Convolutional Neural Network Basics
100% (1)
Convolutional Neural Network Basics
59 pages
Better Theory For SGD in The Nonconvex World
No ratings yet
Better Theory For SGD in The Nonconvex World
33 pages
Stochastic Gradient Descent
No ratings yet
Stochastic Gradient Descent
5 pages
Unit V NNHDL
No ratings yet
Unit V NNHDL
33 pages
Gradient Descent for Deep Learning
No ratings yet
Gradient Descent for Deep Learning
21 pages
Unit 4 - GRADIENT LEARNING
No ratings yet
Unit 4 - GRADIENT LEARNING
3 pages
Deep Learning Optimization Guide
No ratings yet
Deep Learning Optimization Guide
32 pages
Gradient Descent 5 Part 2
No ratings yet
Gradient Descent 5 Part 2
15 pages
Aie231 NN Lab5
No ratings yet
Aie231 NN Lab5
7 pages
14 Efficient Learning
No ratings yet
14 Efficient Learning
7 pages
Theory DL
No ratings yet
Theory DL
227 pages
Deep Learning Unit 4
No ratings yet
Deep Learning Unit 4
10 pages
Technical Writing
No ratings yet
Technical Writing
8 pages
Lecture 5
No ratings yet
Lecture 5
4 pages
Deep Neural Network Optimization Techniques
No ratings yet
Deep Neural Network Optimization Techniques
23 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Opti Incertitude
No ratings yet
Opti Incertitude
231 pages
Why Stochastic Gradient Descent Works
No ratings yet
Why Stochastic Gradient Descent Works
6 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Understanding Stochastic Gradient Descent
No ratings yet
Understanding Stochastic Gradient Descent
1 page
QB Unit 3
No ratings yet
QB Unit 3
14 pages
Is Stochastic Gradient Descent Effective? A PDE Perspective On Machine Learning Processes
No ratings yet
Is Stochastic Gradient Descent Effective? A PDE Perspective On Machine Learning Processes
50 pages
Gradient Descent & Stochastic Optimization
No ratings yet
Gradient Descent & Stochastic Optimization
4 pages
Deep Neural Networks
No ratings yet
Deep Neural Networks
48 pages
Technical Writing
No ratings yet
Technical Writing
9 pages
SCSA3015 Deep Learning Unit 4 PDF
No ratings yet
SCSA3015 Deep Learning Unit 4 PDF
30 pages
Lesson 4 Gradient Descent
No ratings yet
Lesson 4 Gradient Descent
13 pages
Lec 5 Scaling and Opt
No ratings yet
Lec 5 Scaling and Opt
68 pages
Deep Learning Tutorial 9
No ratings yet
Deep Learning Tutorial 9
70 pages
DLbook
No ratings yet
DLbook
165 pages
Gradient Descent and Optimization in Machine Learning
No ratings yet
Gradient Descent and Optimization in Machine Learning
9 pages
Gradient Descent Optimization Guide
No ratings yet
Gradient Descent Optimization Guide
9 pages
Neural Networks for Beginners
No ratings yet
Neural Networks for Beginners
79 pages
Lecture 2
No ratings yet
Lecture 2
31 pages
Op Tim Ization
No ratings yet
Op Tim Ization
9 pages
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
No ratings yet
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
40 pages
Stochastic Gradient Descent With LocalMinima
No ratings yet
Stochastic Gradient Descent With LocalMinima
10 pages
S09 DNN Gradients Wip
No ratings yet
S09 DNN Gradients Wip
28 pages
A High Probability Analysis of Adaptive SGD With Momentum
No ratings yet
A High Probability Analysis of Adaptive SGD With Momentum
13 pages
The Impact of Neural Network Overparameterization On Gradient Confusion and Stochastic Gradient Descent
No ratings yet
The Impact of Neural Network Overparameterization On Gradient Confusion and Stochastic Gradient Descent
46 pages
Gradient Descent Method
No ratings yet
Gradient Descent Method
12 pages
INT255 Unit-4
No ratings yet
INT255 Unit-4
40 pages
Optimization Gradient Descent
No ratings yet
Optimization Gradient Descent
13 pages
DL Unit 4&5
No ratings yet
DL Unit 4&5
27 pages
17 Large Scale Machine Learning PDF
No ratings yet
17 Large Scale Machine Learning PDF
10 pages
M3 Session 1-1
No ratings yet
M3 Session 1-1
27 pages
Introduction To Convnet-VGG
No ratings yet
Introduction To Convnet-VGG
35 pages
LSTM
No ratings yet
LSTM
13 pages
Logisctic Models Intro
No ratings yet
Logisctic Models Intro
60 pages
Ads Complete Notes
No ratings yet
Ads Complete Notes
54 pages
Advanced Artificial Intelligence
No ratings yet
Advanced Artificial Intelligence
82 pages
MCS-224 Artificial Intelligence and Machine Learning
No ratings yet
MCS-224 Artificial Intelligence and Machine Learning
493 pages
Implementation of Real Time Activity Sensing
No ratings yet
Implementation of Real Time Activity Sensing
9 pages
UNIT - 1 Notes
No ratings yet
UNIT - 1 Notes
28 pages
OReilly Technology Trends For 2024
100% (1)
OReilly Technology Trends For 2024
43 pages
Transformers for AI Enthusiasts
No ratings yet
Transformers for AI Enthusiasts
11 pages
Data Science Exam for CSE Students
No ratings yet
Data Science Exam for CSE Students
4 pages
cs188 Fa24 Lec23
No ratings yet
cs188 Fa24 Lec23
60 pages
The Machine Learnings Leading The Cuffless PPG Blood Pressure Sensors Into The Next Stage
No ratings yet
The Machine Learnings Leading The Cuffless PPG Blood Pressure Sensors Into The Next Stage
13 pages
DWDM
No ratings yet
DWDM
20 pages
Pfe B K: Year 2025
No ratings yet
Pfe B K: Year 2025
13 pages
Adversarial Training: A Survey: Mengnan Zhao, Lihe Zhang, Jingwen Ye, Huchuan Lu,, Baocai Yin, Xinchao Wang
No ratings yet
Adversarial Training: A Survey: Mengnan Zhao, Lihe Zhang, Jingwen Ye, Huchuan Lu,, Baocai Yin, Xinchao Wang
20 pages
Updated Crop Recommendation
No ratings yet
Updated Crop Recommendation
27 pages
CVPR Unit 5,6
No ratings yet
CVPR Unit 5,6
25 pages
Introduction to Machine Learning Concepts
No ratings yet
Introduction to Machine Learning Concepts
20 pages
Rubric AI 2024
No ratings yet
Rubric AI 2024
3 pages
Group 2 Table Matrix
No ratings yet
Group 2 Table Matrix
13 pages
AI Unit 9 16 19
No ratings yet
AI Unit 9 16 19
40 pages
Hacker's Guide To Machine Learning With Python Venelin Valkov Z
No ratings yet
Hacker's Guide To Machine Learning With Python Venelin Valkov Z
240 pages
Battery Safety Machine Learning-Based Prognostics
No ratings yet
Battery Safety Machine Learning-Based Prognostics
28 pages
Natural Language Processing, NLP
No ratings yet
Natural Language Processing, NLP
3 pages
Neu Discrete Math f24 Ch0
No ratings yet
Neu Discrete Math f24 Ch0
10 pages
Detecting Regime Change in Computational Finance Data Science Machine Learning and Algorithmic Trading 1st Edition Jun Chen Download
No ratings yet
Detecting Regime Change in Computational Finance Data Science Machine Learning and Algorithmic Trading 1st Edition Jun Chen Download
125 pages
Class Notes - UNIT VI - BCS-404 B Essentials of Computer Security
No ratings yet
Class Notes - UNIT VI - BCS-404 B Essentials of Computer Security
14 pages
Research Report
No ratings yet
Research Report
47 pages
In Which Journal Should I Publish My Paper IJRASET or IRJMETS
No ratings yet
In Which Journal Should I Publish My Paper IJRASET or IRJMETS
12 pages
Preeclampsia Prediction via Machine Learning
No ratings yet
Preeclampsia Prediction via Machine Learning
11 pages
Precision Non-Alcoholic Fatty Liver Disease NAFLD
No ratings yet
Precision Non-Alcoholic Fatty Liver Disease NAFLD
14 pages
Predictive Maintenance Simulator
No ratings yet
Predictive Maintenance Simulator
12 pages
Machine Learning: A Review of Classification and Combining Techniques
No ratings yet
Machine Learning: A Review of Classification and Combining Techniques
32 pages
Clustering Techniques in Data Analytics
No ratings yet
Clustering Techniques in Data Analytics
47 pages