0% found this document useful (0 votes)

18 views29 pages

Principal Component Analysis: Source: Computing Science 466 / 551 R. Greiner, B. Póczos, University of Alberta

The document provides an overview of Principal Component Analysis (PCA), a technique used to reduce the dimensionality of data while preserving as much variance as possible. It discusses the motivation for PCA, its algorithms, applications, and theoretical foundations, emphasizing its utility in data visualization, noise reduction, and data classification. However, it also notes PCA's limitations, such as its inability to capture non-linear structures and lack of awareness of class labels.

Uploaded by

AhmedM

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views29 pages

Principal Component Analysis: Source: Computing Science 466 / 551 R. Greiner, B. Póczos, University of Alberta

Uploaded by

AhmedM

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Principal Component

Analysis
Source: Introduction to Machine Learning
Computing Science 466 / 551
R. Greiner, B. Póczos, University of Alberta
https://webdocs.cs.ualberta.ca/~greiner/C-466/

ABDBM © Ron Shamir 1

Contents
• Motivation
• PCA algorithms
• Applications
• PCA theory

Some of these slides are taken from

• Karl Booksh Research group
• Tom Mitchell
ABDBM © Ron Shamir • Ron Parr 2
Data Visualization
Example:

• Given 53 blood and urine measurements

(features) from 65 individuals

• How can we visualize the measurements?

ABDBM © Ron Shamir 3

Data Visualization
• Matrix format (65x53)

H-WBC H-RBC H-Hgb H-Hct H-MCV H-MCH H-MCHC

A1 8.0000 4.8200 14.1000 41.0000 85.0000 29.0000 34.0000
A2 7.3000 5.0200 14.7000 43.0000 86.0000 29.0000 34.0000
Instances

A3 4.3000 4.4800 14.1000 41.0000 91.0000 32.0000 35.0000

A4 7.5000 4.4700 14.9000 45.0000 101.0000 33.0000 33.0000
A5 7.3000 5.5200 15.4000 46.0000 84.0000 28.0000 33.0000
A6 6.9000 4.8600 16.0000 47.0000 97.0000 33.0000 34.0000
A7 7.8000 4.6800 14.7000 43.0000 92.0000 31.0000 34.0000
A8 8.6000 4.8200 15.8000 42.0000 88.0000 33.0000 37.0000
A9 5.1000 4.7100 14.0000 43.0000 92.0000 30.0000 32.0000

Features

Difficult to see the correlations between the features...

ABDBM © Ron Shamir 4
Data Visualization
• Spectral format (65 pictures, one for each person)
1000
900
800
700
600
Value

500
400
300
200
100
00 10 20 30 40 50 60
measurement
Measurement

Difficult to compare the different patients...

ABDBM © Ron Shamir 5
Data Visualization
• Spectral format (53 pictures, one for each feature)

1.8
1.6
1.4
1.2
H-Bands

1
0.8
0.6
0.4
0.2
0
0 10 20 30 40 50 60 70
Person
Difficult to see the correlations between the features...
ABDBM © Ron Shamir 6
Data Visualization
Bi-variate Tri-variate
550
500 4
450
400 3
C-LDH

M-EPI
350 2
300
250 1
200 0
600
150 500
400 400
100 200 300
C-LDH 200
50 00
100
0 50 150 250 350 450 C-Triglycerides
C-Triglycerides
How can we visualize the other variables???
… difficult to see in 4 or higher dimensional spaces...
ABDBM © Ron Shamir 7
Data Visualization
• Is there a better representation than the coordinate
axes?

• Is it really necessary to show all the 53 dimensions?

– … what if there are strong correlations between
some of the features?

• How could we find

the smallest subspace of the 53-D space that
keeps the most information about the original data?

• A solution: Principal Component Analysis

ABDBM © Ron Shamir 8
Principal Component Analysis

PCA:
Orthogonal projection of data onto lower-dimension
linear space that...
• maximizes variance of projected data (purple line)

• minimizes mean squared distance between data

points and their projections (the blue segments)
ABDBM © Ron Shamir 9
PCA: the idea

• Given data points in a d-dimensional space,

project into lower dimensional space while
preserving as much information as possible
• Eg, find best planar approximation to 3D data
• Eg, find best 12-D approximation to 104-D data

• In particular, choose projection that

minimizes squared error
in reconstructing original data

ABDBM © Ron Shamir 10

The Principal Components
• Vectors originating from the center of mass

• Principal component #1 points

in the direction of the largest variance.

• Each subsequent principal component…

• is orthogonal to the previous ones, and
• points in the directions of the largest
variance of the residual subspace

ABDBM © Ron Shamir 11

2D Gaussian dataset

ABDBM © Ron Shamir 12

1st PCA axis

ABDBM © Ron Shamir 13

2nd PCA axis

ABDBM © Ron Shamir 14

PCA: a sequential algorithm
Given the centered data {x1, …, xm}, compute the principal vectors:
1 m
w1 = arg max ∑ {( w T x i ) 2 } 1st PCA vector
w =1 m
i =1

We maximize the variance of projection of x

k −1
1 m
w k = arg max ∑ {[w T (x i − ∑ w j w Tj x i )]2 } kth PCA vector
w =1 m
i =1 j =1

x’ PCA reconstruction
w
We maximize the
variance of the projection
x
in the residual subspace
w1(w1Tx) w1
w2(w2Tx)
x’=w1(w1Tx)+w2(w2Tx)
ABDBM © Ron Shamir
w2 15
PCA algorithm
• Given data {x1, …, xm}, compute the sample
covariance matrix Σ

1 m 1 m
Σ ∑
m i =1
(xi − x )(xi − x )T where x = ∑ xi
m i =1

• PCA basis vectors = the eigenvectors of Σ

• Larger eigenvalue ⇒ more important eigenvectors

ABDBM © Ron Shamir 16
PCA algorithm
PCA algorithm(X, k): top k eigenvalues/eigenvectors
% X = N × m data matrix,
% … each data point xi = column vector, i=1..m
1 m
• x= ∑
m i =1
xi

• X  subtract mean x from each column vector xi in X

• Σ  X XT … covariance matrix of X
• { λi, ui }i=1..N = eigenvectors/eigenvalues of Σ
... λ1 ≥ λ2 ≥ … ≥ λN

• Return { λi, ui }i=1..k

Justification of Algorithm II
GOAL:

Use Lagrange-multipliers for the constraints.

ABDBM © Ron Shamir
PCA Applications
• Data Visualization
• Data Compression
• Noise Reduction
• Data Classification
• …
• In genomics (and in general): a first step
in data exploration: does my data have
inner structure? Is it clusterable?

23
A PCA result of ALL 21 samples using 7,913 genes.
Red: good prognosis (upper right),
Blue: bad prognosis (lower left).
ABDBM © Ron Shamir 24
Nishimura et al, GIW 03
PROMO demo

PCA shortcomings

PCA doesn’t know labels

PCA shortcoming (3)

PCA cannot capture NON-LINEAR structure

ABDBM © Ron Shamir 28
Summary: PCA
– Finds orthonormal basis for data
– Sorts dimensions in order of “importance” = variance
– Discards low importance dimensions

• Uses:
– Get compact description
– View and assess the data
– Ignore noise
– Improve clustering (hopefully)

• Not magic:
– Doesn’t know class labels
– Can only capture linear variations

• One of many tricks to reduce dimensionality!

Invented PCA in
1901.
Rediscovered
multiple times
in many fields.

PCA for High-Dimensional Data
No ratings yet
PCA for High-Dimensional Data
14 pages
IDS 4 (Week 14)
No ratings yet
IDS 4 (Week 14)
66 pages
Principal Component Analysis (PCA) : Gundimeda Venugopal
No ratings yet
Principal Component Analysis (PCA) : Gundimeda Venugopal
17 pages
Dim Reduction & Pattern Recognition
No ratings yet
Dim Reduction & Pattern Recognition
63 pages
PCA Finds Representation Through Linear Transformation
No ratings yet
PCA Finds Representation Through Linear Transformation
28 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
15 pages
PCA
100% (1)
PCA
33 pages
Presentation A I STD 2
No ratings yet
Presentation A I STD 2
63 pages
Unit V Foml
No ratings yet
Unit V Foml
18 pages
P-3.1.4 - Pca
No ratings yet
P-3.1.4 - Pca
44 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
6 pages
Lec 16 PCA
No ratings yet
Lec 16 PCA
64 pages
PCA Complete
No ratings yet
PCA Complete
8 pages
Machine Learning (CSO851) - Lecture 03
No ratings yet
Machine Learning (CSO851) - Lecture 03
71 pages
PCA Dev
No ratings yet
PCA Dev
16 pages
Dimensionality Reduction Using Principal Component Analysis
No ratings yet
Dimensionality Reduction Using Principal Component Analysis
32 pages
CS464 Ch6 FeatureExtraction
No ratings yet
CS464 Ch6 FeatureExtraction
46 pages
Module 3
No ratings yet
Module 3
41 pages
Program 3
No ratings yet
Program 3
7 pages
Unsupervised Learning: Dimensionality Reduction
No ratings yet
Unsupervised Learning: Dimensionality Reduction
20 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
6 pages
Lecture 14: Principal Component Analysis: Computing The Principal Components
No ratings yet
Lecture 14: Principal Component Analysis: Computing The Principal Components
6 pages
Unit 3
No ratings yet
Unit 3
28 pages
Principle Component Analysis
No ratings yet
Principle Component Analysis
7 pages
Principal Component Analysis
100% (1)
Principal Component Analysis
10 pages
Computer Vision and Image Processing - Fundamentals and Applications
No ratings yet
Computer Vision and Image Processing - Fundamentals and Applications
34 pages
Dimensionality Reduction Technique
No ratings yet
Dimensionality Reduction Technique
17 pages
Principal Component Analysis and Cluster Analysis
No ratings yet
Principal Component Analysis and Cluster Analysis
14 pages
It22043 Unit 1 - Pca
No ratings yet
It22043 Unit 1 - Pca
47 pages
3.2 Pca
No ratings yet
3.2 Pca
27 pages
Pca Lda Lobo
No ratings yet
Pca Lda Lobo
20 pages
Clustering and Dimensionality Reduction Techniques PCA T SNE K Means
No ratings yet
Clustering and Dimensionality Reduction Techniques PCA T SNE K Means
15 pages
U5@-Data Reduction
No ratings yet
U5@-Data Reduction
22 pages
Love Report 1
No ratings yet
Love Report 1
10 pages
10-601 Machine Learning (Fall 2010) Principal Component Analysis
No ratings yet
10-601 Machine Learning (Fall 2010) Principal Component Analysis
8 pages
Dimensionality Reduction Techniques in Data Mining Aim To Reduce The Number of Features
No ratings yet
Dimensionality Reduction Techniques in Data Mining Aim To Reduce The Number of Features
9 pages
5-Dimension Reduction
No ratings yet
5-Dimension Reduction
48 pages
Face Recognition PAC
No ratings yet
Face Recognition PAC
24 pages
Principal Component Analysis Overview
No ratings yet
Principal Component Analysis Overview
90 pages
Lecture11 Pca
No ratings yet
Lecture11 Pca
46 pages
Question and Answer PCA
No ratings yet
Question and Answer PCA
4 pages
Principal Component Analysis - (Pca) : Its Mechanics & Relevance To Modelling
No ratings yet
Principal Component Analysis - (Pca) : Its Mechanics & Relevance To Modelling
5 pages
FALLSEM2024-25 SWE1015 ETH VL2024250103260 2024-09-18 Reference-Material-I
No ratings yet
FALLSEM2024-25 SWE1015 ETH VL2024250103260 2024-09-18 Reference-Material-I
62 pages
20 Pca
No ratings yet
20 Pca
50 pages
What Is PCA?: Image Source
No ratings yet
What Is PCA?: Image Source
17 pages
MDA PrincipalComponentAnalysis
No ratings yet
MDA PrincipalComponentAnalysis
20 pages
PCA for Data Simplification
No ratings yet
PCA for Data Simplification
70 pages
Module3 Notes
No ratings yet
Module3 Notes
13 pages
Kinya Sharon - Ass2 - Machine Learning
No ratings yet
Kinya Sharon - Ass2 - Machine Learning
12 pages
Pca 1
No ratings yet
Pca 1
3 pages
The Math Behind PCA
No ratings yet
The Math Behind PCA
3 pages
1501589578da Mod15 Q1 e Text
No ratings yet
1501589578da Mod15 Q1 e Text
9 pages
PCA: Dimensionality Reduction Explained
No ratings yet
PCA: Dimensionality Reduction Explained
47 pages
Session 12 PCA
No ratings yet
Session 12 PCA
32 pages
Unit 3dimentionality Reduction
No ratings yet
Unit 3dimentionality Reduction
13 pages
Unit Iii Dimentionality Reduction
No ratings yet
Unit Iii Dimentionality Reduction
12 pages
Understanding Principal Component Analysis
No ratings yet
Understanding Principal Component Analysis
22 pages
Principal Component Analysis Guide
No ratings yet
Principal Component Analysis Guide
23 pages
Need of Principal Component Analysis
No ratings yet
Need of Principal Component Analysis
8 pages
Statistical Methods For Handling Incomplete Data 2nd Edition Kim PDF Available
No ratings yet
Statistical Methods For Handling Incomplete Data 2nd Edition Kim PDF Available
175 pages
BCS-052 CS 5A Tutorial1 Er - Neha Singh
No ratings yet
BCS-052 CS 5A Tutorial1 Er - Neha Singh
3 pages
Final Module in Assessment 1
No ratings yet
Final Module in Assessment 1
23 pages
Introduction To Decision Trees
No ratings yet
Introduction To Decision Trees
10 pages
Test Bank Questions Chapter 6
No ratings yet
Test Bank Questions Chapter 6
3 pages
Assignment 7 - Engineering Statistics - Spring 2018
No ratings yet
Assignment 7 - Engineering Statistics - Spring 2018
6 pages
XL Miner User Guide
No ratings yet
XL Miner User Guide
420 pages
Moments and Measures of Skewness and Kurtosis
0% (1)
Moments and Measures of Skewness and Kurtosis
2 pages
Biostats Exam 2 Cheat Sheet
No ratings yet
Biostats Exam 2 Cheat Sheet
2 pages
GEA Cheatsheet
No ratings yet
GEA Cheatsheet
2 pages
Probability and Statistics (SH552) Lecturer 1 Continue
No ratings yet
Probability and Statistics (SH552) Lecturer 1 Continue
10 pages
ODD - Solutions Chapter 5
No ratings yet
ODD - Solutions Chapter 5
9 pages
Production Management and Forecasting Techniques
No ratings yet
Production Management and Forecasting Techniques
2 pages
Aghayedo, Elmi-Homework 6
No ratings yet
Aghayedo, Elmi-Homework 6
3 pages
Assignment 2 2024
No ratings yet
Assignment 2 2024
11 pages
JawaherAlbaddawi 8221614forecasting Housing Prices Using A Random Forest Machine Learning Model
No ratings yet
JawaherAlbaddawi 8221614forecasting Housing Prices Using A Random Forest Machine Learning Model
7 pages
Engineering Data Analysis
No ratings yet
Engineering Data Analysis
64 pages
Topic01 - Principal Component Analysis
No ratings yet
Topic01 - Principal Component Analysis
14 pages
Chp14 One Shot Pranav Popat Dec 23
No ratings yet
Chp14 One Shot Pranav Popat Dec 23
20 pages
Hypothesis Testing and P-Values Explained
No ratings yet
Hypothesis Testing and P-Values Explained
6 pages
Hypothesis Testing Example Explained
No ratings yet
Hypothesis Testing Example Explained
2 pages
Project Three: Simple Linear Regression and Multiple Regression
No ratings yet
Project Three: Simple Linear Regression and Multiple Regression
10 pages
HW 5, 448
100% (1)
HW 5, 448
16 pages
Strategic Pedagogical Reading Comprehension Towards Creative Thinking
No ratings yet
Strategic Pedagogical Reading Comprehension Towards Creative Thinking
14 pages
Proportion Tests in Statistical Inference
No ratings yet
Proportion Tests in Statistical Inference
6 pages
Bayesian Analysis For The Social Sciences 1st Edition Simon Jackman Online Version
No ratings yet
Bayesian Analysis For The Social Sciences 1st Edition Simon Jackman Online Version
59 pages
Engineering Bids Data Analysis
No ratings yet
Engineering Bids Data Analysis
26 pages
COST BEHAVIOR Quizzer NONE 1
No ratings yet
COST BEHAVIOR Quizzer NONE 1
10 pages
Panel Data Models
No ratings yet
Panel Data Models
112 pages
(Original PDF) Statistics For Business: Decision Making and Analysis 3rd Edition Instant Download
100% (5)
(Original PDF) Statistics For Business: Decision Making and Analysis 3rd Edition Instant Download
46 pages