0% found this document useful (0 votes)

97 views38 pages

Chapter 3 - Data Visualization Chapter 4 - Summary Statistics

The document discusses data visualization and summary statistics techniques for exploring and presenting data. It provides examples of common graph types like scatter plots, histograms and box plots. It also discusses more advanced visualization methods like heat maps and network graphs.

Uploaded by

jay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

97 views38 pages

Chapter 3 - Data Visualization Chapter 4 - Summary Statistics

Uploaded by

jay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

Chapter 3 – Data Visualization

Chapter 4 – Summary Statistics

Data Mining for Business Intelligence

Shmueli, Patel & Bruce

© Galit Shmueli and Peter Bruce 2010

Data Visualization
• “A picture is worth a thousand words”
• Data visualization and summary statistics help condense
data
• Effective presentation
• Supports data cleaning (identify missing values, outliers,
incorrect values, duplicates) and exploring (combine some
groups)
• Helps identify suitable variables
• Mandatory initial step for most data mining applications
Graphs for Data Exploration
Basic Plots Distribution Plots
Line Graphs Boxplots
Bar Charts Histograms
Scatterplots
Two Examples
Amtrak Ridership: Boston Housing Data:
Amtrak routinely collects Census tracts in Boston
data on ridership Several variables (14) –
Goal: To predict future crime rate, location, etc.
ridership using the series Goal 1: Predict median
of monthly ridership data value of a home in the tract
between Jan 1991 – Goal 2: Cluster census
March 2004 tracts
Line Graph for Time Series

Shows how ridership patterns of Amtrak trains change over time

Bar Chart for Categorical Variable
Determine differences
between subgroups

Example: 95% of tracts do

not border Charles River
Scatterplot
Displays relationship between two numerical variables – median values
decrease as percentage of low status population increases
Graphs
 Three most effective plots:
 bar charts – usually for categorical variables
 line graphs – time series data
 Scatterplots – relationship between 2 variables

 Used widely in the business world

 Domain knowledge and nature of the task are used to

select appropriate chart for data at hand
Distribution Plots
 Display entire distribution of a numerical variable
 Display “ how many” of each value occur in a data set or,
for continuous data or data with many possible values,
“ how many” values are in each of a series of ranges or
“ bins”
 Generally useful for prediction tasks (supervised learning)
and help determine the potential methods and variable
transformations
Histograms

Boston Housing example:

Histogram shows the

distribution of the
outcome variable
(median house value)
Boxplots
Side-by-side boxplots are useful for comparing subgroups

Boston Housing Example:

Display distribution of
outcome variable (MEDV)
for neighborhoods on
Charles river (1) and not on
Charles river (0)
Box Plot
Top outliers defined as
those above Q3+1.5(Q3-
Q1).
“ max” = maximum of
outliers

non-outliers
“ ma
x”
Analogous definitions
Quartile 3 for bottom outliers and
mean
Median
for “ min”
Quartile 1 Details may differ
“ min”
across software
Heat Maps
 Basic charts and distribution plots can display a maximum of 2
variables
Cannot represent high-dimensional data
 In data mining, often data are multi-dimensional
 Heat maps are graphical displays where color is used to
convey information
 Used to visualize:
Correlation
Missing Data
Heat maps
 Correlation table for p variables has p rows and p columns
 Data table has p columns (variables) and n rows (records)
 If n is large, a subset can be used
 Easier and faster to scan the color coding rather than the
values
 Useful when examining a large number of values but bar
charts and plots should be used for precise graphical
representations
Heatmap to highlight correlations
(Boston Housing)
CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT MEDV
CRIM 1.00
ZN -0.20 1.00
INDUS 0.41 -0.53 1.00
CHAS
NOX
-0.06
0.42
-0.04
-0.52
0.06
0.76
1.00
0.09 1.00
In Excel
RM
AGE
-0.22
0.35
0.31
-0.57
-0.39
0.64
0.09
0.09
-0.30
0.73
1.00
-0.24 1.00
(using
DIS -0.38 0.66 -0.71 -0.10 -0.77 0.21 -0.75 1.00 conditional
RAD 0.63 -0.31 0.60 -0.01 0.61 -0.21 0.46 -0.49 1.00
TAX 0.58 -0.31 0.72 -0.04 0.67 -0.29 0.51 -0.53 0.91 1.00 formatting)
PTRATIO 0.29 -0.39 0.38 -0.12 0.19 -0.36 0.26 -0.23 0.46 0.46 1.00
B -0.39 0.18 -0.36 0.05 -0.38 0.13 -0.27 0.29 -0.44 -0.44 -0.18 1.00
LSTAT 0.46 -0.41 0.60 -0.05 0.59 -0.61 0.60 -0.50 0.49 0.54 0.37 -0.37 1.00
MEDV -0.39 0.36 -0.48 0.18 -0.43 0.70 -0.38 0.25 -0.38 -0.47 -0.51 0.33 -0.74 1.00

In Spotfire
Multidimensional Visualization
Adding variables
• In order to add more variables to the plot
• Categorical: hue, shape, multiple panels
• Numerical : color intensity

• Incorporating more variables has advantages

• Use for both classification and prediction tasks
• Helps adding interaction terms
Scatterplot with color added
Boston Housing

NOX vs. LSTAT

Red = low median value
Blue = high median value
Data Manipulations
Important step in pre-processing of data
Includes – variable transformations, deriving new
variables (binning, condensing categories)
Common methods:
Rescaling – can often enhance the plot and illuminate
relationships
Aggregation – temporal scale: by granularity (monthly,
weekly), geographical (by zip codes)
Zooming and Panning – reveal patterns and outliers (Google
maps – zoom certain areas of interest)
Filtering – removing some “noise” from data to focus
attention on certain data
Rescaling to log scale (on right)
“ uncrowds” the data

Rescaling removes crowding and allows a better view of the linear

relationship between the two logged-scale variables
Aggregation
Amtrak Ridership – Monthly Data
Aggregation – Monthly Average

“Seasonal aggregation”(monthly) – Peak ridership in July-August, and

there is a dip in January-February
Aggregation – Yearly Average

“Temporal aggregation”(yearly) – Ridership decreased from 1991 –

1996 and then grew again from 1996 – 2004 (with a slight drop in
2003-2004)
Scatter Plot with Labels (Utilities)

Helps visualize and identify clusters and outliers, detect patterns.

For example: Nevada and Puget are similar and away from the rest
Scaling up: Large datasets
• Scatterplots for large observations can sometimes be ineffective

• Alternatives:
• Sampling
• Reduce marker size
• Breaking data down into subsets
• Aggregation
• Jittering – slightly moving each marker by adding a small
amount of noise
Other plots/graphs
• Matrix plot – multiple scatterplots together for pairwise
relationships
• Interactive visualization
• Multiple inter-link plots (single view)
• Interactive visualization is often preferred over “static”
graphs – all plots on one screen
• Specialized Visualization
• Network graphs – actors and relations between them
(“nodes”, “edges”)
• Tree maps for hierarchical large-scale data
• Map charts for geographical data

• Spotfire software – [Link]

Linked plots
(same record is highlighted in each plot)
Network Graph – eBay Auctions
(sellers on left, buyers on right)

Circle size = # of
transactions for the node

Line width =# of auctions

for the buyer-seller pair

Arrows point from seller

to buyer
Treemap – eBay Auctions
(Hierarchical eBay data:
Category> sub-category> Brand)

Rectangle size =
average closing
price (=item
value)

Color = % sellers
with negative
feedback
(darker=more)
Map Chart
(Comparing countries’ well-being with GDP)

Darker = higher value

Summary of Data visualization tools
• Prediction and Classification
• Bar charts, scatterplots
• Boxplots, histograms
• Side-by-side boxplots, multiple panels, color added
• Aggregation methods
• Time series forecasting
• Line charts – temporal, seasonal aggregations
• Zooming and panning
• Unsupervised learning
• Matrix plots
• Heatmaps
• Aggregation, zooming and panning
• Map charts, parallel coordinate plots
Other Pre-processing steps – Chapter
2
Detecting outliers
Handling missing data
Normalizing/standardizing data
Summary Statistics: Exploring the data
• Useful initial step of data exploration
• Statistical summary of data: common metric
• Average
• Median
• Mode
• Minimum
• Maximum
• Range
• Variance and Standard deviation
• Counts & percentages
Summary Statistics – Boston Housing
Summarize Using Pivot Tables

Counts & percentages are useful

for summarizing categorical data

Boston Housing example: Count of MEDV

471 neighborhoods border the CHAS Total
Charles River (1) 0 471
35 neighborhoods do not (0) 1 35
Grand Total 506
Pivot Tables - cont.
Averages are useful for summarizing
grouped numerical data

Boston Housing example:

Compare average home values Average of MEDV
in neighborhoods that border CHAS Total
0 22.09
Charles River (1) and those 1 28.44
that do not (0) Grand Total 22.53
Conclusion
Both data visualization and summary statistics are
ways to explore, summarize and describe data

Visualization techniques are more appealing but

summary statistics are essential to quantitatively
understand the information from the data

They both help in data reduction and forming

groups/aggregates

Chapt-3 Data Visualization
No ratings yet
Chapt-3 Data Visualization
73 pages
Chap3 Visualization
No ratings yet
Chap3 Visualization
28 pages
Chapter 03 Visualization (R)
No ratings yet
Chapter 03 Visualization (R)
30 pages
Data Analysis 3,4 5
No ratings yet
Data Analysis 3,4 5
119 pages
Big Data Visualization and Common Adopattation Issues
No ratings yet
Big Data Visualization and Common Adopattation Issues
34 pages
DADM S4 Basic Data Visualization
No ratings yet
DADM S4 Basic Data Visualization
10 pages
CH 6
No ratings yet
CH 6
43 pages
2 1 Data Visualization
No ratings yet
2 1 Data Visualization
31 pages
Data Visualization for Analysts
No ratings yet
Data Visualization for Analysts
26 pages
Module4 DSV
No ratings yet
Module4 DSV
89 pages
Unit 5
No ratings yet
Unit 5
6 pages
02 Data
No ratings yet
02 Data
42 pages
Daunit 5
No ratings yet
Daunit 5
18 pages
Visualizing Distributions
No ratings yet
Visualizing Distributions
28 pages
Matplotlib Basics
No ratings yet
Matplotlib Basics
27 pages
DVA Unit 1 - Part 2
No ratings yet
DVA Unit 1 - Part 2
53 pages
Basic Charts and Multidimensional Visualization
No ratings yet
Basic Charts and Multidimensional Visualization
33 pages
DM14 Visualisation
100% (1)
DM14 Visualisation
67 pages
Data Visualization Notes
No ratings yet
Data Visualization Notes
22 pages
Common Visualization Idioms
0% (1)
Common Visualization Idioms
95 pages
Lecture Notes 1 - Introduction To Data Analysis and Visualization-1718780831207
No ratings yet
Lecture Notes 1 - Introduction To Data Analysis and Visualization-1718780831207
11 pages
Big Data Visualization Techniques
No ratings yet
Big Data Visualization Techniques
9 pages
Unit5 1
No ratings yet
Unit5 1
12 pages
Excel Data Visualization Guide
No ratings yet
Excel Data Visualization Guide
24 pages
Unit 3 DATA VISUAIZATION
No ratings yet
Unit 3 DATA VISUAIZATION
25 pages
Visual Representation of Data
No ratings yet
Visual Representation of Data
23 pages
09 Plotting and Visualization
No ratings yet
09 Plotting and Visualization
97 pages
Data Visualization
No ratings yet
Data Visualization
15 pages
Unit 4 Actual Notes BA
No ratings yet
Unit 4 Actual Notes BA
24 pages
Data Visualization 21st June
No ratings yet
Data Visualization 21st June
110 pages
Da Unit-5
100% (1)
Da Unit-5
19 pages
DV Co1 All PDF
No ratings yet
DV Co1 All PDF
196 pages
Data Visualization Guide: 1. Common Types of Data Visualizations
No ratings yet
Data Visualization Guide: 1. Common Types of Data Visualizations
11 pages
Dsbda Ut6
No ratings yet
Dsbda Ut6
11 pages
David Gerbing - R Visualizations Derive Meaning From Data (2020) - 1 - CRC Press (9780429894923)
100% (1)
David Gerbing - R Visualizations Derive Meaning From Data (2020) - 1 - CRC Press (9780429894923)
252 pages
(602107) - Introduction To Data Analytics - Tuáº N 2 - 3 - Chapter02 - Updated
No ratings yet
(602107) - Introduction To Data Analytics - Tuáº N 2 - 3 - Chapter02 - Updated
32 pages
Scientific Design Choices in Data Visualization
No ratings yet
Scientific Design Choices in Data Visualization
11 pages
Data+Visualization+in+Python
No ratings yet
Data+Visualization+in+Python
17 pages
Chapter 3 Non Spatial Data Visualization
No ratings yet
Chapter 3 Non Spatial Data Visualization
45 pages
Data Visualization Seminar Report4.docx 11
No ratings yet
Data Visualization Seminar Report4.docx 11
40 pages
Data Visualization: Unit - V
No ratings yet
Data Visualization: Unit - V
18 pages
DWDM LS2 Fall 24 25
No ratings yet
DWDM LS2 Fall 24 25
42 pages
Tableau Self Notes PDF
No ratings yet
Tableau Self Notes PDF
8 pages
Data Basics For ML
No ratings yet
Data Basics For ML
23 pages
Importance of Data Visualization
No ratings yet
Importance of Data Visualization
19 pages
Chapter 2
No ratings yet
Chapter 2
53 pages
DV Methods
No ratings yet
DV Methods
6 pages
Module 4
No ratings yet
Module 4
91 pages
Visualization Summarization S25 Lec6,7
No ratings yet
Visualization Summarization S25 Lec6,7
98 pages
All Unit DV Notes
No ratings yet
All Unit DV Notes
31 pages
DVP 3
No ratings yet
DVP 3
97 pages
Lecture 4 Unit 1
No ratings yet
Lecture 4 Unit 1
23 pages
Week 02.1 Chaptr002
No ratings yet
Week 02.1 Chaptr002
29 pages
Da Unit 5
No ratings yet
Da Unit 5
61 pages
Unit 5-Data Visualization
No ratings yet
Unit 5-Data Visualization
22 pages
Chapter 6
No ratings yet
Chapter 6
13 pages
DA Unit-V Material
No ratings yet
DA Unit-V Material
19 pages
Notes DV 2025
No ratings yet
Notes DV 2025
10 pages
Data Analysis & Visualization Guide
No ratings yet
Data Analysis & Visualization Guide
63 pages
Chapter 14 - Cluster Analysis: Data Mining For Business Intelligence
No ratings yet
Chapter 14 - Cluster Analysis: Data Mining For Business Intelligence
31 pages
Chapter 13 - Association Rules: Data Mining For Business Intelligence
No ratings yet
Chapter 13 - Association Rules: Data Mining For Business Intelligence
22 pages
Chapter 4 - Dimension Reduction: Data Mining For Business Intelligence
No ratings yet
Chapter 4 - Dimension Reduction: Data Mining For Business Intelligence
24 pages
Chapter 10 - Logistic Regression: Data Mining For Business Intelligence
No ratings yet
Chapter 10 - Logistic Regression: Data Mining For Business Intelligence
20 pages
ISDS 558 Course Overview and Resources
No ratings yet
ISDS 558 Course Overview and Resources
18 pages
Social Media's Impact on Student Performance
No ratings yet
Social Media's Impact on Student Performance
3 pages
Fpsyg 15 1337531
No ratings yet
Fpsyg 15 1337531
11 pages
Peabody Professional Catalog 2024-25
No ratings yet
Peabody Professional Catalog 2024-25
165 pages
You Are Therefore I Am: How Empathy Education Can Create Social Change
No ratings yet
You Are Therefore I Am: How Empathy Education Can Create Social Change
50 pages
THIRD PERIODIC EXAM PRACTICAL RESEARCH 1 Final
No ratings yet
THIRD PERIODIC EXAM PRACTICAL RESEARCH 1 Final
4 pages
Nursing: Research
No ratings yet
Nursing: Research
94 pages
Guidelines Research Center
No ratings yet
Guidelines Research Center
4 pages
Dubai Travel & Tourism Challenges
100% (1)
Dubai Travel & Tourism Challenges
16 pages
NDAC Gastroenterology & Hepatology Recommendations
No ratings yet
NDAC Gastroenterology & Hepatology Recommendations
4 pages
Adulteration Of-Teff by Sand
No ratings yet
Adulteration Of-Teff by Sand
7 pages
Impact of VR Technology on Film Production
0% (1)
Impact of VR Technology on Film Production
11 pages
Compounding Chemist-9012121-Inspection-Report
No ratings yet
Compounding Chemist-9012121-Inspection-Report
9 pages
Challenges To Industrial Organization and Management
No ratings yet
Challenges To Industrial Organization and Management
22 pages
Discipline and Ideas in The Social Sciences
71% (7)
Discipline and Ideas in The Social Sciences
22 pages
Research Assistant
No ratings yet
Research Assistant
2 pages
CSU e-PASA Lectures 2020 (Mathematics Category) : Learning Activity Sheet Statistics and Probability
No ratings yet
CSU e-PASA Lectures 2020 (Mathematics Category) : Learning Activity Sheet Statistics and Probability
5 pages
Communication Studies Research Project
No ratings yet
Communication Studies Research Project
23 pages
Visible Thinking Routines
No ratings yet
Visible Thinking Routines
16 pages
Level of Electronic Gadget Usage and The Academic Performance of Studentts
No ratings yet
Level of Electronic Gadget Usage and The Academic Performance of Studentts
12 pages
Classroom Compact 1
No ratings yet
Classroom Compact 1
2 pages
Informal Reports
No ratings yet
Informal Reports
20 pages
Examination Slip Download Instructions
No ratings yet
Examination Slip Download Instructions
2 pages
Education, Democracy and Inequality Political Engagement and Citizenship Education in Europe
No ratings yet
Education, Democracy and Inequality Political Engagement and Citizenship Education in Europe
239 pages
Car Sharing Adoption Intention in Urban Areas - What Are The Key Sociodemographic Drivers
No ratings yet
Car Sharing Adoption Intention in Urban Areas - What Are The Key Sociodemographic Drivers
10 pages
High School Homework Stress Solutions
100% (1)
High School Homework Stress Solutions
7 pages
Thesis Chapter 1 Sample Format
100% (3)
Thesis Chapter 1 Sample Format
6 pages
Pre-Sales Market Strategist Profile
No ratings yet
Pre-Sales Market Strategist Profile
2 pages
Analysis of Social Media Texting in English
No ratings yet
Analysis of Social Media Texting in English
9 pages
Mtech Cost Management of Engineering Projects L N Ce r18 0
100% (1)
Mtech Cost Management of Engineering Projects L N Ce r18 0
118 pages
Case Studies in Fracture Mechanics
100% (1)
Case Studies in Fracture Mechanics
475 pages

Chapter 3 - Data Visualization Chapter 4 - Summary Statistics

Uploaded by

Chapter 3 - Data Visualization Chapter 4 - Summary Statistics

Uploaded by

Chapter 3 – Data Visualization

Chapter 4 – Summary Statistics

Data Mining for Business Intelligence

© Galit Shmueli and Peter Bruce 2010

Shows how ridership patterns of Amtrak trains change over time

Example: 95% of tracts do

 Used widely in the business world

 Domain knowledge and nature of the task are used to

Boston Housing example:

Histogram shows the

Boston Housing Example:

• Incorporating more variables has advantages

NOX vs. LSTAT

Rescaling removes crowding and allows a better view of the linear

“Seasonal aggregation”(monthly) – Peak ridership in July-August, and

“Temporal aggregation”(yearly) – Ridership decreased from 1991 –

Helps visualize and identify clusters and outliers, detect patterns.

• Spotfire software – [Link]

Line width =# of auctions

Arrows point from seller

Darker = higher value

Counts & percentages are useful

Boston Housing example: Count of MEDV

Boston Housing example:

Visualization techniques are more appealing but

They both help in data reduction and forming

You might also like