Data Visualization 101
Color & Chart Types
Oct-2022
1
What Is Data Visualization?
Why Do We Visualize Data?
How Do We Visualize Data?
Table Of • Data Visualize Framework
Content • 4 Types Of Visualization
• 5 Rules Of Good Visualize + game
• 12 Pre-attentive Attributes
Common Chart Types
• Visual By Kind Of Data
• Common Charts
2
What Is Data Visualization?
3
“Trực quan hóa dữ liệu là biểu thông tin và dữ liệu
What Is Data dưới dạng đồ họa. Bằng cách sử dụng các yếu tố trực
quan như biểu đồ, đồ thị và bản đồ, các công cụ trực
Visualization? quan hóa dữ liệu giúp tiếp cận dữ liệu dễ dàng cho
việc tìm hiểu các xu hướng, các ngoại lệ và các hình
mẫu trong dữ liệu.”
❖ Một số ưu điểm của trực quan hóa dữ liệu bao
gồm:
❑ Trực quan hóa thông tin.
❑ Tương tác khám phá thông tin dễ dàng.
❑ Dễ nhận biết các hình mẫu và các mối quan hệ
của dữ liệu.
❖ Một số nhược điểm bao gồm:
❑ Có thể làm thông tin sai lệch hoặc không
chính xác.
❑ Trực quan dữ liệu không phải lúc nào cũng
cho thấy ngay nguyên nhân.
4
Why Do We Visualize Data?
5
Why Do We
Visualize Data?
Example of Data Visualise
❖Total Actual MTD vs Full Month AOP? Growth?
7
Example of Data Visualise
❖Top 5 Contribution Brands?
8
How Do We Visualize?
9
The Analytical Framework
Define
Business Hypothesis Data
Problem Formulation Requirements
❑ Formulation of Hypothesis:
Based on Expert Knowledge
Decision Data ❑ Data Collection & Processing:
Making Collection Usually, time consuming
❑ Advanced Analytics:
Also called Modeling & Algorithms
❑ Insights and Analysis:
Data
Insights and
Processing &
Hypothesis Validation
Analysis
Cleansing
❑ Decision Making:
Review insights and actions
Advanced Data Explore
Analytics & Visualize
Data Visualization Framework
3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design
11
3 Questions to Ask Yourself At The Start.
Who-Audience? What-Message? Is it worth?
Background and expectation • Data by itself does not tell • Visualizations are not a
of the audience a story. cure-all.
• Instructed vs Self-service • Craft your message track • Sometimes a table might
• Experts vs. Managerial before creating your work better
• Glance vs, Deep dive visualization.
12
What would you like to show?
Visualizations can be categorized according to their intent.
There are 4 main visualization types:
[Link]
2. Distribution
3. Relationship
[Link]
13
3 Questions to Ask Yourself At The Start.
1. Who is my audience ?
Understand the background and expectations of the visualization audience.
Background Experts vs. Managerial
Expectations Quick glance vs. Deep-dive
Guidance Instructed vs. Self-discovery
14
Managerial Self-Service BI Dashboard Box Plot for Expert Audiences or Guided Review
3 Questions to Ask Yourself At The Start.
2. What is my message?
❖ Data by itself does not tell a story.
❖ What key ideas do you want your audience to take away?
❖ Craft your message track before creating your visualization.
No Story Telling, Just Information Good Visualization with Clear Story
15
3 Questions to Ask Yourself At The Start.
3. Is it worth creating a visualization?
❖ Does your visualization provide an insight that was not obtainable with the original representation of data?
❖ Visualizations are not a cure-all -sometimes a tablemight work better!
Tables Visualizations
Data as text Data as pictures
Data arranged in rows & columns Data displayed in relation to axes
Precise, individual values Message resides in the data shape
16
Data Visualization Framework
3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design
17
4 Visualization Types: Comparison
Intent is to compare either between items, over time or both.
What are examples of each?
Between items: # of users by Function, Sales for a SKU..
Over time: Monthly average office temperature, Quarterly brand sales..
Both: Weekly usage hours by application, Monthly sales by SKU..
18
5 Rules of Good Visual Design
[Link] noise (Chartjunk).
[Link] colors wisely.
[Link] using 3Deffects.
[Link] misleading scales.
[Link] careful with dual-axis charts. 19
4 Visualization Types: Comparison
Between items: Comparing GDP per capita by country.
What is thedifference?
Horizontal labels and bars for ease of reading.
Quantitative valuesare sorted in order. 20
4 Visualization Types: Comparison
Over time: Monthly # of users for FY 2015 / 2016
Time dimension on the horizontal axis helps indicate the flow of time (from left to right).
Height of Bars illustrate relative magnitude difference across months.
4 Visualization Types: Comparison
Both among items and over time: Monthly # of users for FY 15/16 by application.
A line chart connects the same item across time periods and helps illustrate trend.
Multiple lines helps to compare between different items at individual time periods.
4 Visualization Types: Distribution
Intent is to illustrate the spread of data, possibly across defined groups.
What are some examples?
Job applicant test scores, # of users across 24 hours, etc.
A histogram depicting the spread
of test scores by job applicants.
Is the test too easy or difficult?
4 Visualization Types: Relationship
Intent is to show the relationship between two or more variables.
What are some examples?
SKU sales vs. price, # of hours in office vs. salary, etc.
A scatter plot illustrates the
relationship between 2 variables.
Is this a positive or negative
relationship?
4 Visualization Types: Relationship
Scatter Plots are useful to see the relationships between variables.
4 Visualization Types: Composition
Intent is to see individual data segments as part of a whole.
Static Changing over time
E.g., User breakdown byapplication E.g., Monthly User breakdown by application
Pie Chart Stacked Bar Chart
Visualization Cheat Sheet
27
Data Visualization Framework
3 4 5
Questions to Types of Rules of good
ask yourself vis ualizations visual design
29
1. No noise (Chart Junk)
Chart Junk:
Visual content that adds no value and distracts from the data.
Examples: Shadows, color gradients, graphics, etc.
30
2. Use colors wisely
Intense colors only to draw attention.
Different colors to indicate differences in data.
Single, neutral background color (if needed at all).
31
3. Avoid using 3D effects
3D effects are a form of chart junk.
Deserves special mention because of its pervasiveness and how it gets in the way of communication.
32
4. No misleading scales
If your axes do not start at 0, it might mislead audience perception, especially for comparison
visualizations. Send the correct message!
Our April expenditure is
>2x our budget!!
What is Finance doing?! Oh...
33
5. Be careful with dual-axis charts
Dual-axis charts are only useful when comparing data with different units of measure.
Even then, 2 separate charts might be more effective.
What is this chart telling me??
34
How well do you know the 5 rules?
#1 What’s wrong with this visualization?
#3 What’s wrong with this visualization?
#3 cont’d Becoming one better …
#4 What’s wrong with this visualization?
#4 Becoming one better …
#5 What’s wrong? More from the Web…
#6 Improve What’s wrong … hands on
• The primary intention of this graph example is to display the average selling price of gizmos as
it changes monthly through the course of an entire year; the secondary intention is to relate
the average selling price to the range of prices during those same months.
• Given these objectives, examine the graph and list of all the issuesyou see.
#6 Improve What’s wrong … hands on
• The primary intention of this graph example is to display the average selling price of gizmos as
it changes monthly through the course of an entire year; the secondary intention is to relate
the average selling price to the range of prices during those same months.
• The proposed solution:
#7 Bars & Line are much easier to interpret than slices of pies
• It’s hard to compare data across pies :
• Trends are much easier to
• see on a line chart :
#10 No 2 people see colors the same way
• 10% of males and 1% of females suffer from color blindness
• Most common deficiency: green vs red
– what do we use most in scorecards ?
Trivia: this test is called a
Ishihara Plate.
• Beware of color distortion on various screens, projectors
Some Examples of Practice
46
Examples
1. Line Chart
2. Pie Chart
3. Bar chart
47
Examples
1. Pie Chart
2. Card
3. Table
48
Examples
1. Pie Chart
2. Column Chart
3. Column & Line chart
49
Examples
by Months
1. Pie Chart
2. Column Chart
3. Line chart
50
Examples
by Periods
1. Column Chart
2. Scatter Chart
3. Column & Line
chart
51
Examples
Percentage of Each Group Customer per Quarters
1. Pie Chart
2. Column Chart
3. Stacked Column Chart
52
Examples
Show the relationship between a mix of product categories, number of orders and profit margin.
1. Bubble Chart
2. Scatter Chart
3. Column & Line Chart
53
Examples
Show volume by Channel of Yesterday, WTD, MTD and compare MTD vs YAGO
1. Scatter Chart
2. Table
3. Bubble Chart
54
12 Pre-attentive Attribute
55
Let Try Visual 9 Numbers On This Table
9 1 8 2 3 2 0 6 1 7
7 7 6 7 6 9 2 0 9 9
3 1 8 4 9 6 0 1 5 4
8 7 1 0 7 3 4 5 7 6
6 7 0 2 2 5 5 8 8 3
1 8 7 3 7 4 9 9 3 1
8 7 8 5 5 9 3 8 3 5
2 9 3 6 6 4 2 3 8 9
0 8 9 5 5 7 6 6 3 4
7 1 0 2 6 7 8 4 0 1
56
Pre-attentive Attribute
❖Có những thứ bộ não của con người xử lý trong một vài mi li giây,
trước khi chú ý tới những thứ khác.
❖Hãy xem những ví dụ sau về việc visualize các chữ số 9 trong bảng
số 10x10.
57
9 1 8 2 3 2 0 6 1 7 9 1 8 2 3 2 0 6 1 7
7 7 6 7 6 9 2 0 9 9 7 7 6 7 6 9 2 0 9 9
3 1 8 4 9 6 0 1 5 4 3 1 8 4 9 6 0 1 5 4
8 7 1 0 7 3 4 5 7 6 8 7 1 0 7 3 4 5 7 6
6 7 0 2 2 5 5 8 8 3 6 7 0 2 2 5 5 8 8 3
1 8 7 3 7 4 9 9 3 1 1 8 7 3 7 4 9 9 3 1
8 7 8 5 5 9 3 8 3 5 8 7 8 5 5 9 3 8 3 5
2 9 3 6 6 4 2 3 8 9 2 9 3 6 6 4 2 3 8 9
0 8 9 5 5 7 6 6 3 4
Using Pre- 7 1 0 2 6 7 8 4 0 1
0
7
8
1
9
0
5
2
5
6
7
7
6
8
6
4
3
0
4
attentive 9 1 8 2 3 2 0 6 1 7 2 8 0 3 8 7 4 8 6 6
Techniques 7
3
7
1
6
8
7
4
6
9
9
6
2
0
0
1
9
5
9
4
1
2
5
3
5
8
0
9
4
4
8
7
1
6
6
7
8
6
5
7
8 7 1 0 7 3 4 5 7 6 9 5 3 7 9 3 5 7 4 6
6 7 0 2 2 5 5 8 8 3 8 1 2 0 6 0 4 7 9 6
1 8 7 3 7 4 9 9 3 1 3 0 3 6 3 1 4 6 9 8
8 7 8 5 5 9 3 8 3 5 2 5 0 7 0 2 3 6 0 0
2 9 3 6 6 4 2 3 8 9 9 8 6 3 5 7 5 2 5 3
0 8 9 5 5 7 6 6 3 4 3 6 8 5 1 9 1 3 1 0
7 1 0 2 6 7 8 4 0 1 8 4 4 5 6 5 7 6 6 0
58
Using Chart
With Color
Hue
59
Orientation Length Width Size
12 Pre- Shape Enclosure Color Hue Color Value
attentive
Attributes
Grouping Positioning Added Mark Shape Contrast
60
Thank You
61
Visualize By Kind Of Data
-6 Categorizes-
68
Numeric Viz
70
Categories Viz
71
Number &
Categories Viz
72
Maps Viz
73
Network Viz
74
Time Series Viz
75
Visualization – A World
Of Possibilities
Viz By Graph
Type
76
Distribution
77
Violinplot
Violinplots cho phép hình dung
sự phân bố của một biến số cho
một hoặc một số nhóm. Nó hơi
giống với boxplot, nhưng cho
phép hiểu sâu hơn về sự phân
phối.
Violins đặc biệt thích nghi khi
lượng dữ liệu lớn và việc hiển thị
các quan sát riêng lẻ là không
thể.
78
Density
Biểu đồ mật độ cho thấy sự phân
bố của số liệu. Nó chỉ nhận một
biến làm đầu vào và gần giống
với biểu đồ Histogram.
79
Histogram
Biểu đồ Histogram chỉ nhận đầu
vào là một biến. Số liệu được cắt
thành nhiều phần và số lượng
quan sát trên mỗi phần được
biểu thị bằng chiều cao của
thanh.
80
Boxplot
Biểu đồ Boxplot cung cấp một
bản tóm tắt về một hoặc một số
biến số.
Đường chia hộp thành 2 phần
thể hiện giá trị trung bình
(median) của dữ liệu.
Phần cuối của hộp hiển thị 25%
cận trên và dưới. Các đường cực
trị hiển thị giá trị cao nhất và
thấp nhất không bao gồm các giá
trị ngoại lệ.
81
Boxplot
Biểu đồ Boxplot cung cấp một
bản tóm tắt về một hoặc một số
biến số.
Đường chia hộp thành 2 phần
thể hiện giá trị trung bình
(median) của dữ liệu.
Phần cuối của hộp hiển thị 25%
cận trên và dưới. Các đường cực
trị hiển thị giá trị cao nhất và
thấp nhất không bao gồm các giá
trị ngoại lệ.
82
Correlation
83
Scatterplot
Biểu đồ scatterplot hiển thị mối
quan hệ giữa 2 biến số. Đối
với mỗi điểm dữ liệu, giá trị
của biến đầu tiên được biểu
diễn trên trục X, giá trị thứ hai
trên trục Y. Ngoài ra có thể kết
hợp với size để thể hiện thêm
một chiều thông tin nữa.
84
Heatmap
Biểu đồ heatmap là một biểu
diễn đồ họa của dữ liệu trong
đó các giá trị được chứa trong
ma trận các ô, ngoài ra độ lớn
được biểu diễn dưới dạng màu
sắc.
Nó thực sự hữu ích để hiển thị
một cái nhìn chung về dữ liệu ,
không phải để nhìn các điểm dữ
liệu cụ thể.
85
Correlogram
Biểu đồ tương quan
(Correlogram/Pairplot) hoặc ma
trận tương quan cho phép phân
tích mối quan hệ giữa từng cặp
biến số của tập dữ liệu. Mối quan
hệ giữa mỗi cặp biến được hình
dung thông qua biểu đồ
Histogram, Scatterplot.
86
Bubble
Biểu đồ bubble là biểu đồ phân
tán trong đó kích thước cảu
bubble là giá trị thứ ba được
thêm vào.
Bạn cần 3 biến số làm đầu vào:
một được biểu thị bằng trục X,
một bằng trục Y và một là kích
thước bubble.
87
Connected
Scatter
Biểu đồ connected scatter cho
thấy mối quan hệ giữa hai biến
được qua trục X và Y, giống như
biểu đồ scatter plot. Các dấu
chấm được nối với nhau bằng các
phân đoạn giống biểu đồ Line.
88
Density 2D
Biểu đồ mật độ 2D cho thấy sự
phân bố của các giá trị trong tập
dữ liệu. Biểu đồ thể hiện số
lượng quan sát trong một khu
vực cụ thể của không gian 2D và
biểu diễn nó bằng cách sử dụng
số lượng hình vuông, hình lục
giác, mật độ điểm hoặc màu sắc.
89
Ranking
90
Bar
Biểu đồ Bar (thanh) hiển thị mối
quan hệ giữa 2 biến. Mỗi đơn vị
được biểu diễn dưới dạng một
thanh. Kích thước của thanh thể
hiện giá trị độ lớn của nó.
91
Spider/Radar
Biểu đồ Spider/Radar là một loại
biểu đồ hai chiều được thiết kế
để vẽ một hoặc nhiều chuỗi giá
trị của nhiều biến trên mặt phẳng
chung. Mỗi biến có trục riêng của
nó, tất cả các trục đều gặp nhau
tại tâm của biểu đồ.
92
Wordcloud
Wordcloud (Tag cloud) hiển thị
danh sách các từ, tầm quan trọng
của mỗi từ được hiển thị với kích
thước hoặc màu phông chữ. Định
dạng này hữu ích để nhanh
chóng nhận ra các từ nổi bật
nhất.
93
Parallel
Biểu đồ Parallel cho phép thấy
mối liên kết của nhiều biến. Điểm
mạnh của nó là cho thấy mối liên
kết giữa các dạng dữ liệu có đơn
vị đo khác nhau.
94
Lollipop
Biểu đồ lollipop về cơ bản là một
biểu đồ thanh, trong đó thanh
được biến đổi thành một đường
thẳng và một đầu là hình tròn.
Tuy nhiên, nó hấp dẫn hơn và
truyền tải thông tin tốt hơn. Nó
đặc biệt hữu ích khi biểu đồ
thanh có cùng chiều cao: nó
tránh việc nhầm lẫn khi các thanh
nằm gần nhau và hiệu ứng Moiré.
95
Circular Barplot
Circular Barplot là một barplot
biến thể, với mỗi thanh được
hiển thị theo một vòng tròn thay
vì một đường thẳng. Nó thường
được dùng khi có quá nhiều
thanh. Tuy nhiên, nó có nhược
điểm là khá khó đọc.
96
Part of Whole
97
Treemap
Sơ đồ dạng cây hiển thị dữ liệu
phân cấp dưới dạng một tập các
hình chữ nhật lồng nhau. Diện
tích thể hiện độ lớn giá trị, có thể
thiết lập thêm thuộc tính khác
bằng màu sắc.
98
Venn Diagram
Biểu đồ Venn (còn được gọi là
biểu đồ sơ cấp, biểu đồ tập hợp
hoặc biểu đồ logic): là một biểu
đồ thể hiện mối quan hệ logic
giữa nhiều tập hợp khác nhau.
99
Doughnut
Biểu đồ Doughnut thể hiện giá trị
của tập hợp các giá trị, trong đó
tổng giá trị của các tập con sẽ là
100%.
100
Pie
Biểu đồ Pie cũng giống như biểu
đồ Doughnut. Nó cũng thể hiện
giá trị của tập hợp các giá trị,
trong đó tổng giá trị của các tập
con sẽ là 100%.
101
Dendrogram
Biểu đồ Dendrogram là một cấu
trúc mạng. Nó được tạo thành từ
một nút gốc và các nút được nối
với nhau bằng các nhánh.
102
Circular Packing
Biểu đồ Circular Packing là một
biến thể của biểu đồ Treemap.
Thay vì thể hiện các tập con bằng
các hình chữ nhật lồng nhau thì
nó thể hiện bằng hình tròn lồng
nhau.
103
Sunburst
Biểu đồ Sunburst hiển thị cấu
trúc phân cấp. Gốc của cấu trúc
được thể hiện từ tâm của vòng
tròn và mỗi cấp là một vòng bổ
sung theo chiều từ trong ra
ngoài. Mức cuối cùng (lá) nằm ở
phần ngoài cùng của vòng tròn.
104
Growth
105
Line
Biểu đồ Line biểu thị sự phát
triển của một hoặc nhiều biến số.
Các điểm dữ liệu được nối với
nhau bằng các đoạn thẳng. Các
điểm nối được sắp xếp thứ tự
theo một chiều nhất định,
thường thì theo giá trị trục x.
Lien thường được dùng để biểu
thị sự phát triển theo chiều thời
gian.
106
Area
Biểu đồ Area cũng giống biểu đồ
Line ngoại trừ khu vực giữa
đường thẳng và trục x được đánh
bóng. Nó cũng thường được
dùng thể hiện sự phát triển theo
thời gian của biến số.
107
Stack Area
Biểu đồ Stack Area được phát
triển dựa trên biểu đồ Area ngoại
trừ khu vực giữa đường thẳng và
trục x được tô màu để phân biệt
các biến số chồng lên nhau.
108
Stack Stream
Biểu đồ Stack stream là mở rộng
của biểu đồ stack area. Chỉ khác
nhau là các biến được nối với
nhau thành luồng và tô màu
chồng lên nhau để phân biệt.
109
Flow
110
Chord Diagram
Biểu đồ Chord Diagram thể hiện
phân bố giữa các biến số thông
qua các luồng được kết nối
quanh vòn tròn. Độ lớn của các
mảnh trong vòng trong và độ
rộng của các luồng thể hiện giá
trị contribution của chúng.
111
Network
Biểu đồ Network là một cấu trúc
mạng. Nó được tạo thành từ một
nút gốc các nút nối với nhau tạo
thành nhánh.
112
Sankey
Biểu đồ Sankey cũng giống biểu
đồ Chord Diagram thể hiện phân
bố giữa các biến số thông qua các
luồng được kết nối đứng đối lập.
Độ lớn của các mảnh các luồng
thể hiện giá trị contribution của
chúng.
113
Sankey
Biểu đồ Arc (vòng cung) là một
loại biểu đồ mạng đặc biệt. Nó
được thể hiện bằng các nút đặt
trên một đường thẳng. Các nút
được liên kết với nhau bằng các
đường thể hiện mối quan hệ giữa
các nút. Độ lớn của đường hoặc
nút thể hiện giá trị liên kết giữa
các nút.
114
Edge Bundling
Edge Bundling cho phép trực
quan hóa các mối quan hệ liền kề
nhau giữa các biến được tổ chức
trong một hệ thống phân cấp. Ý
tưởng là bó các cạnh kề lại với
nhau để giảm bớt sự lộn xộn
thường thấy trong các mạng
phức tạp.
115
Map
116
Map
Map hiển thị các khu vực địa lý,
các điểm được xác đinh bằng
Long & Lat (kinh độ & vĩ độ) địa
lý. Nó cho phép cái nhìn tổng
quát về phân bố dữ liệu trên một
khu vực địa lý.
117
Heat Map
Bản đồ Heat Map hiển thị các
khu vực địa lý hoặc các khu vực
được phân biệt bằng màu sắc thể
hiện bằng giá trị của biến. Nó cho
phép cái nhìn tổng quát về phân
bố dữ liệu trên một khu vực địa
lý. Đặc biệt hữu ích khi các giá trị
quá nhiều trên bản đồ.
118
Choropleth
Bản đồ Choropleth hiển thị các
khu vực địa lý được phân biệt
bằng màu sắc. Giá trị của biến
trong khu vực sẽ được thể hiện
qua quy ước màu sắc hoặc độ
đậm nhạt của màu.
119
Thank You
12
0
3 Questions to Ask Yourself At The Start.
Who-Audience? What-Message? Is it worth?
Background and expectation • Data by itself does not tell • Visualizations are not a
of the audience a story. cure-all.
• Instructed vs Self-service • Craft your message track • Sometimes a table might
• Experts vs. Managerial before creating your work better
• Glance vs, Deep dive visualization.
122