0% found this document useful (0 votes)

548 views

Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis On Text Files

This document provides an exploratory data analysis of text files as part of a data science capstone project. It summarizes the size of three text files (blogs, news, twitter), creates a corpus from a sample of the data, cleans the text, analyzes n-grams (most common 2-word and 4-word sequences), and identifies the top 50 most commonly used words. Visualizations are created to show the top 10 bigrams and quadgrams. The goal is to gain insights from the text data through exploratory analysis techniques.

Uploaded by

Habib Mrad

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

548 views

Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis On Text Files

Uploaded by

Habib Mrad

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Data Science Capstone - Week 2

Milestone - Exploratory Data Analysis on
Text Files
Leandro Freitas
10/26/2017

1. Executive Summary
The goal of this project is to do an exploratory data analysis on text files as part of Week 2 activities from Data
Science Specialization SwiftKey Capstone. Data for the analysis can be downloaded from the link below:

https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip
(https://d396qusza40orc.cloudfront.net/dsscapstone/dataset/Coursera-SwiftKey.zip)

2. Preparing Environment
2.1. Loading Libraries
Loading required packages:

set.seed(500)
library(ggplot2)
library(knitr)
library(RWeka)
library(SnowballC)
library(tm)
library(wordcloud)

Complementary information:

sessionInfo()

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 1/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## R version 3.4.1 (2017-06-30)

## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 15063)
##
## Matrix products: default
##
## locale:
## [1] LC_COLLATE=Portuguese_Brazil.1252 LC_CTYPE=Portuguese_Brazil.1252
## [3] LC_MONETARY=Portuguese_Brazil.1252 LC_NUMERIC=C
## [5] LC_TIME=Portuguese_Brazil.1252
##
## attached base packages:
## [1] stats graphics grDevices utils datasets methods base
##
## other attached packages:
## [1] wordcloud_2.5 RColorBrewer_1.1-2 tm_0.7-1
## [4] NLP_0.1-11 SnowballC_0.5.1 RWeka_0.4-34
## [7] knitr_1.17 ggplot2_2.2.1 RevoUtilsMath_10.0.0
##
## loaded via a namespace (and not attached):
## [1] Rcpp_0.12.12 magrittr_1.5 RWekajars_3.9.1-3
## [4] munsell_0.4.3 colorspace_1.3-2 rlang_0.1.2
## [7] stringr_1.2.0 plyr_1.8.4 tools_3.4.1
## [10] parallel_3.4.1 grid_3.4.1 gtable_0.2.0
## [13] htmltools_0.3.6 yaml_2.1.14 lazyeval_0.2.0
## [16] rprojroot_1.2 digest_0.6.12 tibble_1.3.4
## [19] rJava_0.9-8 slam_0.1-40 evaluate_0.10.1
## [22] rmarkdown_1.6 stringi_1.1.5 compiler_3.4.1
## [25] RevoUtils_10.0.5 scales_0.5.0 backports_1.1.0

2.2. Loading Datasets

# Read text files
Blogs <- readLines("./source/en_US.blogs.txt")
News <- readLines("./source/en_US.news.txt")
Twitter <- readLines("./source/en_US.twitter.txt")

2.2.1. Basic summaries of the three files

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 2/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Blogs_Summary <- c(sum(nchar(Blogs)),

length(unlist(strsplit(Blogs, " "))),
format(object.size(Blogs), units = "Mb"))

News_Summary <- c(sum(nchar(News)),

length(unlist(strsplit(News, " "))),
format(object.size(News), units = "Mb"))

Twitter_Summary <- c(sum(nchar(Twitter)),

length(unlist(strsplit(Twitter, " "))),
format(object.size(Twitter), units = "Mb"))

var_names <- c("Characters", "Words", "Size")

summary_files <- data.frame(Blogs_Summary, News_Summary, Twitter_Summary, row.names = var_names)
names(summary_files) <- c("en_US.blogs.txt", "en_US.news.txt", "en_US.twitter.txt")
kable(summary_files, align = "c")

en_US.blogs.txt en_US.news.txt en_US.twitter.txt

Characters 208361438 15683765 162384825

Words 37334131 2643969 30373543

Size 248.5 Mb 19.2 Mb 301.4 Mb

2.3. Preparing Data

2.3.1. Sampling and Corpus
Since the source files are large, a sample will be taken from each one to do the analysis:

Sample_Text <- rbind( sample(Blogs,10000),

sample(News, 10000),
sample(Twitter, 10000))

# Delete no longer needed large data

rm(Blogs, News, Twitter)

Now create a corpus (collection of text documents) from the sample texts:

Corpus_ST <- Corpus(VectorSource(Sample_Text))

2.3.2. Clean and prep data for analysis

Corpus_ST <- tm_map(Corpus_ST, removeWords, stopwords("english"))
Corpus_ST <- tm_map(Corpus_ST, removePunctuation)
Corpus_ST <- tm_map(Corpus_ST, removeNumbers)
Corpus_ST <- tm_map(Corpus_ST, stripWhitespace)
Corpus_ST <- tm_map(Corpus_ST, tolower)
Corpus_ST <- tm_map(Corpus_ST, stemDocument)

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 3/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

3. Exploratory Data Analysis

3.1. Finding n-grams
# Function for tokenizing the Corpus
f_tokenizer <- function (corpus, i) {
temp <- c()
ngram <-c()
temp <- NGramTokenizer(corpus, Weka_control(min=i,max=i))
ngram <- data.frame(table(temp))
return(ngram)
}

# Find n-grams
ngram_US_2 <- f_tokenizer(Corpus_ST, 2)
ngram_US_4 <- f_tokenizer(Corpus_ST, 4)

3.1.1. Most used sequences of 2 and 4 words

ngram_US_2 <- ngram_US_2[order(ngram_US_2$Freq, decreasing = TRUE),]
ngram_US_4 <- ngram_US_4[order(ngram_US_4$Freq, decreasing = TRUE),]

head(ngram_US_2, 10)

## temp Freq
## 168895 i think 543
## 168103 i know 394
## 168164 i love 326
## 169016 i want 314
## 167449 i can 308
## 169058 i will 273
## 168083 i just 236
## 194669 last year 231
## 402541 year ago 186
## 168141 i like 175

head(ngram_US_4, 10)

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 4/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## temp Freq
## 283048 me me me me 36
## 207375 i feel like i 16
## 479751 ugli ugli ugli ugli 14
## 207482 i felt like i 7
## 209752 i know i know 7
## 214658 i think i can 7
## 451947 the new york time 7
## 206733 i donâ<U+0080><U+0099>t know i 5
## 214729 i think im go 5
## 208866 i hope i can 4

3.1.2. Plot most used sequences of 2 words

Bigrams <- ngram_US_2[order(ngram_US_2$Freq,decreasing = TRUE),]
colnames(Bigrams)<-c("Bigram","Frequency" )
Bigrams<- Bigrams[1:10,]

barplot(Bigrams$Frequency, las = 2,
names.arg = Bigrams$Bigram,
col ="lightgreen", main ="Top 10 Bigrams",
ylab = "Frequency")

3.2.3. Plot most used sequences of 4 words

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 5/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

Quadgrams <- ngram_US_4[order(ngram_US_4$Freq,decreasing = TRUE),]

colnames(Quadgrams)<-c("Quadgram","Frequency" )
Quadgrams<- Quadgrams[1:10,]

barplot(Quadgrams$Frequency, las = 2,
names.arg = Quadgrams[1:10,]$Quadgram,
col ="lightblue", main ="Top 10 Quadgrams",
ylab = "Frequency")

3.2. Most Common Words

3.2.1. Top 50 words used in the texts
Matrix_US <- DocumentTermMatrix(Corpus_ST)
Matrix_US <- removeSparseTerms(Matrix_US, 0.99)
frequency <- colSums(as.matrix(Matrix_US))
order_freq <- order(frequency, decreasing=TRUE)
frequency[head(order_freq,50)]

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 6/7
1/18/2018 Data Science Capstone - Week 2 Milestone - Exploratory Data Analysis on Text Files

## the one will said get like just time can year
## 4988 2854 2848 2838 2282 2245 2225 2182 2093 2037
## make day new work know now good love say peopl
## 1775 1641 1547 1528 1418 1359 1352 1337 1311 1302
## want think also use but look first see thing back
## 1297 1277 1267 1244 1199 1190 1186 1186 1156 1150
## two and need come last take even way much this
## 1147 1142 1127 1126 1124 1086 1072 1057 957 956
## week state start realli well right still great play game
## 924 919 918 910 904 872 864 823 818 816

3.2.2. Word Cloud

colors = c("blue", "red", "orange", "green")
wordcloud(names(frequency), frequency, max.words=50, min.freq=2, colors=colors)

4. Future Actions
My goal for the eventual app and algorithm is to create a “Shiny version” of a word prediction/completios apps
available for cell phones.

https://rstudio-pubs-static.s3.amazonaws.com/323145_6c395a8d69e6441d90c3abd94f67a5ce.html 7/7

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Data Science Tools Study Guides For MIT's 15.003
No ratings yet
Data Science Tools Study Guides For MIT's 15.003
23 pages
Ip Project On Sales Agency
100% (1)
Ip Project On Sales Agency
18 pages
Free Download Data Science Curriculum - Innomatics Research Labs Hyderabad, India
No ratings yet
Free Download Data Science Curriculum - Innomatics Research Labs Hyderabad, India
14 pages
SPARK Science Learning System
No ratings yet
SPARK Science Learning System
90 pages
FINAL AnswerBank Data Science Sem VI PDF
No ratings yet
FINAL AnswerBank Data Science Sem VI PDF
90 pages
Stat 1261/2260: Principles of Data Science (Fall 2021) Assignment 1: R and Rstudio
No ratings yet
Stat 1261/2260: Principles of Data Science (Fall 2021) Assignment 1: R and Rstudio
10 pages
IRJCS:: Information Security in Big Data Using Encryption and Decryption
No ratings yet
IRJCS:: Information Security in Big Data Using Encryption and Decryption
6 pages
Data Science Regular Handout
No ratings yet
Data Science Regular Handout
25 pages
CS8087 - Software Defined Networks (Ripped from Amazon Kindle eBooks by Sai Seena) (1)
No ratings yet
CS8087 - Software Defined Networks (Ripped from Amazon Kindle eBooks by Sai Seena) (1)
68 pages
Hemanshu Kumar Saraf - Resume New
No ratings yet
Hemanshu Kumar Saraf - Resume New
1 page
How Do You Make Money by Giving Something Away For Free? With Ian Makgill
100% (1)
How Do You Make Money by Giving Something Away For Free? With Ian Makgill
27 pages
4 Data Science-Big Data
No ratings yet
4 Data Science-Big Data
22 pages
Program Overview: #Datascience - Data Science in Iot
100% (1)
Program Overview: #Datascience - Data Science in Iot
9 pages
DATA SCIENCE
No ratings yet
DATA SCIENCE
8 pages
Catalog 2011-12
No ratings yet
Catalog 2011-12
318 pages
Sikkim
No ratings yet
Sikkim
20 pages
Death and The: Nursing Home
No ratings yet
Death and The: Nursing Home
8 pages
Python Data Science Cookbook - (Preface) PDF
No ratings yet
Python Data Science Cookbook - (Preface) PDF
8 pages
Data Science Research at Stanford 2017-18-0
No ratings yet
Data Science Research at Stanford 2017-18-0
28 pages
Kaggle's State of Machine Learning and Data Science 2021
No ratings yet
Kaggle's State of Machine Learning and Data Science 2021
45 pages
Final UTS Report For Data Science Institute 2017-1-3
100% (3)
Final UTS Report For Data Science Institute 2017-1-3
39 pages
Specility Department
No ratings yet
Specility Department
140 pages
Aiml Lab Manual Upto DT
No ratings yet
Aiml Lab Manual Upto DT
40 pages
Data Science
No ratings yet
Data Science
74 pages
3170722_BDA_Lab Manual(1)
No ratings yet
3170722_BDA_Lab Manual(1)
78 pages
Descarga
No ratings yet
Descarga
173 pages
Data Science
100% (2)
Data Science
52 pages
Fundamentals of Data Science
No ratings yet
Fundamentals of Data Science
54 pages
Pip 2011-12 Ap NRHM
No ratings yet
Pip 2011-12 Ap NRHM
276 pages
PSD02 - Data Science Overview
No ratings yet
PSD02 - Data Science Overview
64 pages
Unit - I IDS
No ratings yet
Unit - I IDS
33 pages
SDN 4
No ratings yet
SDN 4
42 pages
Afshine Amidi, Shervine Amidi - Algorithms & Data Structures_ Super Study Guide (2022)
No ratings yet
Afshine Amidi, Shervine Amidi - Algorithms & Data Structures_ Super Study Guide (2022)
139 pages
355955B30 Siddesh Mahind SMA Exp-5
No ratings yet
355955B30 Siddesh Mahind SMA Exp-5
11 pages
Interview PDF
No ratings yet
Interview PDF
100 pages
Exabeam Data Science WP
No ratings yet
Exabeam Data Science WP
6 pages
Defining Data Science - The What, Where and How of Data Science - 365 Data Science PDF
No ratings yet
Defining Data Science - The What, Where and How of Data Science - 365 Data Science PDF
24 pages
Data Science: Profession of The Future
No ratings yet
Data Science: Profession of The Future
21 pages
Techknowledge DevOps Unit 1
No ratings yet
Techknowledge DevOps Unit 1
15 pages
Facets of Data
No ratings yet
Facets of Data
6 pages
Distributed File Systems
No ratings yet
Distributed File Systems
75 pages
Qi Project Nursing Fatigue
No ratings yet
Qi Project Nursing Fatigue
12 pages
Aging in Rural America: Preserving Seniors' Access To Healthcare
No ratings yet
Aging in Rural America: Preserving Seniors' Access To Healthcare
106 pages
Starbucks Sentiment Analysis Using VADER
No ratings yet
Starbucks Sentiment Analysis Using VADER
23 pages
Data Science in Finance (Article) - DataCamp PDF
No ratings yet
Data Science in Finance (Article) - DataCamp PDF
23 pages
DATA ANALYTICS Lab
No ratings yet
DATA ANALYTICS Lab
3 pages
Introduction To Tree Methods
No ratings yet
Introduction To Tree Methods
15 pages
Big Data
No ratings yet
Big Data
25 pages
List of Approved Courier Offices
No ratings yet
List of Approved Courier Offices
1 page
Visvesvaraya Technological University Belagavi
No ratings yet
Visvesvaraya Technological University Belagavi
74 pages
DataScience With R (Assignment 5-Report)
No ratings yet
DataScience With R (Assignment 5-Report)
9 pages
Data Science Lab
No ratings yet
Data Science Lab
28 pages
Gluon Tutorials: Deep Learning - The Straight Dope
No ratings yet
Gluon Tutorials: Deep Learning - The Straight Dope
403 pages
Ucf Nursing Dec04 Final-Edited 000
No ratings yet
Ucf Nursing Dec04 Final-Edited 000
24 pages
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
No ratings yet
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
15 pages
CU Data Science With SQL and Tableau
No ratings yet
CU Data Science With SQL and Tableau
4 pages
Project Report Format
No ratings yet
Project Report Format
7 pages
Nursing-Sunway University College 2011
No ratings yet
Nursing-Sunway University College 2011
4 pages
Studying For A Tech Interview Sucks
No ratings yet
Studying For A Tech Interview Sucks
8 pages
IIT Kharagpur Data Science PDF
No ratings yet
IIT Kharagpur Data Science PDF
22 pages
Writing - Task 1 - GT
No ratings yet
Writing - Task 1 - GT
8 pages
alarm_data
No ratings yet
alarm_data
3 pages
03. Additional Instructions for Express Entry Canada
No ratings yet
03. Additional Instructions for Express Entry Canada
6 pages
Schedule 50_2024
No ratings yet
Schedule 50_2024
1 page
Introduction To NLP
No ratings yet
Introduction To NLP
50 pages
ChatGPT for Data Analytics Full Course
No ratings yet
ChatGPT for Data Analytics Full Course
3 pages
How Large Language Models Work. From Zero To ChatGPT - by Andreas Stöffelbauer - Medium - Data Science at Microsoft
No ratings yet
How Large Language Models Work. From Zero To ChatGPT - by Andreas Stöffelbauer - Medium - Data Science at Microsoft
39 pages
Express Entry Application Steps
No ratings yet
Express Entry Application Steps
2 pages
Building An AI Startup-2024. in 2024, Building An AI Startup - by Bijit Ghosh - Feb, 2024 - Medium
No ratings yet
Building An AI Startup-2024. in 2024, Building An AI Startup - by Bijit Ghosh - Feb, 2024 - Medium
25 pages
4.0 - Matrix Inverse
No ratings yet
4.0 - Matrix Inverse
2 pages
(2303.18223) A Survey of Large Language Models
No ratings yet
(2303.18223) A Survey of Large Language Models
115 pages
Online Learning: 9.520 Class 12, 20 March 2006 Andrea Caponnetto, Sanmay Das
No ratings yet
Online Learning: 9.520 Class 12, 20 March 2006 Andrea Caponnetto, Sanmay Das
33 pages
ChatGPT Mastery - Zaka
No ratings yet
ChatGPT Mastery - Zaka
10 pages
3.2 - Hypothesis Testing (P-Value Approach)
No ratings yet
3.2 - Hypothesis Testing (P-Value Approach)
3 pages
Ranking Problems: 9.520 Class 09, 08 March 2006 Giorgos Zacharia
No ratings yet
Ranking Problems: 9.520 Class 09, 08 March 2006 Giorgos Zacharia
27 pages
Learning Guide: Cardiovascular Diseases: Be Able To Discuss Each of The Following
No ratings yet
Learning Guide: Cardiovascular Diseases: Be Able To Discuss Each of The Following
2 pages
Cardiology Today Next Gen Innovators: Meet The
100% (1)
Cardiology Today Next Gen Innovators: Meet The
1 page
Class Notes
No ratings yet
Class Notes
147 pages
Huang Meta Analyses Stat Methods Med Res 2014 0962280214537394
No ratings yet
Huang Meta Analyses Stat Methods Med Res 2014 0962280214537394
35 pages
5.4 - Eigendecomposition
No ratings yet
5.4 - Eigendecomposition
2 pages
3.0 - Matrix Properties
No ratings yet
3.0 - Matrix Properties
2 pages
Regbook Inside
No ratings yet
Regbook Inside
21 pages
Class 02
No ratings yet
Class 02
42 pages
Generalization Bounds and Stability: 9.520 Class 14, 03 April 2006 Sasha Rakhlin
No ratings yet
Generalization Bounds and Stability: 9.520 Class 14, 03 April 2006 Sasha Rakhlin
25 pages
Class 03
No ratings yet
Class 03
40 pages
Class 01
No ratings yet
Class 01
75 pages
7278
No ratings yet
7278
4 pages
RNC and NodeB Health Check
No ratings yet
RNC and NodeB Health Check
300 pages
Fma120 - V1 6 2
No ratings yet
Fma120 - V1 6 2
3 pages
DPScope Build Your Own USBPC Based Oscilloscope
50% (2)
DPScope Build Your Own USBPC Based Oscilloscope
28 pages
PAN Validation
No ratings yet
PAN Validation
3 pages
Big Data
No ratings yet
Big Data
9 pages
Fundamentals of IP Version 6 - CH28
No ratings yet
Fundamentals of IP Version 6 - CH28
16 pages
On Cloud Computing
77% (39)
On Cloud Computing
20 pages
Serial Key Windows 8 segalanyaKLSHDNLAKSNDLKASHFLKASFNLKASGFLASFKSANLDKXGLJBDUVASNF
No ratings yet
Serial Key Windows 8 segalanyaKLSHDNLAKSNDLKASHFLKASFNLKASGFLASFKSANLDKXGLJBDUVASNF
7 pages
Creating Clusters
No ratings yet
Creating Clusters
7 pages
ECE650 Midterm Exam S - 10
No ratings yet
ECE650 Midterm Exam S - 10
2 pages
Win Runner Automation Testing Tool
No ratings yet
Win Runner Automation Testing Tool
13 pages
Tutorial para Pic C
No ratings yet
Tutorial para Pic C
371 pages
Testking Exam Questions & Answers: Br0-002 Comptia Network + Bridge Exam
No ratings yet
Testking Exam Questions & Answers: Br0-002 Comptia Network + Bridge Exam
6 pages
CH 08
No ratings yet
CH 08
82 pages
Mono Documentation
No ratings yet
Mono Documentation
259 pages
NPTEL CC Assignment 4
0% (1)
NPTEL CC Assignment 4
5 pages
LeCroy WaveRunner 6 Zi Datasheet
No ratings yet
LeCroy WaveRunner 6 Zi Datasheet
28 pages
Cncs
No ratings yet
Cncs
7 pages
WOPM
No ratings yet
WOPM
72 pages
HDfury 4 Smanual
No ratings yet
HDfury 4 Smanual
35 pages
EV Deployment Scanner
No ratings yet
EV Deployment Scanner
20 pages
RS232-MDB and MDB-USB Converter Manual: How To Quick Start To Use WAFER MDB Adapter Box
100% (1)
RS232-MDB and MDB-USB Converter Manual: How To Quick Start To Use WAFER MDB Adapter Box
8 pages
Fcaps TMN Itil
No ratings yet
Fcaps TMN Itil
7 pages
Design of AMBA Based AHB2APB Bridge
No ratings yet
Design of AMBA Based AHB2APB Bridge
5 pages
Manual IcalBuddy
No ratings yet
Manual IcalBuddy
4 pages
Evermotion Vol 34 PDF
No ratings yet
Evermotion Vol 34 PDF
2 pages
MSIT Distance Catalog and Projected Schedule
No ratings yet
MSIT Distance Catalog and Projected Schedule
4 pages
32-Bit and 64-Bit Explained: Some of The Common Questions People Have
No ratings yet
32-Bit and 64-Bit Explained: Some of The Common Questions People Have
9 pages