0% found this document useful (0 votes)

237 views4 pages

Data Wrangling and Preprocessing in R

The document discusses data wrangling and preprocessing. It generates three synthetic datasets - a sales dataset with 150 rows, a customer dataset with 200 rows, and an inventory dataset with 200 rows. Each dataset contains randomly generated data along with missing values and outliers introduced. The datasets are exported to CSV files. Next steps mentioned are merging the datasets, checking the structure of the combined data, generating summary statistics, and scanning for missing values. However, the code blocks provided are empty and explanations for each step are missing.

Uploaded by

Siddharth Raul

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

237 views4 pages

Data Wrangling and Preprocessing in R

Uploaded by

Siddharth Raul

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

Data Wrangling (Data Preprocessing) Code

Mid-term assessment
Siddharth Dinkar Raul (s4015125)
18-09-2023

Setup
Hide

# Load the necessary packages required to reproduce the report.

library(tibble)
library(dplyr)
library(lubridate)

Data generation
Hide

[Link] Wrangling 2/[Link] 1/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

# Data generation, provide your R codes

# Generating date range

start_date <- [Link]("2023-01-01")
end_date <- [Link]("2023-12-31")
date_range <- seq(start_date, end_date, by = "days")

# Setting the seed

[Link](285)

# Creating the first dataset ( Sales dataset)

sales_data <- tibble(
date = sample(date_range, 150, replace = TRUE),
product_id = sample(1:200, 150, replace = TRUE),
product_name = [Link](replicate(150, paste(sample(words, 2), collapse = " "))),
quantity_sold = [Link](sample(1:20, 150, replace = TRUE)),
price = [Link](runif(150, min = 50, max = 500)),
customer_id = [Link](sample(1:500, 150, replace = TRUE)),
store_id = [Link](sample(1:5, 150, replace = TRUE)) # Common variable "store_id"
)

# Introducing the missing values in the "price" column (approximately 5%)

sales_data[sample(1:150, 5), "price"] <- NA

# Introducing outliers

sales_data[sample(1:150, 5), "quantity_sold"] <- sales_data[sample(1:150, 5), "quantity_sol

d"] * 10
sales_data[sample(1:150, 5), "price"] <- sales_data[sample(1:150, 5), "price"] * 2

# Exporting to CSV
[Link](sales_data, "sales_data.csv", [Link] = FALSE)

# Creating second dataset ( Customer Dataset)

[Link](286)

customer_data <- tibble(

customer_id = [Link](1:200),
customer_name = [Link](replicate(200, paste(sample(LETTERS, 5), collapse = ""))),
email = [Link](paste0(replicate(200, paste(sample(letters, 5), collapse = "")), "@exa
[Link]")),
total_purchases = [Link](sample(100:1000, 200, replace = TRUE)),
is_member = [Link](sample(c(TRUE, FALSE), 200, replace = TRUE, prob = c(0.6, 0.4))),
store_id = [Link](sample(1:5, 200, replace = TRUE)) # Common variable "store_id"
)

# Introduce missing values in the "email" column (approximately 5%)

customer_data[sample(1:200, 10), "email"] <- NA

# Export to CSV
[Link](customer_data, "customer_data.csv", [Link] = FALSE)

[Link] Wrangling 2/[Link] 2/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

# Creating second dataset ( Customer Dataset)

# Create an inventory dataset

[Link](789)
inventory_data <- tibble(
product_id = [Link](1:200),
product_name = [Link](replicate(200, paste(sample(words, 2), collapse = " "))),
stock_level = [Link](sample(1:100, 200, replace = TRUE)),
supplier = [Link](replicate(200, paste(sample(LETTERS, 3), collapse = ""))),
cost_price = [Link](runif(200, min = 50, max = 200)),
selling_price = [Link](runif(200, min = 100, max = 500)),
store_id = [Link](sample(1:5, 200, replace = TRUE)) # Common variable "store_id"
)

# Introduce missing values in the "stock_level" column (approximately 5%)

inventory_data[sample(1:200, 10), "stock_level"] <- NA

# Introduce outliers
inventory_data[sample(1:200, 5), "cost_price"] <- inventory_data[sample(1:200, 5), "cost_pric
e"] * 0.5
inventory_data[sample(1:200, 5), "selling_price"] <- inventory_data[sample(1:200, 5), "sellin
g_price"] * 2

# Export to CSV
[Link](inventory_data, "inventory_data.csv", [Link] = FALSE)

Provide explanations here.

Merging data sets

Hide

# Merge your synthetic data sets, provide R codes here.

Provide explanations here.

Checking structure of combined data

Hide

# Check structure of combined data and perform all necessary data type conversions, provide R
codes here.

Provide explanations here.

Generate summary statistics

Hide

# Generate summary statistics, provide R codes here.

[Link] Wrangling 2/[Link] 3/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

Provide explanations here.

Scanning data
Hide

# Scan variables for missing values, provide R codes here.

Provide explanations here.

[Link] Wrangling 2/[Link] 4/4

Supermart Grocery Sales Analysis
No ratings yet
Supermart Grocery Sales Analysis
19 pages
Supermart Grocery Sales Analysis
No ratings yet
Supermart Grocery Sales Analysis
17 pages
Data Analysis and Visualization in R & Tableau
No ratings yet
Data Analysis and Visualization in R & Tableau
8 pages
Pharmaceutical Sales Forecasting Model
No ratings yet
Pharmaceutical Sales Forecasting Model
10 pages
Data Analysis in Business with R
No ratings yet
Data Analysis in Business with R
3 pages
Machine Learning with Python Course Overview
100% (1)
Machine Learning with Python Course Overview
2 pages
Demand Forecasting for Retail 2025
No ratings yet
Demand Forecasting for Retail 2025
5 pages
Sales Analysis of Burger Store Data
No ratings yet
Sales Analysis of Burger Store Data
21 pages
Big Mart Sales Data Analysis Guide
No ratings yet
Big Mart Sales Data Analysis Guide
3 pages
Big Mart Sales Prediction Model
No ratings yet
Big Mart Sales Prediction Model
3 pages
Big Mart Sales Prediction Analysis
No ratings yet
Big Mart Sales Prediction Analysis
3 pages
Applied and Advanced Analytics Overview
No ratings yet
Applied and Advanced Analytics Overview
27 pages
R Data Analysis: Cleaning & Visualization Techniques
No ratings yet
R Data Analysis: Cleaning & Visualization Techniques
11 pages
IT Services and Data Exploration Guide
No ratings yet
IT Services and Data Exploration Guide
10 pages
Essential Data Preprocessing Steps
No ratings yet
Essential Data Preprocessing Steps
5 pages
Ads Phase 5
No ratings yet
Ads Phase 5
23 pages
Customer Segmentation with Unsupervised Learning
No ratings yet
Customer Segmentation with Unsupervised Learning
31 pages
Supply Chain Data Analytics Project
No ratings yet
Supply Chain Data Analytics Project
19 pages
Data Science Internship Report
100% (1)
Data Science Internship Report
58 pages
E-commerce Analytics with Machine Learning
No ratings yet
E-commerce Analytics with Machine Learning
5 pages
Data Mining in Manufacturing & Retail
No ratings yet
Data Mining in Manufacturing & Retail
3 pages
Big Data Insights and Excel Forecasting
No ratings yet
Big Data Insights and Excel Forecasting
13 pages
Big Data Analytics Roadmap Overview
No ratings yet
Big Data Analytics Roadmap Overview
30 pages
Sales Forecasting with Databricks
No ratings yet
Sales Forecasting with Databricks
3 pages
Superstore Data Cleaning in R
No ratings yet
Superstore Data Cleaning in R
14 pages
Big-Mart Sales Data Analysis Insights
100% (1)
Big-Mart Sales Data Analysis Insights
42 pages
Superstore EDA: Insights & Data Quality
No ratings yet
Superstore EDA: Insights & Data Quality
15 pages
Data Science Capstone Project with R
No ratings yet
Data Science Capstone Project with R
72 pages
Customer Churn Analysis with EDA
No ratings yet
Customer Churn Analysis with EDA
7 pages
Supply Chain Optimization Project Report
No ratings yet
Supply Chain Optimization Project Report
19 pages
Data Cleaning and Exploration Techniques
No ratings yet
Data Cleaning and Exploration Techniques
6 pages
Retail Data Analysis and Visualization
No ratings yet
Retail Data Analysis and Visualization
3 pages
NN Model and Gap Statistic Analysis
80% (10)
NN Model and Gap Statistic Analysis
14 pages
Walmart Sales Forecasting Analysis
No ratings yet
Walmart Sales Forecasting Analysis
46 pages
Data Scientist Resume - Janardhan Jadhav
No ratings yet
Data Scientist Resume - Janardhan Jadhav
3 pages
Store Sales Prediction Model Guide
No ratings yet
Store Sales Prediction Model Guide
50 pages
Demand Forecasting in Supply Chain ML
No ratings yet
Demand Forecasting in Supply Chain ML
13 pages
K-Means for Customer Segmentation
100% (2)
K-Means for Customer Segmentation
41 pages
Data Mining Project Stages Explained
No ratings yet
Data Mining Project Stages Explained
5 pages
MBA Analytics Project: Sales Forecasting
No ratings yet
MBA Analytics Project: Sales Forecasting
4 pages
Delhivery Feature Engineering Case Study
No ratings yet
Delhivery Feature Engineering Case Study
7 pages
Store Sales Prediction Analysis
No ratings yet
Store Sales Prediction Analysis
11 pages
Target Brazil Order Analysis Insights
No ratings yet
Target Brazil Order Analysis Insights
31 pages
Exploratory Data Analysis with Python
No ratings yet
Exploratory Data Analysis with Python
3 pages
Pranjali Mishra: Business Analyst Profile
No ratings yet
Pranjali Mishra: Business Analyst Profile
1 page
Data Analysis with Pandas in Python
No ratings yet
Data Analysis with Pandas in Python
4 pages
R Data Manipulation and Visualization Guide
No ratings yet
R Data Manipulation and Visualization Guide
4 pages
B Tech-AIML-question Bank-2 Answer Key
No ratings yet
B Tech-AIML-question Bank-2 Answer Key
9 pages
Create Pivot Tables and Charts in Excel
100% (1)
Create Pivot Tables and Charts in Excel
12 pages
Data Preprocessing in MATLAB
No ratings yet
Data Preprocessing in MATLAB
16 pages
Data Preparation Steps for Analytics
No ratings yet
Data Preparation Steps for Analytics
3 pages
Black Friday Sales Prediction Analysis
No ratings yet
Black Friday Sales Prediction Analysis
33 pages
Data Analyst Resume - Ridhima Kalra
No ratings yet
Data Analyst Resume - Ridhima Kalra
2 pages
Beginner's Data Science Overview Guide
100% (1)
Beginner's Data Science Overview Guide
41 pages
Customer Behavior Analysis in Python
No ratings yet
Customer Behavior Analysis in Python
4 pages
Excel and R Data Analysis Techniques
No ratings yet
Excel and R Data Analysis Techniques
9 pages
Retail Inventory Optimization Case Study
No ratings yet
Retail Inventory Optimization Case Study
3 pages
Cheat Loader Setup Instructions
No ratings yet
Cheat Loader Setup Instructions
13 pages
Low-Cost Pulse Oximetry System
No ratings yet
Low-Cost Pulse Oximetry System
3 pages
IBM Connections 5 Brochure
No ratings yet
IBM Connections 5 Brochure
6 pages
SOC 40 Tools
No ratings yet
SOC 40 Tools
40 pages
Hacks for Innovation in the Arts
No ratings yet
Hacks for Innovation in the Arts
45 pages
GK Expertise Campus Drive 2026 Invitation
No ratings yet
GK Expertise Campus Drive 2026 Invitation
3 pages
AI
No ratings yet
AI
19 pages
Munish Kumar PHD Thesis
No ratings yet
Munish Kumar PHD Thesis
160 pages
Quarkcoin Cloud Mining Overview
No ratings yet
Quarkcoin Cloud Mining Overview
11 pages
Bhargav Rathod: QA Engineer Profile
No ratings yet
Bhargav Rathod: QA Engineer Profile
1 page
DFDs for Library Management System
50% (8)
DFDs for Library Management System
34 pages
Apple Inc. Change Management Strategies
100% (3)
Apple Inc. Change Management Strategies
8 pages
Sign Language Detection Project Report
No ratings yet
Sign Language Detection Project Report
35 pages
InfoScale DR Setup Manual for Apps
No ratings yet
InfoScale DR Setup Manual for Apps
14 pages
Class 11 Informatics Practices Exam Paper
No ratings yet
Class 11 Informatics Practices Exam Paper
6 pages
Windows Mouse and TCP Settings Config
No ratings yet
Windows Mouse and TCP Settings Config
2 pages
Document 2402362.1 - Create WO With Oper and MAte
No ratings yet
Document 2402362.1 - Create WO With Oper and MAte
3 pages
Understanding Marketing Information Systems
No ratings yet
Understanding Marketing Information Systems
3 pages
Harmonized Approach to Instrument Qualification
No ratings yet
Harmonized Approach to Instrument Qualification
7 pages
IEEE Machine Learning Projects 2025
No ratings yet
IEEE Machine Learning Projects 2025
10 pages
Supermarket Management System Project
No ratings yet
Supermarket Management System Project
29 pages
Wireless Network Project Report
No ratings yet
Wireless Network Project Report
23 pages
Windows 11 April 2023 Overview
No ratings yet
Windows 11 April 2023 Overview
3 pages
AT89S52 External Interrupt Addressing
No ratings yet
AT89S52 External Interrupt Addressing
20 pages
Tamil Nadu SSLC Certificate Details
No ratings yet
Tamil Nadu SSLC Certificate Details
1 page
Unlocking Samsung SC-02C Guide
No ratings yet
Unlocking Samsung SC-02C Guide
13 pages
USR-EG628 Industrial IoT Gateway
100% (1)
USR-EG628 Industrial IoT Gateway
4 pages
Systemd Command Reference Guide
No ratings yet
Systemd Command Reference Guide
1 page
Multi-Layered Prompt Injection Detection
No ratings yet
Multi-Layered Prompt Injection Detection
6 pages
Java NullPointerException Errors Log
No ratings yet
Java NullPointerException Errors Log
2 pages