Aiproject 2

This document presents a machine learning approach to spam email detection using Logistic Regression and TF-IDF vectorization, achieving 96.7% accuracy. It outlines the methodology, dataset statistics, and implementation details, demonstrating a scalable solution to classify emails as spam or ham. The project highlights the limitations of traditional rule-based filters and emphasizes the effectiveness of the proposed model for real-world applications.

Uploaded by

w46q5xztcz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

27 views4 pages

Aiproject 2

Uploaded by

w46q5xztcz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Spam Mail Detection Using Machine Learning

Your Name
May 19, 2025

Abstract
Spam emails remain a significant nuisance, cluttering inboxes and posing secu-
rity risks. This project presents a machine learning-based solution using Logistic
Regression and TF-IDF vectorization to classify emails as spam or ham (non-spam).
The model achieves 96.7% accuracy on test data, demonstrating robust performance
for real-world deployment. The system processes raw email text, converts it to nu-
merical features, and makes predictions with high reliability.

Contents
1 Introduction 1
1.1 Problem Statement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Dataset 2
2.1 Dataset Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Sample Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3 Methodology 2
3.1 Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
3.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

4 Results 3
4.1 Performance Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.2 Prediction Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

5 Conclusion 3

A Complete Code 4

1 Introduction
Spam emails waste time, spread malware, and threaten privacy. Traditional rule-based
filtering methods often fail to adapt to evolving spam tactics. This project leverages
supervised learning to distinguish spam from legitimate emails, offering a scalable and
adaptive alternative to manual filtering.

1
1.1 Problem Statement
• Rule-based filters lack flexibility and require constant updates

• Manual labeling is impractical for large-scale email systems

• Goal: Develop a lightweight ML model to classify emails accurately

2 Dataset
The project uses the SMS Spam Collection Dataset from Kaggle, containing 5,572 labeled
messages.

2.1 Dataset Statistics

Total Messages 5,572
Ham Messages 4,825 (87%)
Spam Messages 747 (13%)

2.2 Sample Data

Category Message
ham Go until jurong point, crazy... Available only in bugis n
great world la e buffet... Cine there got amore wat...
spam Free entry in 2 a wkly comp to win FA Cup final tkts
21st May 2005. Text FA to 87121 to receive entry ques-
tion(std txt rate)

3 Methodology
3.1 Workflow
1. Data loading and preprocessing

2. Feature extraction using TF-IDF

3. Model training with Logistic Regression

4. Evaluation and prediction

3.2 Implementation
1 import pandas as pd
2
3 # Load dataset
4 df = pd . read_csv ( ’ mail_data . csv ’)
5
6 # Handle missing values
7 data = df . where (( pd . notnull ( df ) ) , ’ ’)
8
9 # Convert labels to numerical values

2
10 data . loc [ data [ ’ category ’] == ’ spam ’ , ’ category ’] = 0
11 data . loc [ data [ ’ category ’] == ’ ham ’ , ’ category ’] = 1
Listing 1: Data Loading and Preprocessing

1 from sklearn . model_selection import train_test_split

2 from sklearn . f ea tu re _e xt ra ct io n . text import TfidfVectorizer
3 from sklearn . linear_model import Log is ti cR eg re ss io n
4
5 # Split data
6 X = data [ ’ Message ’]
7 Y = data [ ’ category ’]
8 X_train , X_test , Y_train , Y_test = train_test_split (X , Y , test_size
=0.2 , random_state =3)
9
10 # Feature extraction
11 fe at ur e_ ex tr ac ti on = TfidfVectorizer ( min_df =1 , stop_words = ’ english ’ ,
lowercase = True )
12 X_train_features = fe at ure _e xt ra ct io n . fit_transform ( X_train )
13 X_test_features = f eat ur e_ ex tr ac ti on . transform ( X_test )
14
15 # Train model
16 model = Lo gi st ic Re gr es si on ()
17 model . fit ( X_train_features , Y_train )
Listing 2: Feature Extraction and Model Training

4 Results
4.1 Performance Metrics
Metric Value
Training Accuracy 96.77%
Test Accuracy 96.68%

4.2 Prediction Examples

Email Text Prediction
”Free money!!! Click now to claim your Spam
prize!”
”Meeting reminder: Tomorrow at 10 AM” Ham

5 Conclusion
The Logistic Regression model, combined with TF-IDF vectorization, effectively classifies
spam emails with ¿96% accuracy. This solution is lightweight, interpretable, and ready
for deployment in production environments. Future work includes integration with email
APIs and experimentation with deep learning models.

References
1. Scikit-learn Documentation: https://scikit-learn.org/

3
2. Dataset Source: https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset

A Complete Code
1 # Full implementation code from all sections
2 import pandas as pd
3 from sklearn . model_selection import train_test_split
4 from sklearn . f ea tu re _e xt ra ct io n . text import TfidfVectorizer
5 from sklearn . linear_model import Log is ti cR eg re ss io n
6 from sklearn . metrics import accuracy_score
7
8 # 1. Data Loading and Preprocessing
9 df = pd . read_csv ( ’ mail_data . csv ’)
10 data = df . where (( pd . notnull ( df ) ) , ’ ’)
11 data . loc [ data [ ’ category ’] == ’ spam ’ , ’ category ’] = 0
12 data . loc [ data [ ’ category ’] == ’ ham ’ , ’ category ’] = 1
13
14 # 2. Feature Extraction and Model Training
15 X = data [ ’ Message ’]
16 Y = data [ ’ category ’]
17 X_train , X_test , Y_train , Y_test = train_test_split (X , Y , test_size
=0.2 , random_state =3)
18
19 fe at ur e_ ex tr ac ti on = TfidfVectorizer ( min_df =1 , stop_words = ’ english ’ ,
lowercase = True )
20 X_train_features = fe at ure _e xt ra ct io n . fit_transform ( X_train )
21 X_test_features = f eat ur e_ ex tr ac ti on . transform ( X_test )
22
23 model = Lo gi st ic Re gr es si on ()
24 model . fit ( X_train_features , Y_train )
25
26 # 3. Evaluation
27 train_accuracy = accuracy_score ( Y_train , model . predict ( X_train_features
))
28 test_accuracy = accuracy_score ( Y_test , model . predict ( X_test_features ) )
29
30 # 4. Prediction Function
31 def predict_email ( email_text ) :
32 input_features = fea tu re _e xt ra ct io n . transform ([ email_text ])
33 return " Ham " if model . predict ( input_features ) [0] == 1 else " Spam "
Listing 3: Complete Implementation

Ai Project
No ratings yet
Ai Project
8 pages
Spam Email Classification with Logistic Regression
No ratings yet
Spam Email Classification with Logistic Regression
6 pages
Final Report (Saie)
No ratings yet
Final Report (Saie)
38 pages
Spam Filter Project Report Logistic Regression
No ratings yet
Spam Filter Project Report Logistic Regression
10 pages
Spam Email. Classifier
No ratings yet
Spam Email. Classifier
16 pages
Document
No ratings yet
Document
11 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Machine Learning for Email Spam Filtering
No ratings yet
Machine Learning for Email Spam Filtering
16 pages
Final Report Spam Classifier
100% (1)
Final Report Spam Classifier
24 pages
Spam Email Detection Using Machine Learning
No ratings yet
Spam Email Detection Using Machine Learning
8 pages
Email Spam Detection PPT Github
No ratings yet
Email Spam Detection PPT Github
11 pages
Pruthviraj Micor Foml
No ratings yet
Pruthviraj Micor Foml
26 pages
ML Lab
No ratings yet
ML Lab
13 pages
Spamfilter
No ratings yet
Spamfilter
4 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
AI Spam Classifier Using ELM & SVM
No ratings yet
AI Spam Classifier Using ELM & SVM
11 pages
Project 2
No ratings yet
Project 2
10 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
Python Spam Mail Detection Program
No ratings yet
Python Spam Mail Detection Program
2 pages
Email Classification with Machine Learning
No ratings yet
Email Classification with Machine Learning
22 pages
Spam Mail Classifier
No ratings yet
Spam Mail Classifier
8 pages
Presentation 3
No ratings yet
Presentation 3
13 pages
Zoom
No ratings yet
Zoom
20 pages
Email Spam CLassification
No ratings yet
Email Spam CLassification
16 pages
Spam Mail Prediction Using Machine Learning
No ratings yet
Spam Mail Prediction Using Machine Learning
29 pages
AI Phase1
No ratings yet
AI Phase1
7 pages
Research Article On The Forensic
No ratings yet
Research Article On The Forensic
14 pages
Machine Learning for Email Spam Detection
No ratings yet
Machine Learning for Email Spam Detection
8 pages
Email Spam Detection with ML Techniques
No ratings yet
Email Spam Detection with ML Techniques
13 pages
DSP Report Taashif 22347 Aman 22035 Vivek 22373 Emailspamdetection
No ratings yet
DSP Report Taashif 22347 Aman 22035 Vivek 22373 Emailspamdetection
3 pages
AI Spam Classifier Guide
No ratings yet
AI Spam Classifier Guide
14 pages
Email Spam Classifier Using GaussianNB
No ratings yet
Email Spam Classifier Using GaussianNB
3 pages
For Email
No ratings yet
For Email
8 pages
Email Spam Detection Guide
No ratings yet
Email Spam Detection Guide
8 pages
Aayush Nihar Spam Mail Filtering
No ratings yet
Aayush Nihar Spam Mail Filtering
18 pages
Micro
No ratings yet
Micro
5 pages
Spam Detection in Email Using Machine Le
No ratings yet
Spam Detection in Email Using Machine Le
8 pages
Spam Detection via Logistic Regression & PSO
No ratings yet
Spam Detection via Logistic Regression & PSO
38 pages
Machine Learning Based Classification For Spam Detection
No ratings yet
Machine Learning Based Classification For Spam Detection
14 pages
Spam Detection With Machine Learning
No ratings yet
Spam Detection With Machine Learning
2 pages
Spam Email Classifier - Ramsanjay
No ratings yet
Spam Email Classifier - Ramsanjay
2 pages
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
No ratings yet
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
7 pages
Project PRJ 801 Draft 6
No ratings yet
Project PRJ 801 Draft 6
11 pages
Machine Learning Spam Detection Tool
No ratings yet
Machine Learning Spam Detection Tool
38 pages
Aryan Blackbook 1
No ratings yet
Aryan Blackbook 1
29 pages
E-Mail Spam Classification Via Machine Learning and Natural Language Processing
No ratings yet
E-Mail Spam Classification Via Machine Learning and Natural Language Processing
7 pages
Final PPT
No ratings yet
Final PPT
18 pages
Spam Email Detection Documentation
No ratings yet
Spam Email Detection Documentation
3 pages
Email Spam Detection
No ratings yet
Email Spam Detection
2 pages
Email Spam Classification Using ID3
No ratings yet
Email Spam Classification Using ID3
4 pages
Email Spam Classification with ML & NLP
No ratings yet
Email Spam Classification with ML & NLP
6 pages
Machine Learning for Spam Detection
No ratings yet
Machine Learning for Spam Detection
8 pages
Email Spam Detection Edited
No ratings yet
Email Spam Detection Edited
30 pages
Literature Survey on Spam Detection Techniques
No ratings yet
Literature Survey on Spam Detection Techniques
7 pages
Fin Irjmets1697888326
No ratings yet
Fin Irjmets1697888326
4 pages
Email Spam Detection Using Naive Bayes
No ratings yet
Email Spam Detection Using Naive Bayes
8 pages
B. Flowchart of The Model: Esult
No ratings yet
B. Flowchart of The Model: Esult
3 pages
Investigating The Causes of Delay and Cost-Overrun in Construction Industry (#381744) - 522652
No ratings yet
Investigating The Causes of Delay and Cost-Overrun in Construction Industry (#381744) - 522652
5 pages
Ductile Iron Pipe Restraint Design Guide
No ratings yet
Ductile Iron Pipe Restraint Design Guide
2 pages
Completion String Components
100% (4)
Completion String Components
12 pages
CWW Bref 0203
No ratings yet
CWW Bref 0203
472 pages
List of Protection Limit Switches in SR Stg-Ii
No ratings yet
List of Protection Limit Switches in SR Stg-Ii
2 pages
Hiren Boot 9.5
No ratings yet
Hiren Boot 9.5
14 pages
Assyst Bullmer Cutter Procut 5000/7501: Spare and Wearing Parts List
100% (1)
Assyst Bullmer Cutter Procut 5000/7501: Spare and Wearing Parts List
38 pages
Architectural Design - IV: Case Study - Salarjung Museum
100% (2)
Architectural Design - IV: Case Study - Salarjung Museum
7 pages
DMA 12B120 Actuator
No ratings yet
DMA 12B120 Actuator
4 pages
SMT Line Detailed Report
No ratings yet
SMT Line Detailed Report
6 pages
EPC Project: LNG Port in Skikda
No ratings yet
EPC Project: LNG Port in Skikda
347 pages
POD X3 Advanced Guide (Rev E) - English
No ratings yet
POD X3 Advanced Guide (Rev E) - English
100 pages
Blockout Cloth P60 - 15x4 - Roll - FA - 01-06-25
No ratings yet
Blockout Cloth P60 - 15x4 - Roll - FA - 01-06-25
1 page
Compressible Fluid Flow
No ratings yet
Compressible Fluid Flow
26 pages
DBracket BraceLok
No ratings yet
DBracket BraceLok
4 pages
TEKAB Cable Specifications and Details
No ratings yet
TEKAB Cable Specifications and Details
5 pages
KTM 250 Adventure - My 23 Parts Catlog
100% (1)
KTM 250 Adventure - My 23 Parts Catlog
82 pages
DX-PADS To X-EnTP Design Translation Guide VX.2.3
No ratings yet
DX-PADS To X-EnTP Design Translation Guide VX.2.3
39 pages
Difference Between x86 and x64
No ratings yet
Difference Between x86 and x64
1 page
Aluthermo Quattro Installation Instructions
No ratings yet
Aluthermo Quattro Installation Instructions
20 pages
Environmental Sciences (GSC 101) Credits 4 L.T.P: 4 0 0
100% (1)
Environmental Sciences (GSC 101) Credits 4 L.T.P: 4 0 0
21 pages
Key Rivers in India for UPSC Exam
No ratings yet
Key Rivers in India for UPSC Exam
54 pages
Paper 6 - Tenova
No ratings yet
Paper 6 - Tenova
31 pages
Planned Maintenance System in Shipping
100% (3)
Planned Maintenance System in Shipping
5 pages
No 1
No ratings yet
No 1
1 page
VisWall LCD Datasheet
No ratings yet
VisWall LCD Datasheet
1 page
IoT Induction Motor Monitoring System
No ratings yet
IoT Induction Motor Monitoring System
19 pages
Himachal Pradesh State Profile & Economy
No ratings yet
Himachal Pradesh State Profile & Economy
40 pages
Probability-Based Load Criteria for Design
No ratings yet
Probability-Based Load Criteria for Design
6 pages
TASK - 02 - Report On The Practice With LOGO.
No ratings yet
TASK - 02 - Report On The Practice With LOGO.
10 pages