0% found this document useful (0 votes)

32 views8 pages

Detect Fake Profiles with Random Forest

The document outlines a method for detecting fake profiles in online social networks using a Random Forest classifier. It includes functions for reading datasets, predicting user sex from names, feature extraction, and evaluating model performance through learning curves, confusion matrices, and ROC curves. The model achieves a classification accuracy of approximately 94% on the test dataset.

Uploaded by

lappy1stbackup.ok

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views8 pages

Detect Fake Profiles with Random Forest

Uploaded by

lappy1stbackup.ok

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Detect fake profiles in online social networks using Random

Forest
In [54]: import sys
import csv
import datetime
import numpy as np
import pandas as pd
import [Link] as plt
from datetime import datetime
import [Link] as gender
from [Link] import Imputer
from sklearn import cross_validation
from sklearn import metrics
from sklearn import preprocessing
from [Link] import roc_curve, auc
from [Link] import RandomForestClassifier
from sklearn.cross_validation import StratifiedKFold, train_test_split
from sklearn.grid_search import GridSearchCV
from [Link] import accuracy_score
from sklearn.learning_curve import learning_curve
from [Link] import classification_report
from [Link] import confusion_matrix
%matplotlib inline

function for reading dataset from csv files

In [55]: def read_datasets():

""" Reads users profile from csv files """
genuine_users = pd.read_csv("data/[Link]")
fake_users = pd.read_csv("data/[Link]")
# print genuine_users.columns
# print genuine_users.describe()
#print fake_users.describe()
x=[Link]([genuine_users,fake_users])
y=len(fake_users)*[0] + len(genuine_users)*[1]
return x,y

function for predicting sex using name of person

In [56]: def predict_sex(name):
sex_predictor = [Link](unknown_value=u"unknown",case_sensitiv
e=False)
first_name= [Link](' ').[Link](0)
sex= first_name.apply(sex_predictor.get_gender)
sex_dict={'female': -2, 'mostly_female': -1,'unknown':0,'mostly_mal
e':1, 'male': 2}
sex_code = [Link](sex_dict).astype(int)
return sex_code

function for feature engineering

In [57]: def extract_features(x):

lang_list = list(enumerate([Link](x['lang'])))
lang_dict = { name : i for i, name in lang_list }
[Link][:,'lang_code'] = x['lang'].map( lambda x: lang_dict[x]).astype(i
nt)
[Link][:,'sex_code']=predict_sex(x['name'])
feature_columns_to_use = ['statuses_count','followers_count','friend
s_count','favourites_count','listed_count','sex_code','lang_code']
x=[Link][:,feature_columns_to_use]
return x

function for ploting learning curve

In [60]: def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None,
n_jobs=1, train_sizes=[Link](.1, 1.0, 5)):

[Link]()
[Link](title)
if ylim is not None:
[Link](*ylim)
[Link]("Training examples")
[Link]("Score")
train_sizes, train_scores, test_scores = learning_curve(
estimator, X, y, cv=cv, n_jobs=n_jobs, train_sizes=train_sizes)
train_scores_mean = [Link](train_scores, axis=1)
train_scores_std = [Link](train_scores, axis=1)
test_scores_mean = [Link](test_scores, axis=1)
test_scores_std = [Link](test_scores, axis=1)
[Link]()

plt.fill_between(train_sizes, train_scores_mean - train_scores_std,

train_scores_mean + train_scores_std, alpha=0.1,
color="r")
plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
test_scores_mean + test_scores_std, alpha=0.1, colo
r="g")
[Link](train_sizes, train_scores_mean, 'o-', color="r",
label="Training score")
[Link](train_sizes, test_scores_mean, 'o-', color="g",
label="Cross-validation score")

[Link](loc="best")
return plt

function for plotting confusion matrix

In [61]: def plot_confusion_matrix(cm, title='Confusion matrix', cmap=[Link]

s):
target_names=['Fake','Genuine']
[Link](cm, interpolation='nearest', cmap=cmap)
[Link](title)
[Link]()
tick_marks = [Link](len(target_names))
[Link](tick_marks, target_names, rotation=45)
[Link](tick_marks, target_names)
plt.tight_layout()
[Link]('True label')
[Link]('Predicted label')

function for plotting ROC curve

In [62]: def plot_roc_curve(y_test, y_pred):
false_positive_rate, true_positive_rate, thresholds = roc_curve(y_tes
t, y_pred)

print "False Positive rate: ",false_positive_rate

print "True Positive rate: ",true_positive_rate

roc_auc = auc(false_positive_rate, true_positive_rate)

Function for training data using Random Forest

In [63]: def train(X_train,y_train,X_test):

""" Trains and predicts dataset with a Random Forest classifier """

clf=RandomForestClassifier(n_estimators=40,oob_score=True)
[Link](X_train,y_train)
print("The best classifier is: ",clf)
# Estimate score
scores = cross_validation.cross_val_score(clf, X_train,y_train, cv=5)
print scores
print('Estimated score: %0.5f (+/- %0.5f)' % ([Link](), [Link]
d() / 2))
title = 'Learning Curves (Random Forest)'
plot_learning_curve(clf, title, X_train, y_train, cv=5)
[Link]()
# Predict
y_pred = [Link](X_test)
return y_test,y_pred
In [64]: print "reading datasets.....\n"
x,y=read_datasets()
[Link]()

reading datasets.....

Out[64]: id statuses_count followers_count friends_count favourites_count

count 2.818000e+03 2818.000000 2818.000000 2818.000000 2818.000000

mean 5.374889e+08 1672.198368 371.105039 395.363023 234.541164

std 2.977005e+08 4884.669157 8022.631339 465.694322 1445.847248

min 3.610511e+06 0.000000 0.000000 0.000000 0.000000

25% 3.620867e+08 35.000000 17.000000 168.000000 0.000000

50% 6.162253e+08 77.000000 26.000000 306.000000 0.000000

75% 6.177673e+08 1087.750000 111.000000 519.000000 37.000000

max 1.391998e+09 79876.000000 408372.000000 12773.000000 44349.000000

In [65]: print "extracting featues.....\n"

x=extract_features(x)
print [Link]
print [Link]()

extracting featues.....

Index([u'statuses_count', u'followers_count', u'friends_count',

u'favourites_count', u'listed_count', u'sex_code', u'lang_code'],
dtype='object')
statuses_count followers_count friends_count favourites_count \
count 2818.000000 2818.000000 2818.000000 2818.000000
mean 1672.198368 371.105039 395.363023 234.541164
std 4884.669157 8022.631339 465.694322 1445.847248
min 0.000000 0.000000 0.000000 0.000000
25% 35.000000 17.000000 168.000000 0.000000
50% 77.000000 26.000000 306.000000 0.000000
75% 1087.750000 111.000000 519.000000 37.000000
max 79876.000000 408372.000000 12773.000000 44349.000000

listed_count sex_code lang_code

count 2818.000000 2818.000000 2818.000000
mean 2.818666 -0.180270 2.851313
std 23.480430 1.679125 1.992950
min 0.000000 -2.000000 0.000000
25% 0.000000 -2.000000 1.000000
50% 0.000000 0.000000 1.000000
75% 1.000000 2.000000 5.000000
max 744.000000 2.000000 7.000000
In [66]: print "spliting datasets in train and test dataset...\n"
X_train,X_test,y_train,y_test = train_test_split(x, y, test_size=0.20, ran
dom_state=44)

spliting datasets in train and test dataset...

In [67]: print "training datasets.......\n"

y_test,y_pred = train(X_train,y_train,X_test)

training datasets.......

('The best classifier is: ', RandomForestClassifier(bootstrap=True, clas

s_weight=None, criterion='gini',
max_depth=None, max_features='auto', max_leaf_nodes=None,
min_samples_leaf=1, min_samples_split=2,
min_weight_fraction_leaf=0.0, n_estimators=40, n_jobs=1,
oob_score=True, random_state=None, verbose=0, warm_start=Fals
e))
[ 0.93791574 0.93791574 0.94678492 0.9578714 0.93777778]
Estimated score: 0.94365 (+/- 0.00395)

In [68]: print 'Classification Accuracy on Test dataset: ' ,accuracy_score(y_test,

y_pred)

Classification Accuracy on Test dataset: 0.941489361702

In [70]: cm=confusion_matrix(y_test, y_pred)
print('Confusion matrix, without normalization')
print(cm)
plot_confusion_matrix(cm)

Confusion matrix, without normalization

[[265 3]
[ 30 266]]

In [71]: cm_normalized = [Link]('float') / [Link](axis=1)[:, [Link]]

print('Normalized confusion matrix')
print(cm_normalized)
plot_confusion_matrix(cm_normalized, title='Normalized confusion matrix')

Normalized confusion matrix

[[ 0.98880597 0.01119403]
[ 0.10135135 0.89864865]]
In [72]: print(classification_report(y_test, y_pred, target_names=['Fake','Genuin
e']))

precision recall f1-score support

Fake 0.90 0.99 0.94 268

Genuine 0.99 0.90 0.94 296

avg / total 0.95 0.94 0.94 564

In [73]: plot_roc_curve(y_test, y_pred)

False Positive rate: [ 0. 0.01119403 1. ]

True Positive rate: [ 0. 0.89864865 1. ]

Detect Fake Social Media Profiles with SVM
No ratings yet
Detect Fake Social Media Profiles with SVM
8 pages
Neural Network
No ratings yet
Neural Network
7 pages
Telecom Churn Proj
No ratings yet
Telecom Churn Proj
4 pages
Random Forest Classifier on Banking Dataset
No ratings yet
Random Forest Classifier on Banking Dataset
7 pages
Datascience PR 6 Veda
No ratings yet
Datascience PR 6 Veda
6 pages
Car Evaluation Data Analysis & Random Forest Model
No ratings yet
Car Evaluation Data Analysis & Random Forest Model
12 pages
Data Mining Decision Tree Analysis
No ratings yet
Data Mining Decision Tree Analysis
7 pages
ADS - Phase 3
No ratings yet
ADS - Phase 3
34 pages
Titanic Data Analysis with Python
No ratings yet
Titanic Data Analysis with Python
20 pages
Assgn 06 ML - Ipynb - Colab
No ratings yet
Assgn 06 ML - Ipynb - Colab
5 pages
Classification
No ratings yet
Classification
3 pages
Heart Disease Prediction Guide
100% (1)
Heart Disease Prediction Guide
73 pages
Data Analytics II: Logistic Regression Analysis
No ratings yet
Data Analytics II: Logistic Regression Analysis
3 pages
Major Project
No ratings yet
Major Project
9 pages
Naïve Bayes Classifier Implementation
No ratings yet
Naïve Bayes Classifier Implementation
8 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
Heart Disease Classification with ML
No ratings yet
Heart Disease Classification with ML
10 pages
Bacdeaf 23032025 115708 Split 1
No ratings yet
Bacdeaf 23032025 115708 Split 1
37 pages
Logistic Regression Analysis in Python
No ratings yet
Logistic Regression Analysis in Python
5 pages
Dsbda 5
No ratings yet
Dsbda 5
4 pages
SVM and Random Forest Model Evaluation
100% (1)
SVM and Random Forest Model Evaluation
19 pages
Machine Learning Lab Manual for B.Tech
No ratings yet
Machine Learning Lab Manual for B.Tech
19 pages
ML Functions
No ratings yet
ML Functions
12 pages
Binary Classifier Evaluation Guide
No ratings yet
Binary Classifier Evaluation Guide
12 pages
DA PRA WEEK 13 (Random Forest) - 054551
No ratings yet
DA PRA WEEK 13 (Random Forest) - 054551
12 pages
Machine Learning Model Evaluations
No ratings yet
Machine Learning Model Evaluations
11 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
ML Fat
No ratings yet
ML Fat
9 pages
SVM Model for Cancer Cell Classification
No ratings yet
SVM Model for Cancer Cell Classification
10 pages
CCD - Ipynb - Colab
No ratings yet
CCD - Ipynb - Colab
6 pages
Decision Tree Classifier Overview
No ratings yet
Decision Tree Classifier Overview
7 pages
Loan Default Prediction System 1753830667
No ratings yet
Loan Default Prediction System 1753830667
11 pages
Naïve Bayes and Random Forest Implementation
No ratings yet
Naïve Bayes and Random Forest Implementation
32 pages
Final-12-Lab Programs
No ratings yet
Final-12-Lab Programs
30 pages
Payal Practical5 Edited
No ratings yet
Payal Practical5 Edited
5 pages
Machine Learning Algorithms in Python
No ratings yet
Machine Learning Algorithms in Python
8 pages
Ensemble Methods: Bagging & Boosting
No ratings yet
Ensemble Methods: Bagging & Boosting
37 pages
Dsbda 10
No ratings yet
Dsbda 10
5 pages
Machine Learning Evaluation Guide
100% (1)
Machine Learning Evaluation Guide
504 pages
Assign 4 8057
No ratings yet
Assign 4 8057
7 pages
Facebook Graph Link Prediction
No ratings yet
Facebook Graph Link Prediction
14 pages
PRJ-Parkinsons Disease Prediction
No ratings yet
PRJ-Parkinsons Disease Prediction
16 pages
Machine Learning for Cs₂CuBiCl₆ Cell Efficiency
No ratings yet
Machine Learning for Cs₂CuBiCl₆ Cell Efficiency
5 pages
Machine Learning Algorithms (Python & R) PDF
No ratings yet
Machine Learning Algorithms (Python & R) PDF
11 pages
1
No ratings yet
1
13 pages
Logistic Regression for Term Deposit Prediction
No ratings yet
Logistic Regression for Term Deposit Prediction
8 pages
Probability and Data Analysis Programs
No ratings yet
Probability and Data Analysis Programs
10 pages
Random Forest
No ratings yet
Random Forest
3 pages
I Avaliação Parcial - 25.0 PTS - Gabarito
No ratings yet
I Avaliação Parcial - 25.0 PTS - Gabarito
9 pages
23bet10114 Naman Gupta Assignment 3
No ratings yet
23bet10114 Naman Gupta Assignment 3
6 pages
23BCE7092 ML Lab Assignment
No ratings yet
23BCE7092 ML Lab Assignment
14 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Data Mining Practicals
No ratings yet
Data Mining Practicals
22 pages
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of CATBOOST ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
9 pages
Session 13
No ratings yet
Session 13
15 pages
Anomaly Detection with PCA and Random Forest
No ratings yet
Anomaly Detection with PCA and Random Forest
5 pages
Classification Techniques in Python
No ratings yet
Classification Techniques in Python
30 pages
Openlab 1
No ratings yet
Openlab 1
17 pages
Machine Learning Concepts and Techniques
No ratings yet
Machine Learning Concepts and Techniques
3 pages
Cloud Computing NOTES PDF
No ratings yet
Cloud Computing NOTES PDF
12 pages
Cloud Architecture and Computing Overview
No ratings yet
Cloud Architecture and Computing Overview
13 pages
Cloud Computing Unit 4
No ratings yet
Cloud Computing Unit 4
11 pages
Cloud Computing Unit 1
No ratings yet
Cloud Computing Unit 1
7 pages
Cloud Computing Fundamentals Explained
No ratings yet
Cloud Computing Fundamentals Explained
10 pages
3rd Quarter Exam-English 4 - Final
No ratings yet
3rd Quarter Exam-English 4 - Final
9 pages
3 RD MUSLIMChapterall
100% (1)
3 RD MUSLIMChapterall
146 pages
Thesis On Visual Impairment
33% (3)
Thesis On Visual Impairment
112 pages
Skills Development: Writing Formal Emails: Read The Instructions Carefully and Write Your Answer in The Green Box Below
No ratings yet
Skills Development: Writing Formal Emails: Read The Instructions Carefully and Write Your Answer in The Green Box Below
1 page
Personal Development Plan Guide
No ratings yet
Personal Development Plan Guide
4 pages
CV - Bozidar Ignjatovic v2
No ratings yet
CV - Bozidar Ignjatovic v2
2 pages
Collins Get Ready For Ielts Reading (Dragged)
60% (5)
Collins Get Ready For Ielts Reading (Dragged)
2 pages
"Construction Dynamic Project: Government Engineering College Talakal, Koppal-583238
No ratings yet
"Construction Dynamic Project: Government Engineering College Talakal, Koppal-583238
15 pages
Visual, Audio, Reading, and Kinesthetic Learning Study
No ratings yet
Visual, Audio, Reading, and Kinesthetic Learning Study
33 pages
Daily Science Lesson Plans Overview
No ratings yet
Daily Science Lesson Plans Overview
10 pages
Hempel On Scientific Understanding
No ratings yet
Hempel On Scientific Understanding
8 pages
Understanding Neurotransmission Basics
No ratings yet
Understanding Neurotransmission Basics
12 pages
Ss English f5 2010
No ratings yet
Ss English f5 2010
10 pages
Addressing Social Problems in Societies
No ratings yet
Addressing Social Problems in Societies
4 pages
Fulbright-Nehru Fellowships 2020-2021
No ratings yet
Fulbright-Nehru Fellowships 2020-2021
30 pages
FIN241 Course Syllabus Fall 24-25
No ratings yet
FIN241 Course Syllabus Fall 24-25
7 pages
SL 409 2023 00
No ratings yet
SL 409 2023 00
3 pages
Cultural Values, Emotional Intelligence, and Conflict Handling Styles - A Global Study
No ratings yet
Cultural Values, Emotional Intelligence, and Conflict Handling Styles - A Global Study
18 pages
Sat Test 4
100% (1)
Sat Test 4
58 pages
Youth Satisfaction with SK Services in Cagayan
No ratings yet
Youth Satisfaction with SK Services in Cagayan
9 pages
5
No ratings yet
5
1 page
DLL Week 8
No ratings yet
DLL Week 8
5 pages
CDS - 2023-2024-Barnard College - 0
No ratings yet
CDS - 2023-2024-Barnard College - 0
42 pages
Audiolingual Method
No ratings yet
Audiolingual Method
13 pages
FireMon For Juniper
No ratings yet
FireMon For Juniper
2 pages
The Rorschach Test
100% (1)
The Rorschach Test
19 pages
English For Academic Purposes 1
No ratings yet
English For Academic Purposes 1
20 pages
English Literature PE3 MCQ
100% (1)
English Literature PE3 MCQ
15 pages
Writing For Publication in English Among Doctoral Students
No ratings yet
Writing For Publication in English Among Doctoral Students
14 pages
FET Timetable Mid-Year Exam 2025
No ratings yet
FET Timetable Mid-Year Exam 2025
3 pages