Data Mining Dan Bigdata
Data Mining Dan Bigdata
• Supervised vs unsupervised
• Software
•
APA ITU DATA MINING
6
DATA MINING: CONFLUENCE OF MULTIPLE DISCIPLINES
Machine Statistics
Learning
Visualization
Data Mining
Database
Technology
High-Performance
Computing
7
SUPERVISED VS UNSUPERVISED
Supervised Unsupervised
• Dimulai dengan membangun model berdasarkan • Digunakan untuk mempelajari data yang tidak
training dataset yang sudah diketahui lable atau ada labelnya atau kelasnya.
kelasnya
• Mempelajari bagaimana data atau obyek bisa
• model dipakai untuk memprediksi label atau kelas dikelompokkan ke beberapa kelompok tanpa
dari data baru ada contoh kelompok sebelumnya
• Ada tahap training, ada tahap validasi dan testing • Tidak ada tahap training
• SVM, ANN, LDA, regresi logistik • Mis Klastering, Self Organizing Map
Semi-supervised learning
Menggunakan data berlabel dan data tidak berlabel untuk training,
biasanya sedikit yang berlabel dan banyak yang tidak berlabel
Mis KNN
APLIKASI DATA MINING
Customer segmentation
Warranties Manufaktur Frequent Flier incentives
Industri bisa
memanfaatkan DM • Perusahaan bisa melakukan • Airlines bisa
Perusahaan perlu customize produk-produk mengidentifikasi kelmppok
Web page analysis untuk menemukan memprediksi jumlah untuk customer , sehingga customer yang bisa diberi
Web page classification, segemen-segmen customer yang akan mereka perlu memprediksi insentif untuk terbang lebih
clustering customer dengan mengajukan klaim garansi fitur-fitur yang harus sering
mempertimbangkan dan rata-rata ongkos dimasukkan ke dalam produ
variabel tambahan di garansinya untuk memenuhi keinginan
luar yang biasa dipakai customer
APLIKASI DATA MINING
SOFTWARE
• Clementine
• WEKA (waikato University)
• KNIME
• R-Programming
• NLTK
• ORANGE
• Rapidminer
• Matlab
DATA MINING TASKS
X1 X1 X1
k-means Linear Discriminant Analysis, QDA Classical Linear Regression
Hierachical Cluster Logistic Regression (Logit) Ridge Regression
SOM
Decision Trees, LSSVM, NN, VS NN, CART
KLASIFIKASI
Classification
Algorithms
Training
Data
Classifier
Testing
Data Unseen Data
(Jeff, Professor, 4)
NAME RANK YEARS TENURED
T om A ssistant P rof 2 no Tenured?
M erlisa A ssociate P rof 7 no
G eorge P rofessor 5 yes
Joseph A ssistant P rof 7 yes
DECISION TREE
age income student credit_rating buys_computer
<=30 high no fair no
Training data set: Buys_computer <=30 high no excellent no
Resulting tree: 31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
age? <=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
<=30 overcast
31..40 >40 31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
no yes yes
DISCRIMINANT FUNCTION
• Sembarang fungsi x, sedemikian hingga:
g ( x) w T x b
K-nearest neighbor menggunakan euclidian untuk menentukan
anggota kelas.
ANALISIS KLASTER
19
BASIC CONCEPTS: ASSOCIATION RULES
Occam Razor : when you have two competing theories that make
exactly the same predictions, the simpler one is the better.
BIG DATA
• Software, platform big data analytics : Apache Hadoop, Apache Spark, Storm, Samza (framework)
• Hardware, big data analitycs memerlukan sistem klaster komputer, komputer terhubung dalam sebuah
jaringan, ada master (kepala/otaknya) dan slave (unit-unit pekerjanya).
• Klaster komputer dapat kita bangun sendiri, atau menyewa ke penyedia platform cloud computing
seperti AWS (Amazon Web Service) dan Microsoft Azure.
• Framework big data analytics memiliki kemampuan untuk manajemen resource, data parallelisms,
parallel programming dan distributed computing.
• Memungkinkan membuat dan menjalankan code/program kita di sistem klaster komputer, program kita
menjadi jauh lebih powerful dan cepat dengan memanfaatkan semua resource komputer yang
terhubung dalam klaster.
mewakili +1
LARGE MARGIN LINEAR KLASIFIER
x
mewakili -1
• Formulasi: 2
Margin
2 x+
maximize
w
sehingga x+
For yi 1, w T xi b 1 n
x-
For yi 1, w T xi b 1
x1
mewakili +1
LARGE MARGIN LINEAR KLASIFIER
x
mewakili -1
2
Margin
• Formulasi:
1 x+
2
minimize w
2
sehingga x+
n
For yi 1, w T xi b 1 x-
For yi 1, w T xi b 1
x1
mewakili +1
mewakili -1
LARGE MARGIN LINEAR KLASIFIER
x
• Formulasi: 2
Margin
1 2 x+
minimize w
2
sehingga x+
yi (wT xi b) 1 n
x-
x1
SELESAIKAN PROBLEM
OPTIMASI
Quadratic 1 2
minimize w
programming 2
dengan linear
constraints
s.t. yi (wT xi b) 1
Lagrangian
Function
2 i 1
s.t. i 0
SELESAIKAN PROBLEM
OPTIMASI
minimize Lp (w, b, i ) w i yi (wT xi b) 1
n
1 2
2 i 1
s.t. i 0
Lagrangian Dual
Problem
n
1 n n
maximize i i j yi y j xTi x j
i 1 2 i 1 j 1
n
s.t. i 0 , dan y
i 1
i i 0
CLASSIFIER EVALUATION METRICS: CONFUSION
MATRIX
Confusion Matrix:
Actual class\Predicted class C1 ¬ C1
C1 True Positives (TP) False Negatives (FN)
¬ C1 False Positives (FP) True Negatives (TN)
• Deep learning adalah cara learning yang mempelajari features and tasks langsung dari data. Data bisa
berupa images, text, atau suara. Pemakaian deep learning meningkat selama 5tahun belakangan
karena:
• 1. Deep learning methods are now more accurate than people are at classifying images.
• 3. Large amounts of labeled data required for deep learning has become accessible over the last few
years.
Convolutional Neural Network
CONTOH APLIKASI