Data
MiningPengertian Data Mining Data mining adalah suatu istilah yang digunakan untuk menemukan
pengetahuan yang tersembunyi di dalam database. Tugas data mining sebenarnya adalah analisis otomatis atau semi-otomatis
jumlah besar data untuk mengekstrak pola yang menarik yang sebelumnya tidak
diketahui seperti kelompok catatan data (analisis cluster), catatan yang tidak
biasa (deteksi anomali) dan dependensi (aturan asosiasi pertambangan). Hal ini
biasanya melibatkan menggunakan teknik database seperti indeks spasial. Pola ini kemudian dapat dilihat sebagai semacam ringkasan dari input
data, dan dapat digunakan dalam analisis lebih lanjut atau, misalnya, dalam
pembelajaran mesin dan analisis prediktif. Misalnya, langkah data mining
mungkin mengidentifikasi beberapa kelompok dalam data, yang kemudian dapat
digunakan untuk memperoleh hasil prediksi yang lebih akurat oleh sistem
pendukung keputusan. Baik pengumpulan data, penyusunan data, atau interpretasi
hasil dan pelaporan merupakan bagian dari langkah data mining, tetapi milik
proses KDD secara keseluruhan sebagai langkah-langkah tambahan.
Pengertian Data Mining Menurut Para Ahli Berikut ini
terdapat beberapa pengertian data mining menurut para ahli, terdiri atas: 1. Pramudiono (2006) Mengemukakan bahwa
pengertian data mining adalah adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak
diketahui secara manual. 2. Larose Data mining adalah bidang
yang digabung dari beberapa bidang keilmuan yang menyatukan teknik dari
pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk
pengenalan permasalahan pengambilan informasi dari database yang besar. 3. Jiawei Data mining merupakan
pemilihan atau “menambang” pengetahuan dari jumlah data yang banyak. 4. Berry Data mining adalah aktivitas
mengeksplorasi dan menganalisis data jumlah yang besar untuk menemukan pattern
(pola) dan rule (aturan) yang berarti. 5. Hoffer dan McFadden Mengemukakan bahwa pengertian data mining adalah penemuan pengetahuan
dengan menggunakan teknik-teknik yang tergabung dari statistik, tradisional,
kecerdasan dan grafik komputer. 6. Turban, dkk (2005) Data mining adalah proses
yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait berbagai database besar.
Wikipedia Data mining adalah ekstraksi pola yang menarik dari data dalam jumlah
besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele,
implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah
mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian
tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi
eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola,
arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data
diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh
dari sistem basis data perusahaan, e-commerce, data saham, dan data
bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan. Sejarah Data Mining Data mining muncul sekitar tahun 90-an. Data Mining memang salah satu
cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih
memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data
mining menyangkut database, kecerdasan buatan (artificial intelligence),
statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau
analisa statistik yang berjalan di atas
database. Namun pihak lain berpendapat bahwa database
berperanan penting di data mining karena data mining mengakses data yang
ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting
database terutama dalam optimisasi query-nya. Kehadiran data mining dilatarbelakangi dengan problema data explosion
yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data
sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua data tersebut dimasukkan dengan menggunakan aplikasi
komputer yang digunakan untuk menangani
transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang
dimasukkan oleh hypermarket semacam Carrefour atau transaksi kartu kredit
dari sebuah bank dalam seharinya dan
bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung,
tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari
‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak
diantara kita yang kebanjiran data tapi miskin informasi. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang
tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh
para pelaku bisnis karena terletak di luar ekspektasi mereka. Sementara para
pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang
sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi
baru yang menjawab kebutuhan ini, yaitu data mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh
perusahaan-perusahaan untuk memecahkan berbagai permasalahan bisnis. Kebutuhan
dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah
mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai
bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan
tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut
data mining ini. Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga
diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar
seperti bioinformasi dan pertahanan negara.
Jenis-Jenis Data
Mining Berikut ini
terdapat beberapa jenis-jenis data mining, terdiri atas: 1. Market Basket Analysis Himpunan data yang dijadikan
sebagai objek penelitan pada area data mining. Market basket analysis adalah proses
untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan
dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan
data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa
item-item yang cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola yang
ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran
yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan
ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog,
merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item
tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi
data mining, analisis data secara manual tidak diperlukan lagi. 2. Memory-Based Reasoning Metode klasifikasi yang
digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data
untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang
objek baru yang diperkenalkan. Ada dua komponen dasar untuk
metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana
anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah
fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan
tetangga untuk sampai pada keputusan. 3. Cluster Detection Ada dua pendekatan untuk
clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah
cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke
dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi
keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item
keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya
untuk menggabungkan cluster, meskipun proses komputasi sama. 4. Link Analysis Proses mencari dan membangun
hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait
dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi
analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu
Link Analysis berguna untuk proses optimasi. 5. Rule Induction Ekstraksi aturan
sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang
tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang
digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan
adalah menggunakan pohon keputusan. 6. Neural Networks Model prediksi non linear
yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan
nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data
yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola
dan mendeteksi tren-tren yang sangat kompleks untuk dibicarakan baik oleh
manusia maupun teknik komputer lainnya. 7. Metode Data Mining Berikut ini terdapat
beberapa metode data mining, terdiri atas: a.
Classification Classification adalah metode
yang paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan
Risk Management biasanya melibatkan metode Classification. Classification adalah
tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi
sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh
untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai
fungsi dari input attribute. b.
Classification Class adalah attribute
CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini. Sebuah Classification Model akan menggunakan atribut
lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome,
dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output
Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data Mining yang
membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang
berlaku pada data tersebut) kita standarkan dengan sebuthan dengan Supervised
Algorithm. Nah, yang termasuk kepada
Classification Algorithm adalah Decision Trees, Neural Network dan Naives
Bayes.
Clustering Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment
berdasarkan kedua atribut ini. 1. Cluster 1 berisi populasi berusia muda dengan
pendapatan rendah 2. Cluster 2 berisi populasi berusia menengah dengan
pendapatan yang lebih tinggi 3. Cluster 3 berisi populasi berusia tua dengan
pendapatan yang relatif rendah. 4. Clustering adalah metode data mining yang
Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu
proses pembelajaran, jadi seluruh atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun sebuah model melalui
serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau
berkumpul (batasan dari segmentasi ini telah stabil).
Association Association juga disebut sebagai Market Basket Analysis. Sebuah problem
bisnis yang khas adalah menganalisa tabel transaksi penjualan dang
mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer,
misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap.
Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok
kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan
cross-selling seperti gambar dibawah ini.
Association Anda bisa lihat
disini, beberapa hal dapat kita baca, misalnya : Ketika orang
membeli susu, dia biasanya membeli keju Ketika orang
membeli pepsi atau coke, biasanya dia membeli juice Didalam istilah
association, setiap item dipertimbangkan sebagai informasi. Metode
association memiliki dua tujuan: 1. Untuk mencari produk apa yang biasanya terjual
bersamaan 2. Untuk mencari tahu apa aturan yang menyebabkan
kesamaan tersebut.
Regression Metode Regression mirip dengan metode Classification, yang membedakannya
adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class
(kelas). Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai
numerik. Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari
Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang
berdasarkan nilai dari input. Bentuk yang lebih canggih dari regression sudah mendukung input berupa
kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang
digunakan untuk regression adalah linear regression dan logistic regression.
Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees
(bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network. Regression digunakan untuk memecahkan banyak problem bisnis – contohnya
untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan
kelembaban.
Forecasting Forecasting juga
adalah metode data mining yang sangat penting. Contohnya digunakan untuk
menjawab pertanyaan seperti berikut:
Seperti apa
jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan
sebagai MSFT) pada keesokan hari? Sebanyak apa
penjualan produk tertentu pada bulan depan? Teknik
Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai
inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan
nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan
menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik
machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan
noise pada data.
Forecasting Gambar diatas
menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya dari
nilai saham Microsoft, dan garis putus-putus adalah time series model yang
memprediksi nilai saham berdasarkan nilai saham pada masa lalu.
Sequence
Analysis Sequence Anlysis
digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan
Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan
T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian
nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence
(rangkaian) data, rangkaian tersebut adalah: 1. Pertama-tama Seorang pelanggan membeli komputer 2. kemudian membeli speaker 3. dan akhirnya membeli sebuah webcam. Baik Sequence
maupun time-series data mempunyai kemiripan, mereka sama sama berisi tinjauan
berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi
data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.
Deviation
Analysis Deviation
Analysis digunakan untuk mencari kasus yang bertindak sangat berbeda dari
normalnya. Deviation analysis pengguaannya sangat luas, yang paling umum
menggunakan metode ini adalah pendeteksian penyalah gunaan Kartu kredit.
Mengidentifikasi kasus yang tidak normal diantara jutaan transaksi adalah
pekerjaan yang sangat menantang. Penggunaan yang lainnya misalnya, pendeteksian
gangguan jaringan komputer, analisa kesalahan produksi, dan lain-lain. Tidak ada teknik
standar dalam deviation analysis. Hanya saja biasanya para analis menggunakan
decision trees, clustering atau neural network untuk pekerjaan ini.
Langkah-Langkah
dalam Data Mining Berikut ini
terdapat beberapa langkah-langkah dalam data mining, terdiri atas: 1. Pembersihan data : Biasanya terdapat data yang
kurang bagus untuk dimasukkan dalam kelengkapan data perusahaan karena hanya
akan dianggap tidak valid bahkan untuk data yang hilang. Sehingga data yang
seperti itu lebih baik dibuang. 2. Integrasi data : yaitu menggabungkan berbagai sumber
data. 3. Transformasi data : Beberapa teknik data mining
memerlukan format data yang khusus sebelum bisa digunakan dan disebarluaskan.
Dalam tahap ini, dilakukan pula pemilihan data yang dibutuhkan oleh teknik data
mining yang akan dipakai. Tahap inilah yang akan menentukan kualitas dari data
mining. 4. Aplikasi teknik data mining : Ini merupakan salah
satu langkah dari proses data mining. Gunakan teknik data mining yang sesuai
dengan hasil yang dibutuhkan. 5. Evaluasi pola yang ditemukan: Dalam tahap ini hasil
dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesis yang ada memang tercapai. 6. Presentasi pola : Tahap terakhir dari proses data
mining adalah bagaimana formulasi keputusan atau aksi dari hasil analisis dari
data mining. Dalam presentasi ini, visualisasi juga dapat membantu
mengkomunikasikan hasil data mining atau pola ke pengguna.
Teknik
Penggalian Data (Data Mining) Pada dasarnya
penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan
prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering
digunakan:
1. Karakterisasi dan Diskriminasi: yaitu
menggeneralisasi, merangkum, dan mengkontraskan karakteristik data. 2. Penggalian pola berulang: yaitu pencarian pola
asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang
terjadi dalam satu kali transaksi. 3. Klasifikasi: yaitu membangun suatu model yang bisa
mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah
tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari
data yang ada agar klasifikator bisa mengklasifikasikan sendiri. 4. Prediksi: yaitu memprediksi nilai yang tidak
diketahui atau nilai yang hilang, menggunakan model dari klasifikasi. 5. Penggugusan/Cluster analysis: yaitu mengelompokkan
sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia
dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan
intrakelas dan meminimalkan kemiripan antarkelas. 6. Analisis outlier: yaitu proses pengenalan data yang
tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise
dan pengecualian dalam data. 7. Analisis trend dan evolusi: meliputi analisis
regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis
berbasis kemiripan. Berikut ini
adalah 10 algoritma penggalian data yang paling populer berdasarkan konferensi
ICDM ’06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation
Award dan IEEE ICDM Research Contributions Award : 1. C4.5 (61 suara) 2. k-Means (60 suara) 3. SVM (58 suara) 4. Apriori (52 suara) 5. EM (48 suara) 6. PageRank (46 suara) 7. AdaBoost (45 suara) 8. kNN (45 suara) 9. Naive Bayes (34 suara) Berikut ini
adalah yang hanya masuk nominasi:
1. CART 2. FP-Tree 3. HITS 4. BIRCH 5. GSP 6. PrefixSpan 7. CBA 8. Finding Reduct 9. gSpan
Proses Data
Mining Enam fase
CRISP-DM ( Cross Industry Standard Process for Data Mining) (Larose, 2006),
terdiri atas:
1.
Fase Pemahaman
Bisnis (Business Understanding Phase) a.
Penentuan tujuan
proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian
secara keseluruhan. b.
Menerjemahkan
tujuan dan batasan menjadi formula dari permasalahan data mining. c.
Menyiapkan
strategi awal untuk mencapai tujuan. 2.
Fase Pemahaman
Data (Data Understanding Phase) a.
Mengumpulkan
data. b.
Menggunakan
analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian
pengetahuan awal. c.
Mengevaluasi
kualitas data. d.
Jika diinginkan,
pilih sebagian kecil kelompok data yang mungkin mengandung pola dari
permasalahan 3.
Fase Pengolahan
Data (Data Preparation Phase) a.
Siapkan dari
data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya.
Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b.
Pilih kasus dan
variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c.
Lakukan
perubahan pada beberapa variabel jika dibutuhkan. d.
Siapkan data
awal sehingga siap untuk perangkat pemodelan. 4.
Fase Pemodelan
(Modeling Phase) a.
Pilih dan
aplikasikan teknik pemodelan yang sesuai. b.
Kalibrasi aturan
model untuk mengoptimalkan hasil. c.
Perlu
diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan
data mining yang sama. d.
Jika diperlukan,
proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam
bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5.
Fase Evaluasi
(Evaluation Phase) a.
Mengevaluasi
satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan
kualitas dan efektivitas sebelum disebarkan untuk digunakan. b.
Menetapkan
apakah terdapat model yang memenuhi tujuan pada fase awal. c.
Menentukan
apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak
tertangani dengan baik. d.
Mengambil
keputusan berkaitan dengan penggunaan hasil dari data mining. 6.
Fase Penyebaran
(Deployment Phase) a.
Menggunakan
model yang dihasilkan. Terbentuknya model tidak menandakan telah
terselesaikannya proyek. b.
Contoh sederhana
penyebaran: Pembuatan laporan. c.
Contoh kompleks
Penyebaran: Penerapan proses data mining secara paralel pada departemen lain.
Contoh Data
Mining Penggunaan data
mining dalam kehidupan sehari-hari: 1. Dalam bidang kesehatan Sekarang ini sistem
informasi rumah sakit mulai menerapkan sistem informasi berbasis komputer untuk
mendukung manajemen keuangan, khususnya dipakai untuk billing systems (sistem
pembayaran). 2. Dalam bidang perkantoran Sebagai alat absen sidik jari (finger print). 3. Dalam bidang olahraga Sebagai sensor atau alat untuk mencatat jumlah
statistik pada statistik sepak bola, basket, tenis, voli, dll. 4. Dalam bidang telekomunikasi
Sebagai sarana statistik untuk mencatat kepadatan
jumlah penelepon di jam tertentu (jam sibuk / bukan) sehingga operator dapat
memberikan tarif tertentu bagi pelanggan. |