Seputar Data MiningBanyak sekali definisi mengenai apa itu data mining. Data mining merupan
suatu alat yang memungkinkan para pengguna untuk mengakses secara cepat data
dengan jumlah yang besar. Pengertian yang lebih khusus dari data mining, yaitu
suatu alat dan aplikasi menggunakan analisis statistik pada data. Data mining
adalah suatu proses ekstraksi atau penggalian data dan informasi yang besar,
yang belum diketahui sebelumnya, namun dapat dipahamidan berguna dari database
yang besar serta digunakan untuk membuat suatu keputusanbisnis yang sangat
penting. Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan
untuk menemukan pola-pola yang tidak diketahui pada data yang telah
dikumpulkan. Data mining memungkinkan pemakai menemukan pengetahuan dalam data
database yang tidak mungkin diketahui keberadaanya oleh pemakai. Data mining adalah proses semi otomatik yang menggunakan teknik
statistik, matematika, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna
yang tersimpan di dalam database besar. (Turban et al, 2005 ). Data mining adalah bagian dari proses KDD (Knowledge Discovery in
Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra
pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last,
2000). KDD secara umum juga dikenal sebagai pangkalan data.
Fungsi Data mining Data Mining mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang
di sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola
atau anomali-anomali data. Data Mining mempunyai 5 fungsi: 1.
Classification Classification,
yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:
pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang
lain. 2.
Clustering Clustering,
yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau
produk-produk yang mempunyai karakteristik khusus(clustering berbeda dengan
classification, dimana pada clustering tidak terdapat definisi-definisi
karakteristik awak yang di berikan pada waktu classification.)
3.
Association Association,
yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada
suatu waktu, seperti isi-isi dari keranjang belanja.
4.
Sequencing Hampir sama
dengan association, sequencing mengidentifikasikan hubungan-hubungan yang
berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan yang
mengunjungi supermarket secara berulang-ulang.
5.
Forecasting Forecasting
memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan
sekumpulan data yang besar, seperti peramalan permintaan pasar.
Tujuan Data Mining Tujuan data mining antara lain: 6.
Explanatory 7.
Untuk
menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick up
meningkat di colorado.
1.
Confirmatory Untuk
mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka di
pakai untuk membeli peralatan keluarga, di bandingkan dengan satu kali
pendapatan keluarga. 2.
Exploratory Menganalisis
data untuk hubungan yang baru yang tidak di harapkan, seperti halnya pola apa
yang cocok untuk kasus penggelapan kartu kredit. 3.
Contoh Data
Mining Dalam bidang
apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan
data mining: 4.
Telekomunikasi Sebuah
perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara
manual. 5.
Keuangan Financial Crimes
Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining
untuk menambang triliyunan dari berbagai subyek seperti property, rekening bank
dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan
yang mencurigakan (Seperti money laundry). 6.
Asuransi Australian
Health Insurance Commision menggunakan data mining untuk mengidentifikasi
layanan lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh
peserta asuransi. 7.
Olahraga IBM Advanced
Scout menggunakan data mining untuk menganalisis statistik permainan NBA (
jumlah shots blocked, assists dan fouls ) dalam rangka mencapai keunggulan
bersaing ( competitive advantage ) untuk tim New York Knicks dan Miami Heat. Metode Data Mining Sebagai salah satu bagian dari sistem informasi, data mining menyediakan
perencanaan dari ide hingga implementasi akhir. Komponen-komponen dari rencana
data mining adalah sebagai berikut: 1.
Analisa Masalah
(Analyzing the Problem) Data asal atau
data sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi
kriteria data mining.
Kualitas kelimpahan data adalah faktor utama untuk memutuskan apakah data
tersebut cocok dan tersedia sebagau tambahan. Hasil yang diharapkan dari dampak
data mining harus dengan hati-hati dimengerti dan dipastikan bahwa data yang
diperlukan membawa informasi yang bisa diekstrak. 2. Mengekstrak dan Membersihkan Data (Extracting dan
Cleansing The Data) Data pertama kli diekstrak dari data aslinya, seperti dari OLTP basis data,
text file, Microsoft Acces Database, dan bahkan dari spreadsheet, lalu data
tersebut diletakan dalam data warehouse yang mempunyai sruktur yang sesuai
dengan data model secara khas. Data Transformation Service (DTS) dipakai untuk
mengekstrak dan membersihkan data dari tidak konsistennya dan tidak
kompatibelnya dengan format yang sesuai. 3. Validitas Data (Validating the Data) Sekali data telah diekstrak dan dibersihkan, ini
adalh latihan yang bagus untuk menelusuri model yang telah kita ciptakan untuk
memastikan bahwa semua data yang ada adalah data sekarang dan tetap.
4. Membuat dan Melatih Model (Creatig and Training the
Model) Ketika algoritma diterapkan pada model, struktur
telah dibangun. Hal ini sangatlah penting pada saat ini untuk melihat data yang telah dibangun untuk
memastikan bahwa data tersebut
menyerupai fakta di dalam data sumber. 5. Query Data dari Model Data Mining (Querying the
Model Data) Ketika model yang telah cocok diciptakan dan
dibangun, data yang telah dibuat tersedia untuk mendukung keputusan. Hal ini
biasanya melibatkan penulisan front end query aplikasi dengan program
aplikasi/suatu program basis data. 6. Evaluasi Validitaas dari Mining Model (Maintaining
the Validity of the Data Mining Model) Setelah moddel data mining terkumpul, lewat bebrapa
waktu, karakteristik data awal seperti granularitas dan validitas mungkin
berubah. Karena model data mining dapat terus berubah seiring perkembangan
waktu.
Proses Data Mining Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau
informasi yang telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan
berikut:
1.
Data Cleansing,
juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana data-data
tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi data,
sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang
untuk penggalian pengetahuan(discovery knowledge) 2.
Data
Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data
yang berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber. 3.
Data Selection,
pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan
diterima dari koleksi data yang ada. 4.
Data
Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana
data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang
cocok untuk prosedur penggalian (meaning proedure) dengan cara melakukan
normalisasi dan agregasi data. 5.
Data Mining,
tahap ini adalah tahap yang paling penting, dengan menggunakan teknik-teknik
yang diaplikasikan untuk mengekstrak pola-pola potensial yang berguna. 6.
Pattern
Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan
pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan. 7.
Knowledge
Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah
ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan
teknik visualisasi untuk membantu user dalam mengerti dan
menginterpresentasikan hasil dari data mining. Teknik Data Mining Sebelum mengetahui teknik-teknik yang dapat digunakan dalam data mining
terdapat empat operasi yang dapat dihubungkan dengan data mining sebagai
berikut.
1.
Predictive
modelin ada dua teknik yang dapat
dilakukan dalam predictive modeling yaitu: a.
Classification Digunakan untuk membuat dugaan awal tentang class
yang spesifik untuk setiap record dalam database dari satu setnilai class yang
mungkin. b.
Value Prediction Digunakan untuk memperkirakan nilai numeric yang
kontinu yang trasosiasi dengan record database. Teknik ini menggunakan teknik statistic
klasik dari linier regression dan nonlinier regression.
2.
Database
segmentation Tujuan dabase segmentation
adalah untuk mempartisi database menjadi sejumlah segmen, cluster, atau record
yang sama, dimana record tersebut diharapkan homogen. 3.
Link analysis Tujuan link analysis adalah
untuk membuat hubungan antara record yang individual atau sekumpulan record
dalam database. Aplikasi pada link analysis meliputi product affinity analysis,
direct marketing, dan stock price movement. 4.
Deviation
detection Teknik ini sering kali
merupakan sumber dari penemuan yang benar karena teknik ini mengidentifikasi
outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui
sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan
visualisasi.
Aplikasi deviation detection misalnya pada deteksi penipuan dalam
penggunaan kartu kredit dan klaim asuransi, quality control, dan defect
tracing.
Jenis-Jenis Data Mining Berikut ini terdapat beberapa jenis-jenis data mining, terdiri atas:
1.
Market Basket
Analysis Himpunan data yang dijadikan
sebagai objek penelitan pada area data mining. Market basket analysis adalah
proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang
akan dibeli ke dalam keranjang belanjaannya. Market basket analysis
memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan
pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola yang
ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran
yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan
ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog,
merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu),
merancang penjualan item-item dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi
data mining, analisis data secara manual tidak diperlukan lagi. 2.
Memory-Based
Reasoning Metode klasifikasi yang
digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data
untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang
objek baru yang diperkenalkan. Ada dua komponen dasar untuk
metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota
yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi
kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan tetangga
untuk sampai pada keputusan. 3.
Cluster
Detection Ada dua pendekatan untuk
clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah
cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke
dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi
keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item
keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya
untuk menggabungkan cluster, meskipun proses komputasi sama.
4.
Link Analysis Proses mencari dan membangun
hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait
dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi
analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu
Link Analysis berguna untuk proses optimasi. 5.
Rule Induction Ekstraksi aturan sebab-akibat
dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam
data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses
penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon
keputusan. 6.
Neural Networks
Model prediksi non linear
yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan
nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data
yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola
dan mendeteksi tren-tren yang sangat kompleks untuk dibicarakan baik oleh
manusia maupun teknik komputer lainnya. |