Data Warehouse
Gudang Data (bahasa Inggris: data warehouse) adalah sebuah sistem
komputer untuk mengarsipkan dan menganalisis data historis suatu organisasi
seperti data penjualan, gaji, dan informasi lain dari operasi sehari-hari.
Secara umum, sebuah organisasi menyalin informasi dari sistem operasional
seperti penjualan dan SDM ke gudang data menurut jadwal teratur, misalnya
setiap malam atau setiap akhir pekan. Setelah itu, manajemen dapat melakukan query kompleks dan analisis
(misalnya, penambangan data, data mining) terhadap informasi tersebut tanpa
membebani sistem operasional.
Pengertian Data Warehouse Menurut Para
Ahli Memahami Data Warehouse dapat bervariasi tetapi memiliki inti yang sama,
beberapa pengertian dari para ahli berikut : 1. Menurut W.H. Inmon dan Richard DH Data warehouse adalah
kumpulan data yang memiliki sifat subjek berorientasi, terpadu, waktu-varian,
dan tetap pada pengumpulan data untuk mendukung proses pengambilan keputusan
manajemen. 2. Menurut Vidette Poe Data warehouse adalah
database yang read-only analisis dan digunakan sebagai dasar sistem pendukung
keputusan. 3. Menurut Paul Lane Data warehouse merupakan
database relasional yang dirancang lebih untuk query dan analisis proses
transaksi, biasanya mengandung sejarah data transaksi dan mungkin juga data
dari sumber lain. Data warehouse memisahkan beban kerja analisis dari beban
kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi
data dari berbagai sumber. 4. Menurut Ramelho Data warehouse merupakan
pendekatan untuk menyimpan data dimana sumber data yang heterogen (yang
biasanya tersebar di beberapa basis data OLTP) bermigrasi ke penyimpanan data
dan terpisah homogen. 5. Menurut Usama Fayyad (1996) Pengguna menerapkan
keahliannya dalam hal masalah, dan komputer melakukan analisis data yang
canggih untuk memilih data yang tepat dan menempatkannya dalam format yang sesuai
untuk pengambilan keputusan.
Dengan demikian, data warehouse merupakan metode dalam perancangan
database, yang menunjang DSS (Decision Support System) dan EIS (Executive
Information System). Secara fisik, data warehouse adalah database, tapi perancangan
data warehouse dan database sangat berbeda. Dalam desain database tradisional
menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara
terbaik. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi
dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari
berbagai sumber. Dengan demikian, data warehouse merupakan metode dalam
perancangan database, yang Mengacu DSS (Decision Support System) dan EIS
(Executive Information System). Secara fisik, data warehouse adalah database, akan tetapi deasin data
warehouse dan database sangat berbeda. Dalam desain database tradisional
menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara
terbaik. Karakteristik Data Warehouse Sistem basis data ini memiliki karakteristik yang membuatnya berbeda dari
database lain. Ada empat karakteristik yang menjadi ciri khas database ini, yaitu:
1. Berorientasi kepada subjek (subjek-oriented) Artinya data warehouse
berorientasi subjek dirancang untuk
menganalisis data berdasarkan subjek-subjek tertentu dalam organisasi, bukan
pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan
disekitar subjek-subjek utama dari perusahaan seperti (pelanggan, produk dan
penjualan) dan tidak terorganisir dalam area aplikasi utama (customer faktur,
kontrol stok dan penjualan produk). Hal ini karena kebutuhan
data warehouse untuk menyimpan data yang mendukung keputusan, daripada aplikasi
berorientasi data. Jadi dengan kata lain, data yang disimpan tidak berorientasi
pada subjek proses. 2. Data yang dimiliki terintegrasi (Data Integrated) Data Warehouse dapat
menyimpan data dari sumber yang terpisah ke dalam format yang konsisten dan
terintegrasi satu sama lain. Dengan demikian, data tidak dapat rusak karena
data merupakan entitas yang mendukung konsep keseluruhan data warehouse itu
sendiri. Syarat integrasi sumber data
dapat dipenuhi dengan berbagai cara peti konsisten dalam penamaan variabel,
konsisten dalam variabel ukuran, konsisten dalam coding dan struktur yang
konsisten dalam atribut fisik dari data. Contoh lingkungan
operasional ada banyak aplikasi yang juga dapat dilakukan oleh pengembang yang
berbeda. Oleh karena itu, mungkin dalam aplikasi ini terdapat variabel yang
memiliki tujuan yang sama tetapi nama dan format yang berbeda. Variabel ini harus
dikonversi ke nama yang sama dan format yang telah disepakati. Dengan demikian
tidak ada kebingungan karena perbedaan nama, format, dan sebagainya. Kemudian
data dapat dikategorikan sebagai data yang terintegrasi karena
kekonsistenannya. 3. Dibuat dalam rentang waktu tertentu (Timeline) Semua data dalam data
warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk
melihat interval waktu yang digunakan untuk mengukur keakuratan data warehouse,
kita dapat menggunakan cara berikut :
a.
Cara termudah
adalah untuk menyajikan data warehouse pada rentang waktu tertentu, misalnya,
antara 5 sampai 10 tahun ke depan. b.
Cara kedua,
dengan menggunakan variasi perbedaan waktu / disajikan dalam data warehouse
adalah baik secara implisit maupun eksplisit, eksplisit dengan unsur waktu
dalam sehari, seminggu, sebulan dll Secara implisit misalnya, saat data
diduplikasi pada setiap akhir bulan, atau kuartalan. Unsur waktu akan tetap
tersirat dalam data. c.
Cara ketiga,
variasi waktu dari data warehouse yang disajikan melalui serangkaian foto-foto
yang lama. Snapshot adalah pandangan sebagian besar data yang spesifik yang
sesuai keinginan pengguna dari semua data yang ada adalah read-only. 4. Data yang disimpan bersifat tetap (Non-Volatile) Karakteristik keempat dari
data warehouse adalah non-volatile, artinya data dalam gudang data tidak
diperbarui secara real time tetapi dalam refresh sistem operasi secara teratur.
Data baru yang ditambahkan sebagai suplemen untuk database itu sendiri bukan
sebagai perubahan. Database ini terus menyerap
data baru, maka secara bertahap bersama-sama dengan data sebelumnya. Berbeda
dengan database operasional yang dapat melakukan update, insert, dan menghapus
data yang mengubah isi dari database data warehouse, sementara hanya ada dua
peristiwa untuk memanipulasi data yang memuat data (mengambil data) dan akses
data (akses ke gudang data seperti melakukan query atau menampilkan laporan
yang diperlukan, tidak ada aktivitas memperbarui data).
Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber
data yang heterogen (yang biasanya tersebar di beberapa basis data OLTP)
bermigrasi ke penyimpanan data dan terpisah homogen. Keuntungan yang diperoleh
dengan menggunakan data warehouse berikut (Ramelho). Sedangkan kombinasi data mining dan verifikasi penemuan adalah
pengembangan dari data mining di masa depan akan menggabungkan hipotesis dan
penemuan pendekatan. Perkembangan ini menggunakan alasan yang sama yang mendasari konsep
Sistem Pendukung Keputusan (Decision Support System – DSS). Konsep ini
memungkinkan pengguna dan komputer bekerja sama untuk memecahkan masalah. Pengguna menerapkan keahliannya dalam hal masalah, dan komputer melakukan
analisis data yang canggih untuk memilih data yang tepat dan menempatkannya
dalam format yang sesuai untuk pengambilan keputusan. Menurut Usama Fayyad
(1996). Proses KDD (Knowledge Discovery in
Database) Proses KDD (Knowledge Discovery in Database) dapat secara luas
digambarkan sebagai berikut :
1.
Data Selection Kumpulan data operasional
Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian
informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses
data mining, disimpan dalam file terpisah dari database operasional. 2.
Pre-processing /
Cleaning Sebelum proses data mining
dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus
KDD. Proses pembersihan meliputi,
antara lain, menghilangkan duplikasi data, memeriksa inkonsistensi data, dan
memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga membuat proses
pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang
ada. 3.
Transformation Coding adalah proses
transformasi data yang telah, sehingga data tersebut sesuai untuk proses data
mining. Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam database 4.
Data mining Data mining adalah proses
mencari pola atau informasi menarik dalam data terpilih dengan menggunakan
teknik atau metode. Teknik, metode, algoritma didalam sebuah data mining sangat
varian. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan. 5.
Interpretation/
Evaluation Informasi Pola yang
dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah
dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari
proses KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada.
KDD proses garis terdiri dari lima tahap seperti yang dijelaskan
sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi atau
pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD, seorang
analis dapat kembali ke tahap sebelumnya. Sebagai contoh, pada saat proses coding atau data mining, analis
menyadari pembersihan tidak dilakukan dengan sempurna, atau mungkin analis
menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada. KDD mencakup seluruh proses mencari pola atau informasi dalam database,
mulai dari pemilihan dan penyusunan data ke representasi pola yang ditemukan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining
merupakan salah satu komponen dalam KDD difokuskan pada penggalian pola
tersembunyi dalam data base. Istilah yang Berhubungan dengan Data
Warehouse Istilah-istilah
yang berkaitan dengan data warehouse : 1.
Data Mart Adalah suatu
bagian pada data warehouse yang mendukung pembuatan laporan dan analisa data
pada suatu unit, bagian atau operasi pada suatu perusahaan. 2.
On-Line
Analytical Processing(OLAP) Merupakan suatu
pemrosesan database yang menggunakan tabel fakta dan dimensi untuk dapat
menampilkan berbagai macam bentuk laporan, analisis, query dari data yang
berukuran besar. 3.
On-Line
Transaction Processing(OLTP) Merupakan suatu
pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi
sehari-hari. 4.
Dimension Table Tabel yang
berisikan kategori dengan ringkasan data detail yang dapat dilaporkan. Seperti
laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang
berupa perbulan, perkwartal dan pertahun). 5.
Fact Table Merupakan tabel
yang umumnya mengandung angka dan data history dimana key (kunci) yang
dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci
asing) yang merupakan primary key (kunci utama) dari beberapa dimension table
yang berhubungan. 6.
DSS Merupkan sistem yang menyediakan informasi kepada
pengguna yang menjelaskan bagaimana sistem ini dapat menganalisa situasi dan
mendukung suatu keputusan yang baik.
Keuntungan Data Warehouse Berikut ini terdapat beberapa keuntungan data warehouse, terdiri atas: 1.
Potential high
returns on investment Suatu organisasi harus menjalankan sejumlah besar
sumberdaya untuk memastikan kesuksesan implementasi dari data warehouse dengan
biaya yang sangat variatif. Nilai investasi yang ditanamkan lebih cepat kembali
dengan menggunakan data warehouse. 2.
Competitive
advantage Keuntungan kompetitif dapat dicapai dengan
memungkinkannya akses pengambil keputusan ke data yang sebelumnya sangat tidak
mungkin. 3.
Increased
productivity of corporate decision-makers Data warehousing dapat meningkatkan produktivitas pengambil keputusan
dengan membangun database terintegrasi yang konsisten, berorientasi subjek, dan
data history.Dengan memindahkan data kedalam bentuk yang lebih berarti, data
warehouse memungkinkan manajer bisnis untuk menampilkan analisa yang lebih
subtantif, akurat dan konsisten.
Contoh Data Warehouse Sebuah toko swalayan merekam setiap penjualan barang dengan memakai alat
POS (Point of Sales). Database data penjualan tersebut bisa mencapai beberapa
GB setiap harinya untuk sebuah jaringan di toko swalayan berskala nasional.
Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan
kondisi yang sering disebut sebagai “rich of data but poor of information”.
Tidak jarang kumpulan data itu dibiarkan begitu saja seakan akan “kuburan data”
(data tombs). |