Data Warehouse

Data Warehouse

 

Gudang Data (bahasa Inggris: data warehouse) adalah sebuah sistem komputer untuk mengarsipkan dan menganalisis data historis suatu organisasi seperti data penjualan, gaji, dan informasi lain dari operasi sehari-hari. Secara umum, sebuah organisasi menyalin informasi dari sistem operasional seperti penjualan dan SDM ke gudang data menurut jadwal teratur, misalnya setiap malam atau setiap akhir pekan.

Setelah itu, manajemen dapat melakukan query kompleks dan analisis (misalnya, penambangan data, data mining) terhadap informasi tersebut tanpa membebani sistem operasional.

 

Pengertian Data Warehouse Menurut Para Ahli

Memahami Data Warehouse dapat bervariasi tetapi memiliki inti yang sama, beberapa pengertian dari para ahli berikut :

1.  Menurut W.H. Inmon dan Richard DH

Data warehouse adalah kumpulan data yang memiliki sifat subjek berorientasi, terpadu, waktu-varian, dan tetap pada pengumpulan data untuk mendukung proses pengambilan keputusan manajemen.

2.  Menurut Vidette Poe

Data warehouse adalah database yang read-only analisis dan digunakan sebagai dasar sistem pendukung keputusan.

3.  Menurut Paul Lane

Data warehouse merupakan database relasional yang dirancang lebih untuk query dan analisis proses transaksi, biasanya mengandung sejarah data transaksi dan mungkin juga data dari sumber lain. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari berbagai sumber.

4.  Menurut Ramelho

Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber data yang heterogen (yang biasanya tersebar di beberapa basis data OLTP) bermigrasi ke penyimpanan data dan terpisah homogen.

5.  Menurut Usama Fayyad (1996)

Pengguna menerapkan keahliannya dalam hal masalah, dan komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan menempatkannya dalam format yang sesuai untuk pengambilan keputusan.

 

Dengan demikian, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS (Decision Support System) dan EIS (Executive Information System). Secara fisik, data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam desain database tradisional menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara terbaik.

Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi untuk menggabungkan / konsolidasi data dari berbagai sumber. Dengan demikian, data warehouse merupakan metode dalam perancangan database, yang Mengacu DSS (Decision Support System) dan EIS (Executive Information System).

Secara fisik, data warehouse adalah database, akan tetapi deasin data warehouse dan database sangat berbeda. Dalam desain database tradisional menggunakan normalisasi, sedangkan data warehouse normalisasi bukanlah cara terbaik.

Karakteristik Data Warehouse

Sistem basis data ini memiliki karakteristik yang membuatnya berbeda dari database lain. Ada empat karakteristik yang menjadi ciri khas database ini, yaitu:

 

1.  Berorientasi kepada subjek (subjek-oriented)

Artinya data warehouse berorientasi subjek  dirancang untuk menganalisis data berdasarkan subjek-subjek tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan seperti (pelanggan, produk dan penjualan) dan tidak terorganisir dalam area aplikasi utama (customer faktur, kontrol stok dan penjualan produk).

Hal ini karena kebutuhan data warehouse untuk menyimpan data yang mendukung keputusan, daripada aplikasi berorientasi data. Jadi dengan kata lain, data yang disimpan tidak berorientasi pada subjek proses.

2.  Data yang dimiliki terintegrasi (Data Integrated)

Data Warehouse dapat menyimpan data dari sumber yang terpisah ke dalam format yang konsisten dan terintegrasi satu sama lain. Dengan demikian, data tidak dapat rusak karena data merupakan entitas yang mendukung konsep keseluruhan data warehouse itu sendiri.

Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara peti konsisten dalam penamaan variabel, konsisten dalam variabel ukuran, konsisten dalam coding dan struktur yang konsisten dalam atribut fisik dari data.

Contoh lingkungan operasional ada banyak aplikasi yang juga dapat dilakukan oleh pengembang yang berbeda. Oleh karena itu, mungkin dalam aplikasi ini terdapat variabel yang memiliki tujuan yang sama tetapi nama dan format yang berbeda.

Variabel ini harus dikonversi ke nama yang sama dan format yang telah disepakati. Dengan demikian tidak ada kebingungan karena perbedaan nama, format, dan sebagainya. Kemudian data dapat dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.

3.  Dibuat dalam rentang waktu tertentu (Timeline)

Semua data dalam data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan untuk mengukur keakuratan data warehouse, kita dapat menggunakan cara berikut :

 

a.   Cara termudah adalah untuk menyajikan data warehouse pada rentang waktu tertentu, misalnya, antara 5 sampai 10 tahun ke depan.

b.  Cara kedua, dengan menggunakan variasi perbedaan waktu / disajikan dalam data warehouse adalah baik secara implisit maupun eksplisit, eksplisit dengan unsur waktu dalam sehari, seminggu, sebulan dll Secara implisit misalnya, saat data diduplikasi pada setiap akhir bulan, atau kuartalan. Unsur waktu akan tetap tersirat dalam data.

c.   Cara ketiga, variasi waktu dari data warehouse yang disajikan melalui serangkaian foto-foto yang lama. Snapshot adalah pandangan sebagian besar data yang spesifik yang sesuai keinginan pengguna dari semua data yang ada adalah read-only.

4.  Data yang disimpan bersifat tetap (Non-Volatile)

Karakteristik keempat dari data warehouse adalah non-volatile, artinya data dalam gudang data tidak diperbarui secara real time tetapi dalam refresh sistem operasi secara teratur. Data baru yang ditambahkan sebagai suplemen untuk database itu sendiri bukan sebagai perubahan.

Database ini terus menyerap data baru, maka secara bertahap bersama-sama dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update, insert, dan menghapus data yang mengubah isi dari database data warehouse, sementara hanya ada dua peristiwa untuk memanipulasi data yang memuat data (mengambil data) dan akses data (akses ke gudang data seperti melakukan query atau menampilkan laporan yang diperlukan, tidak ada aktivitas memperbarui data).

 

Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber data yang heterogen (yang biasanya tersebar di beberapa basis data OLTP) bermigrasi ke penyimpanan data dan terpisah homogen. Keuntungan yang diperoleh dengan menggunakan data warehouse berikut (Ramelho).

Sedangkan kombinasi data mining dan verifikasi penemuan adalah pengembangan dari data mining di masa depan akan menggabungkan hipotesis dan penemuan pendekatan.

Perkembangan ini menggunakan alasan yang sama yang mendasari konsep Sistem Pendukung Keputusan (Decision Support System – DSS). Konsep ini memungkinkan pengguna dan komputer bekerja sama untuk memecahkan masalah.

Pengguna menerapkan keahliannya dalam hal masalah, dan komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan menempatkannya dalam format yang sesuai untuk pengambilan keputusan. Menurut Usama Fayyad (1996).

Proses KDD (Knowledge Discovery in Database)

Proses KDD (Knowledge Discovery in Database) dapat secara luas digambarkan sebagai berikut :

 

1.   Data Selection

Kumpulan data operasional Seleksi (Selection) Data darurat perlu dilakukan sebelum langkah penggalian informasi di KDD dimulai. Hasil seleksi data yang akan digunakan untuk proses data mining, disimpan dalam file terpisah dari database operasional.

2.   Pre-processing / Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan pada proses pembersihan data menjadi fokus KDD.

Proses pembersihan meliputi, antara lain, menghilangkan duplikasi data, memeriksa inkonsistensi data, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).

Juga membuat proses pengayaan, yaitu proses “memperkaya” data dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal yang ada.

3.   Transformation

Coding adalah proses transformasi data yang telah, sehingga data tersebut sesuai untuk proses data mining. Coding dalam proses KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam database

4.   Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode. Teknik, metode, algoritma didalam sebuah data mining sangat varian. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5.   Interpretation/ Evaluation

Informasi Pola yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretasi. Fase ini termasuk memeriksa apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada.

 

KDD proses garis terdiri dari lima tahap seperti yang dijelaskan sebelumnya. Namun, dalam proses KDD nyata, hanya dapat terjadi iterasi atau pengulangan pada tahap tahap. Pada setiap langkah dalam proses KDD, seorang analis dapat kembali ke tahap sebelumnya.

Sebagai contoh, pada saat proses coding atau data mining, analis menyadari pembersihan tidak dilakukan dengan sempurna, atau mungkin analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.

KDD mencakup seluruh proses mencari pola atau informasi dalam database, mulai dari pemilihan dan penyusunan data ke representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD difokuskan pada penggalian pola tersembunyi dalam data base.

Istilah yang Berhubungan dengan Data Warehouse

Istilah-istilah yang berkaitan dengan data warehouse :

1.  Data Mart

Adalah suatu bagian pada data warehouse yang mendukung pembuatan laporan dan analisa data pada suatu unit, bagian atau operasi pada suatu perusahaan.

2.  On-Line Analytical Processing(OLAP)

Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data yang berukuran besar.

3.  On-Line Transaction Processing(OLTP)

Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi sehari-hari.

4.  Dimension Table

Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan. Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang berupa perbulan, perkwartal dan pertahun).

5.  Fact Table

Merupakan tabel yang umumnya mengandung angka dan data history dimana key (kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci asing) yang merupakan primary key (kunci utama) dari beberapa dimension table yang berhubungan.

6.  DSS

Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang baik.

 

Keuntungan Data Warehouse

Berikut ini terdapat beberapa keuntungan data warehouse, terdiri atas:

1.   Potential high returns on investment

Suatu organisasi harus menjalankan sejumlah besar sumberdaya untuk memastikan kesuksesan implementasi dari data warehouse dengan biaya yang sangat variatif. Nilai investasi yang ditanamkan lebih cepat kembali dengan menggunakan data warehouse.

2.   Competitive advantage

Keuntungan kompetitif dapat dicapai dengan memungkinkannya akses pengambil keputusan ke data yang sebelumnya sangat tidak mungkin.

3.   Increased productivity of corporate decision-makers

Data warehousing dapat meningkatkan produktivitas pengambil keputusan dengan membangun database terintegrasi yang konsisten, berorientasi subjek, dan data history.Dengan memindahkan data kedalam bentuk yang lebih berarti, data warehouse memungkinkan manajer bisnis untuk menampilkan analisa yang lebih subtantif, akurat dan konsisten.

 

Contoh Data Warehouse

Sebuah toko swalayan merekam setiap penjualan barang dengan memakai alat POS (Point of Sales). Database data penjualan tersebut bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan di toko swalayan berskala nasional.

Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information”. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan akan “kuburan data” (data tombs).

 Copyright stekom.ac.id 2018 All Right Reserved