Data Werehouse
A.
Pengertian
Data warehouse
adalah database yang saling bereaksi yang dapat digunakan untuk query
dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak
berubah yang digunakan untuk membantu para pengambil keputusan. Jadi, data
warehouse merupakan metode dalam perancangan database, yang menunjang
DSS(Decission Support System) dan EIS (Executive Information System). Secara
fisik data warehouse adalah database, tapi perancangan data warehouse
dan database sangat berbeda. Dalam perancangan database tradisional menggunakan
normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara
yang terbaik
B. Kelebihan
dan kekurangan
kelebihan datawarehouse :
- data terorganisir dengan baik untuk query analisis dan sebagai bahan yang baik untuk proses transaksi.
- perbedaan struktur data yang banyak macamnya dari sumber yang berbeda dapat di atasi.
- memiliki aturan transformasi untuk memvalidasi dan menkonsolidasi data dari OLTP ke datawarehouse.
- masalah keamanan dan kinerja dapat dipecahkan tanpa perlu mengubah sistem produksi.
- memiliki model data yang banyak macamnya, dan tidak tergantung dari format data awal/sumbernya, sehingga memudahkan dalam menciptakan laporan.
- proses transformasi/ perpindahan dapat di monitoring. jika terjadi kesalahan dapat di arahkan / di luruskan.
- informasi yang disimpan dalam datawarehouse, jadi ketika OLTP data sumber nya hilang. informasi yang diolah tetap terjaga dalam suatu datawarehouse.
- datawarehose tidak memperlambat kerja operasional transaksi.
- dapat menyediakan laporan yang bermacam-macam
kekurangan datawarehouse :
- datawarehouse bukan merupakan lingkungan yang cocok untuk data yang tidak terstruktur.
- data perlu di ekstrak, diubah (ETL) dan di load ke datawarehouse sehingga membutuhkan tenggang waktu untuk memindahkannya.
- semakin lama dipelihara, semakin besar biaya untuk merawat sebuah datawarehouse.
- datawarehouse dapat menjadi ketinggalan dari data terbaru yang relatif cepat, karena data yang digunakan di datawarehouse tidak di update secara cepat. sehingga data yang ada tidak optimal.
DATA MINNING
Data mining
adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang
berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk
pengembangan.
Arsitektur data mining
1. Database, data
warehouse, atau tempat penyimpanan informasi lainnya.
2. Server database
atau data warehouse.
3. Knowledge base
4. Data mining
engine.
5. Pattern evolution
module.
6. Graphical user interface.
Jenis data dalam data mining
1. Relation Database : Sebuah sistem database,
atau disebut juga database management system (DBMS), mengandung sekumpulan data
yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program
perangkat lunak untuk mengatur dan mengakses data tersebut.
2. Data
Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi
yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu,
dan biasanya terletak pada sebuah site.
Kelebihan Data Mining :
- Kemampuan dalam mengolah data dalam jumlah yang besar.
- Pencarian Data secara otomatis.
Kekurangan Data Mining :
- Kendala Database ( Garbage in garbage out ).
- Tidak bisa melakukan analisa sendiri.
OLAP
OLAP adalah
metode pendekatan untuk menyajikan jawaban dari permintaan proses analisis yang
bersifat dimensional secara cepat, yaitu desain dari aplikasi dan teknologi
yang dapat mengoleksi, menyimpan, memanipulasi suatu data multidimensi untuk
tujuan analis. OLAP adalah bagian dari kategori yang lebih global dari
pemikiran bisnis, yang juga merangkum hubungan antara pelaporan dan penggalian
data. Aplikasi khusus dari OLAP adalah pelaporan bisnis untuk penjualan,
pemasaran, manajemen pelaporan, manajemen proses bisnis (MPB), penganggaran dan
peramalan, laporan keuangan dan bidang-bidang yang serupa. Istilah OLAP
merupakan perampingan dari istilah lama database OLTP (Online Transaction
Processing).
a.
Desain Konsep
Di dalam inti sebaran sistem OLAP
merupakan konsep dari sebuah kubus OLAP (disebut juga sebagai kubus multidimesi
atau hiperkubus) yang terdiri dari numeric fact yang disebut ukuran dan
dikategorikan sebagai dimensi. Kubus metadata secara khusus terbuat dari sebuah
skema bintang atau skema kristal salju dari tabel di dalam sebuah database yang
berhubungan. Ukuran diturunkan dari rekord dalam fact table dan
dimensi-dimensi yang diturunkan dari tabel-tabel dimensi. Setiap pengukuran
bisa dijadikan gagasan karena memiliki sebuah himpunan label, atau meta-data
yang dihubungkan dengannya. Sebuah dimensi merupakan apa yang dijelaskan
label-label ini; ia juga menyediakan informasi tentang ukuran. Contoh sederhana
untuk menjadikan kubus yang berisi penyimpanan sales sebagai ukuran dan
tanggal/jam sebagai sebuah dimensi. Setiap penjualan memiliki label tanggal/jam
yang menjelaskan lebih tentang penjualan itu. Sebarang jumlah dimensi dapat ditambahkan
ke struktur seperti penyimpanan, kasir, atau pelanggan dengan menjumlahkan
sebuah kolom ke fact table. Bisa pula analis melihat ukuran sepanjang
sebarang kombinasi dari dimensi-dimensi itu.
DATA MART
Data Mart adalah fasiltas penyimpan
data yang berorentasi pada Subject tertentu atau berorentasi pada Departemen
tertentu dari suatu organisasi, fokus pada kebutuhan Departemen tertentu
seperti Sales, Marketing, Operation atau Collection. Sehingga suatu Organisasi
bisa mempunyai lebih dari satu Data Mart. Data Mart pada umumnya di
organisasikan sebagai suatu Dimensional Model, sperti Star-Schema (OLAP Cube)
yang tersusun dari sebuah tabel Fact dan beberapa tabel Dimension.
A.
perbedaannya
dengan data warehouse?
Sebuah gudang data, seperti data mart, berkaitan dengan bidang studi ganda
dan biasanya dilaksanakan dan dikendalikan oleh unit organisasi pusat seperti perusahaan
Teknologi Informasi (TI) kelompok. Seringkali, hal itu disebut data warehouse pusat
atau perusahaan. Biasanya, data warehouse merakit data dari sistem beberapa
sumber.
Tidak ada dalam definisi dasar membatasi ukuran data mart atau kompleksitas
keputusan dukungan data yang mengandung. Namun demikian, data mart biasanya lebih
kecil dan kurang kompleks daripada gudang data, maka, mereka biasanya lebih
mudah untuk membangun dan memelihara. Tabel A-1 merangkum perbedaan mendasar
antara data warehouse dan data mart.
Tabel A-1
Perbedaan Antara Data Warehouse dan Data Mart
Kategori
|
Data Warehouse
|
Data Mart
|
Cakupan
|
perusahaan
|
Bidang Usaha (LOB)
|
Subjek
|
beberapa
|
subjek tunggal
|
Sumber Data
|
banyak
|
Beberapa
|
Ukuran (khas)
|
100 GB-TB +
|
<100 GB
|
Waktu pelaksanaan
|
Bulan sampai tahun
|
Bulan
|
B.
Dependent
and Independent Data Marts
Ada dua tipe dasar data mart: dependen dan independen. Kategorisasi ini terutama
didasarkan pada sumber data yang feed data mart. Dependent data mart mengambil data
dari sebuah gudang data sentral yang telah dibuat. Independen data mart, sebaliknya,
adalah sistem mandiri yang dibangun dengan membuat data langsung dari sumber
operasional atau sumber eksternal dari data, atau keduanya.
Perbedaan
utama antara data mart independen dan dependen adalah bagaimana Anda
mengisi data mart, yaitu, bagaimana Anda mendapatkan data dari sumber dan ke data mart.
Langkah ini, yang disebut proses Ekstraksi-Transformasi dan
Pemuatan (ETL), melibatkan
memindahkan data dari sistem operasional, penyaringan, dan memasukkannya ke
data mart.
Dengan
dependent data mart, proses ini agak disederhanakan karena
diformat dan diringkas (bersih) data yang telah
dimuat ke dalam gudang data pusat. Proses ETL untuk
data mart bergantung sebagian besar merupakan proses mengidentifikasi subset kanan data yang relevan dengan subjek data mart dan
bergerak dipilih copy-nya,
mungkin dalam bentuk diringkas.
Dengan data mart independen,
namun Anda harus berurusan dengan semua
aspek dari proses ETL, sebanyak yang Anda lakukan dengan sebuah gudang data sentral. Jumlah sumber mungkin
akan lebih sedikit dan jumlah
data yang terkait dengan data mart kurang dari gudang,
mengingat fokus Anda pada subjek tunggal.
Motivasi di balik penciptaan kedua jenis data mart juga biasanya berbeda. Dependent data mart biasanya dibangun untuk mencapai peningkatan kinerja dan ketersediaan, kontrol yang lebih baik, dan biaya telekomunikasi yang lebih rendah yang dihasilkan dari akses lokal data yang relevan dengan departemen tertentu. Penciptaan data mart independen sering didorong oleh kebutuhan untuk memiliki solusi dalam waktu yang lebih singkat.
Motivasi di balik penciptaan kedua jenis data mart juga biasanya berbeda. Dependent data mart biasanya dibangun untuk mencapai peningkatan kinerja dan ketersediaan, kontrol yang lebih baik, dan biaya telekomunikasi yang lebih rendah yang dihasilkan dari akses lokal data yang relevan dengan departemen tertentu. Penciptaan data mart independen sering didorong oleh kebutuhan untuk memiliki solusi dalam waktu yang lebih singkat.
MOLAP, ROLAP
DAN HOLAP
MOLAP (Multi
Dimensional OLAP) dan ROLAP (Relational OLAP).
Perbedaan
keduanya sangat jelas pada aspek penyimpanan datanya. Jika melihat pada gambar
di atas, maka bagian tersebut adalah "Temporary Or Permanent
Cache", dimana :
- ROLAP menggunakan Temporary Cache (SQL Result Cache)
- MOLAP menggunakan Permanent Cache (Precomputed Storage)
ROLAP (Relational OLAP)
ROLAP adalah
tipe OLAP yang bergantung kepada database relasional atau RDBMS
(Relational Database Management System) sebagai media penyimpanan (storage)
data yang akan diolah. Dengan strategi tersebut maka OLAP Server terhindar dari
masalah pengelolaan data storage dan hanya menerjemahkan proses query
analysis (MDX) ke relational query (SQL). Otomatis proses optimasi ROLAP
akan sangat ditentukan di sisi produk RDBMS yang digunakan misalkan dari sisi
penanganan jumlah data dan strategi indexing.
Cara kerja ROLAP secara umum adalah sebagai berikut :
- OLAP client mengirimkan query analisis ke OLAP Server.
- OLAP server akan melakukan pemeriksaan di cache apakah sudah bisa melayani permintaan query dari client tersebut, jika sudah akan dikirimkan.
- Jika pada cache belum terdapat data diminta, akan dilakukan query SQL ke data mart dan hasil eksekusinya disimpan di cache dan dikirimkan kepada client.
- Demikian seterusnya.
- Cache akan disimpan selama periode waktu tertentu dan akan dibersihkan total jika server dimatikan.
·
Keuntungan dari ROLAP ini adalah tidak
memerlukan storage tambahan. Namun kelemahannya adalah
jika data untuk suatu cube sangat besar (masif) maka performa pengambilan
data akan cukup buruk.
MOLAP (Multi Dimensional OLAP)
·
MOLAP adalah tipe OLAP yang
memiliki storage sendiri, yang isinya merupakan precomputed agregasi
data - sum, count, min, max, dan sebagainya - yang terlibat pada
berbagai level detil. Storage ini berupa format yang hanya dikenali oleh
MOLAP server tersebut dan telah khusus dioptimalkan untuk penggunaan oleh
aplikasi tersebut.
Cara kerja MOLAP secara umum dibagi ke dalam dua tahap
sebagai berikut :
- Tahap konstruksi dan populasi data, pada tahap ini sumber data akan dibaca, dilakukan perhitungan agegrasi (summary group) pada berbagai level dimensi, dan hasilnya akan disimpan di storage MOLAP. Jika objek data diperumpamakan dengan table, maka untuk satu cube akan banyak fragmen table yang isinya adalah detil agregasi dari level tertentu.
- Tahap query atau layanan permintaan data analisis, pada tahap ini OLAP Server akan melayani permintaan query dari client dan membaca data dari storage MOLAP. Table yang akan dibaca adalah suatu fragmen yang akan disesuaikan dengan permintaan dari client. Pada fase query ini, jika OLAP Server terputus dengan data source tidak apa-apa karena sudah tidak ada kaitannya.
Keuntungan dari MOLAP ini yang
paling jelas adalah performa kecepatan akses yang sangat baik. Namun
kelemahannya adalah jika kombinasi agregasi data yang dihasilkan untuk semua level,
maka ukuran penyimpanan akan bisa lebih besar daripada sumbernya sendiri. Atas
alasan inilah biasanya MOLAP memiliki batasan sendiri untuk jumlah row dan
kombinasi level agregasi yang diijinkan.
HOLAP (Hybrid OLAP)
HOLAP hadir
untuk mengatasi kelemahan dari ROLAP dan MOLAP, kelemahan tersebut adalah :
- Performa ROLAP tidak begitu baik karena agregasi selalu dilakukan ulang apabila cache sudah expired.
- Keterbatasan storage dari MOLAP jika digunakan untuk menyimpan kombinasi agregasi pada semua level.
Jadi HOLAP merupakan kombinasi atau
"jalan tengah" antara keduanya dimana HOLAP akan Penyimpan data precomputed
aggregate pada media penyimpanan (storage) HOLAP sendiri.
Dari uraian di atas dapat diambil kesimpulan perbedaan
ROLAP, MOLAP dan MOLAP disarikan dalam tabel matrix berikut ini :
OLAP Type
|
Penyimpanan RDBMS
|
Penyimpanan Internal
|
Performa Pembacaan
|
Pre-Komputasi
|
ROLAP
|
Ya
|
Tidak
|
Tergantung RDBMS
|
Tidak
|
MOLAP
|
Tidak
|
Ya
|
Sangat Baik
|
Ya
|
HOLAP
|
Ya
|
Ya
|
Sangat Baik
|
Ya
|
No comments:
Post a Comment