1/27/2013

Tugas Kapita Selekta


Data Werehouse
A.     Pengertian
Data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik
B.     Kelebihan dan kekurangan
kelebihan datawarehouse :
  1. data terorganisir dengan baik untuk query analisis dan sebagai bahan yang baik untuk proses transaksi.
  2. perbedaan struktur data yang banyak macamnya dari sumber yang berbeda dapat di atasi.
  3. memiliki aturan transformasi untuk memvalidasi dan menkonsolidasi data dari OLTP ke datawarehouse.
  4. masalah keamanan dan kinerja dapat dipecahkan tanpa perlu mengubah sistem produksi.
  5. memiliki model data yang banyak macamnya, dan tidak tergantung dari format data awal/sumbernya, sehingga memudahkan dalam menciptakan laporan.
  6. proses transformasi/ perpindahan dapat di monitoring. jika terjadi kesalahan dapat di arahkan / di luruskan.
  7. informasi yang disimpan dalam datawarehouse, jadi ketika OLTP data sumber nya hilang. informasi yang diolah tetap terjaga dalam suatu datawarehouse.
  8. datawarehose tidak memperlambat kerja operasional transaksi.
  9. dapat menyediakan laporan yang bermacam-macam
kekurangan datawarehouse :
  1. datawarehouse bukan merupakan lingkungan yang cocok untuk data yang tidak terstruktur.
  2. data perlu di ekstrak, diubah (ETL) dan di load ke datawarehouse sehingga membutuhkan tenggang waktu untuk memindahkannya.
  3. semakin lama dipelihara, semakin besar biaya untuk merawat sebuah datawarehouse.
  4. datawarehouse dapat menjadi ketinggalan dari data terbaru yang relatif cepat, karena data yang digunakan di datawarehouse tidak di update secara cepat. sehingga data yang ada tidak optimal.
DATA MINNING
Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan.
Arsitektur data mining
1. Database, data warehouse, atau tempat penyimpanan informasi lainnya.
2. Server database atau data warehouse.
3. Knowledge base
4. Data mining engine.
5. Pattern evolution module.
6. Graphical user interface.

Jenis data dalam data mining
1.    Relation Database : Sebuah sistem database, atau disebut juga database management system (DBMS), mengandung sekumpulan data yang saling berhubungan, dikenal sebagai sebuah database, dan satu set program perangkat lunak untuk mengatur dan mengakses data tersebut.
2.    Data Warehouse : Sebuah data warehouse merupakan sebuah ruang penyimpaan informasi yang terkumpul dari beraneka macam sumber, disimpan dalam skema yang menyatu, dan biasanya terletak pada sebuah site.

Kelebihan Data Mining :
  • Kemampuan dalam mengolah data dalam jumlah yang besar.
  • Pencarian Data secara otomatis.
Kekurangan Data Mining :
  • Kendala Database ( Garbage in garbage out ).
  • Tidak bisa melakukan analisa sendiri. 
OLAP
OLAP adalah metode pendekatan untuk menyajikan jawaban dari permintaan proses analisis yang bersifat dimensional secara cepat, yaitu desain dari aplikasi dan teknologi yang dapat mengoleksi, menyimpan, memanipulasi suatu data multidimensi untuk tujuan analis. OLAP adalah bagian dari kategori yang lebih global dari pemikiran bisnis, yang juga merangkum hubungan antara pelaporan dan penggalian data. Aplikasi khusus dari OLAP adalah pelaporan bisnis untuk penjualan, pemasaran, manajemen pelaporan, manajemen proses bisnis (MPB), penganggaran dan peramalan, laporan keuangan dan bidang-bidang yang serupa. Istilah OLAP merupakan perampingan dari istilah lama database OLTP (Online Transaction Processing).
a.        Desain Konsep
Di dalam inti sebaran sistem OLAP merupakan konsep dari sebuah kubus OLAP (disebut juga sebagai kubus multidimesi atau hiperkubus) yang terdiri dari numeric fact yang disebut ukuran dan dikategorikan sebagai dimensi. Kubus metadata secara khusus terbuat dari sebuah skema bintang atau skema kristal salju dari tabel di dalam sebuah database yang berhubungan. Ukuran diturunkan dari rekord dalam fact table dan dimensi-dimensi yang diturunkan dari tabel-tabel dimensi. Setiap pengukuran bisa dijadikan gagasan karena memiliki sebuah himpunan label, atau meta-data yang dihubungkan dengannya. Sebuah dimensi merupakan apa yang dijelaskan label-label ini; ia juga menyediakan informasi tentang ukuran. Contoh sederhana untuk menjadikan kubus yang berisi penyimpanan sales sebagai ukuran dan tanggal/jam sebagai sebuah dimensi. Setiap penjualan memiliki label tanggal/jam yang menjelaskan lebih tentang penjualan itu. Sebarang jumlah dimensi dapat ditambahkan ke struktur seperti penyimpanan, kasir, atau pelanggan dengan menjumlahkan sebuah kolom ke fact table. Bisa pula analis melihat ukuran sepanjang sebarang kombinasi dari dimensi-dimensi itu.
DATA MART
Data Mart adalah fasiltas penyimpan data yang berorentasi pada Subject tertentu atau berorentasi pada Departemen tertentu dari suatu organisasi, fokus pada kebutuhan Departemen tertentu seperti Sales, Marketing, Operation atau Collection. Sehingga suatu Organisasi bisa mempunyai lebih dari satu Data Mart. Data Mart pada umumnya di organisasikan sebagai suatu Dimensional Model, sperti Star-Schema (OLAP Cube) yang tersusun dari sebuah tabel Fact dan beberapa tabel Dimension.
A.    perbedaannya dengan data warehouse?
Sebuah gudang data, seperti data mart, berkaitan dengan bidang studi ganda dan biasanya dilaksanakan dan dikendalikan oleh unit organisasi pusat seperti perusahaan Teknologi Informasi (TI) kelompok. Seringkali, hal itu disebut data warehouse pusat atau perusahaan. Biasanya, data warehouse merakit data dari sistem beberapa sumber.

Tidak ada dalam definisi dasar membatasi ukuran data mart atau kompleksitas keputusan dukungan data yang mengandung. Namun demikian, data mart biasanya lebih kecil dan kurang kompleks daripada gudang data, maka, mereka biasanya lebih mudah untuk membangun dan memelihara. Tabel A-1 merangkum perbedaan mendasar antara data warehouse dan data mart.
Tabel A-1 Perbedaan Antara Data Warehouse dan Data Mart
Kategori
Data Warehouse
Data Mart
Cakupan
perusahaan
Bidang Usaha (LOB)
Subjek
beberapa
subjek tunggal
Sumber Data
banyak
Beberapa
Ukuran (khas)
100 GB-TB +
<100 GB
Waktu pelaksanaan
Bulan sampai tahun
Bulan

B.     Dependent and Independent Data Marts
Ada dua tipe dasar data mart: dependen dan independen. Kategorisasi ini terutama didasarkan pada sumber data yang feed data mart. Dependent data mart mengambil data dari sebuah gudang data sentral yang telah dibuat. Independen data mart, sebaliknya, adalah sistem mandiri yang dibangun dengan membuat data langsung dari sumber operasional atau sumber eksternal dari data, atau keduanya.

Perbedaan utama antara data mart independen dan dependen adalah bagaimana Anda mengisi data mart, yaitu, bagaimana Anda mendapatkan data dari sumber dan ke data mart. Langkah ini, yang disebut proses Ekstraksi-Transformasi dan Pemuatan (ETL), melibatkan memindahkan data dari sistem operasional, penyaringan, dan memasukkannya ke data mart.

Dengan dependent data mart, proses ini agak disederhanakan karena diformat dan diringkas (bersih) data yang telah dimuat ke dalam gudang data pusat. Proses ETL untuk data mart bergantung sebagian besar merupakan proses mengidentifikasi subset kanan data yang relevan dengan subjek data mart dan bergerak dipilih copy-nya, mungkin dalam bentuk diringkas.

Dengan data  mart independen, namun Anda harus berurusan dengan semua aspek dari proses ETL, sebanyak yang Anda lakukan dengan sebuah gudang data sentral. Jumlah sumber mungkin akan lebih sedikit dan jumlah data yang terkait dengan data mart kurang dari gudang, mengingat fokus Anda pada subjek tunggal.

Motivasi di balik penciptaan kedua jenis data mart juga biasanya berbeda. Dependent data mart biasanya dibangun untuk mencapai peningkatan kinerja dan ketersediaan, kontrol yang lebih baik, dan biaya telekomunikasi yang lebih rendah yang dihasilkan dari akses lokal data yang relevan dengan departemen tertentu. Penciptaan data mart  independen sering didorong oleh kebutuhan untuk memiliki solusi dalam waktu yang lebih singkat.

MOLAP, ROLAP DAN HOLAP
MOLAP (Multi Dimensional OLAP) dan ROLAP (Relational OLAP). 
Perbedaan keduanya sangat jelas pada aspek penyimpanan datanya. Jika melihat pada gambar di atas, maka bagian tersebut adalah  "Temporary Or Permanent Cache", dimana :
  • ROLAP menggunakan Temporary Cache (SQL Result Cache)
  • MOLAP menggunakan Permanent Cache (Precomputed Storage)

ROLAP (Relational OLAP)

ROLAP adalah tipe OLAP yang bergantung kepada database relasional atau RDBMS (Relational Database Management System) sebagai media penyimpanan (storage) data yang akan diolah. Dengan strategi tersebut maka OLAP Server terhindar dari masalah pengelolaan data storage dan hanya menerjemahkan proses query analysis (MDX) ke relational query (SQL).  Otomatis proses optimasi ROLAP akan sangat ditentukan di sisi produk RDBMS yang digunakan misalkan dari sisi penanganan jumlah data dan strategi indexing.
Cara kerja ROLAP secara umum adalah sebagai berikut :
  • OLAP client mengirimkan query analisis ke OLAP Server.
  • OLAP server akan melakukan pemeriksaan di cache apakah sudah bisa melayani permintaan query dari client tersebut, jika sudah akan dikirimkan.
  • Jika pada cache belum terdapat data diminta, akan dilakukan query SQL ke data mart dan hasil eksekusinya disimpan di cache dan dikirimkan kepada client.
  • Demikian seterusnya.
  • Cache akan disimpan selama periode waktu tertentu dan akan dibersihkan total jika server dimatikan.
·         Keuntungan dari ROLAP ini adalah tidak memerlukan storage tambahan. Namun kelemahannya adalah  jika data untuk suatu cube sangat besar (masif) maka performa pengambilan data akan cukup buruk.

MOLAP (Multi Dimensional OLAP) 

·         MOLAP adalah tipe OLAP yang memiliki storage sendiri, yang isinya merupakan precomputed agregasi data - sum, count, min, max, dan sebagainya - yang terlibat pada berbagai level detil. Storage ini berupa format yang hanya dikenali oleh MOLAP server tersebut dan telah khusus dioptimalkan untuk penggunaan oleh aplikasi tersebut.
Cara kerja MOLAP secara umum dibagi ke dalam dua tahap sebagai berikut :
  • Tahap konstruksi dan populasi data, pada tahap ini sumber data akan dibaca, dilakukan perhitungan agegrasi (summary group) pada berbagai level dimensi, dan hasilnya akan disimpan di storage MOLAP. Jika objek data diperumpamakan dengan table, maka untuk satu cube akan banyak fragmen table yang isinya adalah detil agregasi dari level tertentu.
  • Tahap query atau layanan permintaan data analisis, pada tahap ini OLAP Server akan melayani permintaan query dari client dan membaca data dari storage MOLAP. Table yang akan dibaca adalah suatu fragmen yang akan disesuaikan dengan permintaan dari client. Pada fase query ini, jika OLAP Server terputus dengan data source tidak apa-apa karena sudah tidak ada kaitannya.
Keuntungan dari MOLAP ini yang paling jelas adalah performa kecepatan akses yang sangat baik. Namun kelemahannya adalah jika kombinasi agregasi data yang dihasilkan untuk semua level, maka ukuran penyimpanan akan bisa lebih besar daripada sumbernya sendiri. Atas alasan inilah biasanya MOLAP memiliki batasan sendiri untuk jumlah row dan kombinasi level agregasi yang diijinkan.

HOLAP (Hybrid OLAP)

HOLAP hadir untuk mengatasi kelemahan dari ROLAP dan MOLAP, kelemahan tersebut adalah :
  • Performa ROLAP tidak begitu baik karena agregasi selalu dilakukan ulang apabila cache sudah expired.
  • Keterbatasan storage dari MOLAP jika digunakan untuk menyimpan kombinasi agregasi pada semua level.
Jadi HOLAP merupakan kombinasi atau "jalan tengah" antara keduanya dimana HOLAP akan Penyimpan data precomputed aggregate pada media penyimpanan (storage) HOLAP sendiri. 
Dari uraian di atas dapat diambil kesimpulan perbedaan ROLAP, MOLAP dan MOLAP disarikan dalam tabel matrix berikut ini :

 OLAP Type
 Penyimpanan RDBMS 
 Penyimpanan Internal
 Performa Pembacaan
 Pre-Komputasi
 ROLAP
 Ya
 Tidak 
 Tergantung   RDBMS
 Tidak
 MOLAP
 Tidak 
 Ya
 Sangat Baik
 Ya
 HOLAP
 Ya
 Ya
 Sangat Baik
 Ya