Penjelasan Tentang Extraction

Nama   : Anan Krisna

NPM    : 19312187

Kelas   : IF B SP

 

Penjelasan Tentang Extraction Dan Contoh Dari Extraction Dalam Data Warehouse



Extraction merupakan proses pengambilan data dari berbagai sumber misalnya, dari server SQL atau XML yang di ambil lalu digunakan untuk mengisi data warehouse dengan data yang dibutuhkan. Dalam tahapan ini dilakukan proses cleansing data sebelum masuk tahapan transformasi.

Sebagian besar perusahaan melakukan pengolaan data dari berbagai sumber dan menggunakan beberapa alat analisis untuk membuat sebuah business intelligence. Namun, ada juga bisnis yang hanya bergantung pada satu jenis data atau sistem. Jika ingin membuat suatu strategi data yang kompleks dan berfungsi, data yang digunakan juga harus bisa bergerak bebas di antara sistem dan aplikasi. Pada langkah pertama proses ETL ini, data terstruktur dan tidak terstruktur di masukan dan dikonsolidasikan ke dalam suatu wadah penyimpanan.

Data mentah dapat diekstraksi dari berbagai sumber berikut ini:

·         Database yang ada dan legacy system.

·         Cloud, hybrid, dan on-premises environments.

·         Mobile devices dan apps.

·         CRM systems.

·         Data storage platforms.

Langkah pertama bernama extraction. Layaknya namanya, dalam proses ini, kita mengambil data dari berbagai sumber, yang nantinya setelah diambil, kamu tak serta-merta menaruhnya di warehouse. Tempat untuk data ini adalah staging area.  Proses ini dapat menggunakan query, atau aplikasi ETL. Sebaiknya sebelum proses extract kita lakukan, akan lebih mudah jika user sudah melakukan pendefinisian kebutuhan terhadap sumber data yang akan kita butuhkan.

Terdapat beberapa fungsi ekstraksi data, yaitu :

          Ekstraksi data secara otomatis dari aplikasi sumber.

          Penyaringan atau seleksi lagi data hasil ekstraksi.

          Pengiriman data dari berbagai platform aplikasi ke sumber data.

          Perubahan format layout data dari format aslinya.

          Penyimpanan dalam file sementara untuk penggabungan dengan

          Hasil ekstraksi dari sumber lain

Dalam memproses data, setiap pengguna pasti pernah melakukan ekstraksi data dan konversi seperti yang dilakukan pada sebuah sistem basis data. Ketika kita melakukan pengoneksian sistem database dengan sistem operasional peranti lunak. Dua factor penting yang membedakan ekstraksi data dalam sistem operasi dengan ekstraksi data dalam data warehouse, dalam sistem operasi data dikonversi dan diekstrak dalam sekali waktu, sedangkan dalam data warehouse data yang diekstraksi dapat dilakukan perbagian.

Proses extract merupakan tahap pertama dari sistem ETL. Extract merupakan proses memilih dan mengambil data dari satu atau beberapa sumber misalkan di suatu database, lalu mengakses data yang di ambil. Langkah-langkahnya adalah :

Ada beberapa prinsip dasar ekstraksi data yaitu :

          Volume data yang digunakan berukuran besar (big data)

          Proses ekstraksi dilakukan secepat mungkin, sehingga membutuhkan memory yang cukup besar.

          Proses ekstraksi dilakukan sebisa mungkin menjadi kecil

Sebelum melakukan ekstraksi data, perlu di lakukan pembuatan peta logika data yang menggambarkan hubungan antara feature dari sumber data dan feature data yang akan diolah.

Contoh Langkah - langkah pembuatan peta logika data adalah sebagai berikut :

a.       Mengidentifikasi sumber data yang dibutuhkan dalam pengambilan keputusan

b.      Menganalisa sumber data dengan aplikasi data-profilling. Data-profilling merupakan proses memeriksa ketersediaan data dari sumber informasi yang dan mengumpulkan ringkasan informatif tentang data tersebut.

c.       Memahami kebutuhan data untuk suatu bisnis

d.      Memahami model data dari tempat penyimpanan data yang tersedia

e.       Melakukan validasi formula dan proses perhitungan data.

 

Change data capture (CDC) merupakan elemen penting dalam melakukan analisis ekstraksi. Transaksi yang dijadikan data fakta hampir selalu mempunyai timestamps.Ada beberapa cara mengimplementasikan CDC. Jika pada basis data sumber atau file terdapat timestamps.

Timestamp Ekstraksi pada sistem yang menyimpan timestamp terhadap waktu insert atau input dan update record atau pembaruan, untuk membuat CDC tidak perlu melakukan pencarian ke seluruh isi tabel untuk mengenali record apa saja yang telah berubah.

Contoh Dari Extraction Dalam Data Warehouse

Melakukan Ekstraksi File Menggunakan Program OCI atau Pro*C

Program OCI dapat digunakan untuk melakukan ekstraksi data. Teknik ini biasanya memberikan peningkatan kinerja melalui pendekatan SQL*Plus, program OCI dapat mengekstrak hasil kueri SQL apa pun. Selain itu, teknik paralelisasi yang dijelaskan untuk pendekatan SQL*Plus dapat dengan mudah diterapkan ke program OCI juga.

Saat menggunakan OCI atau SQL untuk ekstraksi, memerlukan informasi tambahan selain data itu sendiri. Harus tau memerlukan informasi tentang kolom yang diekstraksi. Hal ini juga membantu untuk mengetahui format ekstraksi, yang mungkin menjadi pemisah antara kolom berbeda.

 


Komentar

Postingan Populer