Perkenalan Pentaho Data Integration (PDI)

Apa sih PDI itu?

PDI di sini tentu bukan lah nama partai di Indonesia.  Saya tidak berkompeten untuk membahas masalah politik. Namun PDI yang dimaksud di sini adalah Pentaho Data Integration yakni aplikasi yang dapat digunakan untuk mempersiapkan dan menggabungkan data dari berbagai sumber agar siap digunakan untuk melakukan analisis. Aplikasi ini menyediakan alat bantu visual untuk mengurangi coding dan kompleksitas. Dalam bahasa kerennya, aplikasi ini disebut sebagai aplikasi ETL (Extract, Transform, Load) wikipedia – ETL.

Kenapa harus menggunakan PDI?

Sebelum saya menjelaskan kenapa harus menggunakan PDI, saya memiliki daftar beberapa masalah yang sering dikeluhkan oleh rekan-rekan saya dalam hal pengolahan data.

  1. Aku punya file excel data nasabah dengan ukuran 150 MB, kemudian aku diminta mencari nomer rekening setiap nasabah tersebut dari sumber file excel lain dengan ukuran 300 MB. Tiap kali aku lookup kok cursornya cuma berputar putar tanpa harapan ya?
  2. Aku sudah bikin kuesioner dalam bentuk excel nih mas. Sudah aku sebar ke seluruh pegawai untuk diisi. Tapi begitu file excel nya kembali ke aku kok aku pusing untuk merekap datanya yah. Soalnya jumlah pegawai ada 30 ribu. Jadi ada 30 ribu file yang harus aku rekap satu per satu.
  3. Mas, aku dapet data dalam bentuk file text. Tapi masalahnya isi file text itu bukan bentuk tabel dan ga ada delimiter nya. Terus gimana cara aku nyari data? Apakah harus satu per satu pakai find?
  4. *Paling ngenes* Mas, aku dapet data bentuk excel. Sudah aku otak atik pakai filter, lookup, hapus kolom yang kira kira ga perlu biar ringan, filter lagi, hapus baris, pecah pecah data, gabung lagi. Begitu sudah dapet hasil akhir, ternyata bosku minta munculin lagi kolom yang sudah dihapus. Sudah pasti ngulang nih. Untung kalo cuma ngulang, lha ini data aslinya sudah ketimpa jadi harus nyari nyari data mentah lagi.

Lalu apakah masalah itu bisa diselesaikan menggunakan PDI? Bisa. Contoh penyelesaian untuk masing-masing permasalahan:

  1. Pengolahan data file excel yang dengan ukuran besar memang berat. Bahkan untuk PC temenku yang pentium i7 dan RAM 16 GB cukup ngos ngosan saat harus mengolah data sebesar ini. Jika menggunakan PDI, kita dapat mengubah file excel tersebut menjadi file text delimiter sehingga lebih ringan untuk dibaca. Kemudian bisa kita lakukan lookup melalui PDI untuk dapat menggabungkan informasi dari kedua file yang ada.
  2. PDI memiliki kemampuan untuk membaca seluruh file di dalam folder. Sehingga dimungkinkan untuk kita meletakkan seluruh file kuesioner yang telah diisi tersebut ke dalam satu folder agar dapat dibaca oleh PDI secara langsung. Yang perlu diingat, struktur data sama semua untuk seluruh file yang akan dibaca.
  3. Ini bukan hal susah. Sepanjang kita bisa menemukan kata kunci untuk menentukan data / baris mana yang akan kita ambil, kita bisa menciptakan skema PDI yang bisa menerjemahkan dan mengkonversi data dalam bentuk text tersebut menjadi bentuk tabel.
  4. Problem ini yang paling sering kejadian di tempat kerjaku. Keuntungan menggunakan PDI adalah kita tidak mengolah data di file asli secara langsung, namun kita menarik data tersebut ke dalam aplikasi (Extract). Kemudian mengolahnya sesuai yang kita butuhkan (Transform).Baru kita keluarkan hasil olahannya dalam file / database lain (Load). Sehingga jika ada perubahan permintaan, kita dapat mengubah skema di PDI tanpa merusak data asli.

Apa keuntungan dari menggunakan PDI?

Ada beberapa keuntungan yang saya rasakan setelah menggunakan PDI dalam pengolahan data, antara lain :

  1. Data mentah tidak mengalami transformasi sehingga ketika terjadi kesalahan / perubahan permintaan dapat langsung menjalankan ulang aplikasi tanpa kuatir data metnah terganggu.
  2. Mempermudah pemahaman proses kerja pengolahan data yang sedang dilakukan. Hal ini karena sebagian besar langkah proses kerja ditampilkan dalam bentuk visual dan bukan berupa tulisan tulisan coding yang kadang hanya pembuat dan Tuhan YME saja yang tahu maksud dari koding tersebut.
  3. Mempercepat pengolahan data besar.
  4. Tidak perlu lagi melakukan kegiatan pengolahan data yang rutin. Bahkan jika memang dibutuhkan, skema PDI bisa dijalankan otomatis secara reguler melalui task scheduler windows atau cron job linux.

Adakah aplikasi lain yang fungsinya sama seperti PDI?

Cukup banyak aplikasi lain yang memiliki fungsi sama seperti PDI. Pesaing terdekat dari PDI adalah Talend. Talend memiliki fitur yang cukup mumpuni. Namun berdasarkan pengalaman pribadi dan hasil membaca review orang lain, pembuatan skema pemrosesan data di Talend tidak semudah di PDI. Karena itu saya lebih suka menggunakan Pentaho.

Bagaimana cara menggunakan PDI ini?

Cara instalasi, tutorial penggunaan dan beberapa contoh kasus akan saya sampaikan di tulisan berikutnya. Jika ada yang ingin diskusi sambil menunggu saya menulis artikel berikutnya, silahkan untuk meninggalkan pesan di kolom komentar.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s