Mempelajari Secara Singkat Hadoop : Apache Pig Tutorial
Tutorial Apache PIG
Tutorial Pig ini menyediakan konsep dasar dan lanjutan Pig. Tutorial Pig ini dirancang untuk pemula dan profesional.
Pig adalah platform aliran data tingkat tinggi untuk mengeksekusi program MapReduce di Hadoop. Pig dikembangkan oleh Yahoo. Bahasa yang digunakan untuk Pig adalah pig Latin.
Tutorial Pig ini mencakup semua topik dari Apache Pig dengan penggunaan Pig, Instalasi Pig, Mode Jalankan Pig, konsep Pig Latin, Jenis Data Pig, contoh Pig, fungsi yang didefinisikan pengguna Pig, dll.
Apa itu Apache Pig
Apache Pig adalah platform aliran data tingkat tinggi untuk mengeksekusi program MapReduce di Hadoop. Bahasa yang digunakan untuk Pig adalah Pig Latin.
Skrip Pig secara internal dikonversi menjadi pekerjaan MapReduce dan dieksekusi pada data yang disimpan di HDFS. Selain itu, Pig juga bisa menjalankan pekerjaannya di Apache Tez atau Apache Spark.
Pig dapat menangani segala jenis data, yaitu data terstruktur, semi-terstruktur, atau tidak terstruktur dan menyimpan hasil yang sesuai ke dalam Sistem File Data Hadoop. Setiap tugas yang bisa dicapai menggunakan PIG juga bisa dicapai menggunakan java yang digunakan dalam MapReduce.
Fitur Apache Pig
Berikut adalah berbagai penggunaan teknologi Pig.
- Kemudahan pemrograman
Menulis program java yang kompleks untuk map reduce cukup sulit bagi non-programmer. Pig memudahkan proses ini. Dalam Pig, kueri diubah menjadi MapReduce secara internal.
- Peluang optimasi
Cara tugas dikodekan memungkinkan sistem mengoptimalkan eksekusinya secara otomatis, memungkinkan pengguna fokus pada semantik daripada efisiensi.
- Ekstensibilitas
Fungsi yang didefinisikan pengguna memungkinkan pengguna menulis logika mereka untuk dieksekusi pada set data.
- Fleksibel
Pig dapat dengan mudah menangani data terstruktur maupun tidak terstruktur.
- Operator bawaan
Pig memiliki berbagai jenis operator seperti sort, filter, dan join.
Perbedaan antara Apache MapReduce dan PIG
Keuntungan Apache Pig
- Less Code – Pig membutuhkan lebih sedikit baris kode untuk melakukan operasi apa pun.
- Reusability – Kode Pig cukup fleksibel untuk digunakan kembali.
- Nested Data Types – Pig menyediakan konsep berguna tentang jenis data bersarang seperti tuple, bag, dan map.
Prasyarat
Sebelum mempelajari Pig, harus memiliki pengetahuan dasar tentang Hadoop.
Audiens
Tutorial Pig ini dirancang untuk membantu pemula dan profesional.
Masalah
Dijamin tidak akan menemukan masalah dalam tutorial Pig ini. Namun jika terdapat kesalahan, silakan sampaikan masalah tersebut melalui formulir kontak.