Mengenal AWS PVC : Pengertian Amazon EMR
Amazon EMR (Amazon Elastic Map Reduce) adalah layanan web dari Amazon yang memudahkan pengolahan data besar secara cepat dan efisien dengan biaya yang terjangkau.
Amazon EMR menggunakan Hadoop, sebuah framework open-source, untuk mendistribusikan data dan pemrosesannya di dalam klaster yang dapat diubah ukurannya dari instansi Amazon EC2.
Amazon EMR digunakan dalam berbagai aplikasi, termasuk analisis log, pengindeksan web, data warehousing, machine learning, analisis keuangan, simulasi ilmiah, dan bioinformatika. Jutaan klaster Amazon EMR diluncurkan setiap tahunnya.
Amazon EMR (dulunya dikenal sebagai Amazon Elastic Map Reduce) merupakan alat Amazon Web Services (AWS) untuk pemrosesan dan analisis big data. Amazon memasarkan EMR sebagai layanan yang dapat diperluas dengan konfigurasi rendah yang memberikan opsi untuk menjalankan komputasi klaster di lokasi.
Amazon EMR didasarkan pada Apache Hadoop, sebuah framework pemrograman berbasis Java yang mendukung pemrosesan set data besar dalam lingkungan komputasi terdistribusi. Dengan menggunakan Map Reduce, komponen inti dari framework perangkat lunak Hadoop, pengembang dapat menulis program yang memproses jumlah data yang sangat besar dalam klaster pemroses terdistribusi atau komputer mandiri.
Amazon EMR memproses big data dalam klaster Hadoop dari server virtual di Amazon Elastic Compute Cloud (EC2) dan layanan Amazon Simple Storage Service (S3).
Elastic dalam nama EMR mengacu pada kemampuan penyesuaian ukuran yang dinamisnya, yang memungkinkan administrator untuk meningkatkan atau mengurangi sumber daya berdasarkan kebutuhan saat ini.
Amazon EMR digunakan untuk analisis log, pengindeksan web, data warehousing, machine learning (ML), analisis keuangan, simulasi ilmiah, dan analisis data dalam bioinformatika.
EMR juga mendukung beban kerja berbasis Apache Spark, Apache Hive, Presto, dan Apache HBase, yang terintegrasi dengan Hive dan Pig, alat gudang data sumber terbuka untuk Hadoop. Hive menggunakan kueri dan menganalisis data, sedangkan Pig menyediakan mekanisme tingkat tinggi untuk pemrograman pekerjaan Map Reduce yang akan dieksekusi di Hadoop.
Amazon EMR Use Cases
- Machine Learning: Alat ML bawaan EMR menggunakan framework Hadoop untuk membangun berbagai algoritma yang mendukung pengambilan keputusan, termasuk pohon keputusan, hutan acak, mesin vektor dukungan, dan regresi logistik.
- Extract, Transform, Load (ETL): Proses ETL adalah proses memindahkan data dari satu atau beberapa penyimpanan data ke penyimpanan data lainnya. Transformasi data seperti pengurutan, agregasi, dan penggabungan dapat dilakukan menggunakan EMR.
- Clickstream Analysis : Data aliran klik Amazon S3 dapat dianalisis dengan menggunakan Apache Spark dan Apache Hive. Apache Spark adalah alat pemrosesan data sumber terbuka yang dapat membantu mempermudah pengelolaan dan analisis data. Spark menggunakan kerangka kerja yang memungkinkan pekerjaan dijalankan di klaster besar komputer dan dapat memproses data secara paralel. Apache Hive adalah infrastruktur gudang data yang dibangun di atas Hadoop yang menyediakan alat untuk bekerja dengan data yang dapat dianalisis oleh Spark. Analisis aliran klik dapat membantu organisasi memahami perilaku pelanggan, meningkatkan tata letak situs web, mengetahui kata kunci yang digunakan orang dalam mesin pencari, dan melihat kombinasi kata mana yang mengarah ke penjualan.
- Real-time Streaming : Pengguna dapat menganalisis acara menggunakan sumber data streaming secara real-time dengan Apache Spark Streaming dan Apache Flink. Ini memungkinkan pembangunan pipa data streaming di EMR.
- Interactive Analytics : EMR Notebook adalah layanan yang dikelola yang menyediakan lingkungan yang aman, dapat diskalakan, dan andal untuk analisis data.
- Using Jupyter Notebook : aplikasi web sumber terbuka yang dapat digunakan oleh ilmuwan data untuk membuat dan berbagi kode dan persamaan secara langsung – data dapat disiapkan dan divisualisasikan untuk melakukan analisis interaktif.
- Genomics : Organisasi dapat menggunakan EMR untuk memproses data genomik sehingga pengolahan dan analisis data dapat diskalakan untuk industri, termasuk farmasi dan telekomunikasi.
Amazon EMR Deployment Options
Sebagai layanan cloud, Amazon EMR dapat diimplementasikan dalam berbagai pengaturan, seperti:
Amazon EMR di Amazon EC2: Dengan menggunakan Amazon EC2, Amazon EMR dapat memproses sejumlah besar data dengan cepat. Pengguna dapat mengkonfigurasi Amazon EMR untuk memanfaatkan instansi on-demand, reserved, dan spot.
Amazon EMR di Amazon Elastic Kubernetes Service (EKS): Konsol Amazon EMR memungkinkan pengguna menjalankan aplikasi Apache Spark bersama aplikasi lain di klaster EKS yang sama. Organisasi dapat berbagi sumber daya komputasi dan memori di seluruh aplikasi dan menggunakan Kubera untuk memantau dan mengelola infrastruktur.
Fitur Amazon EMR
- EMR Studio : Lingkungan pengembangan terintegrasi ini membantu pengembang menulis kode dan merupakan cara efisien dan mudah untuk membangun dan menguji aplikasi. EMR Studio terdiri dari editor kode sumber, alat otomatisasi pembangunan, dan debugger.
- Klaster EMR 10-node Amazon biaya 15 sen per jam, dan organisasi hanya membayar untuk waktu kluster mereka berjalan. Mereka juga dapat mengontrol biaya dengan mengatur klaster EMR dengan menggunakan instansi spot, yang memungkinkan pengguna untuk melakukan penawaran pada kapasitas EC2 tambahan dan membayar hanya untuk sumber daya yang digunakan.
- EMR memisahkan komputasi dan penyimpanan untuk skalabilitas pribadi dan mendukung penyimpanan tiered Amazon S3. Instansi dapat memproses data dalam skala apa pun dan secara otomatis disediakan, dikelola, dan dipantau. Dengan AWS Auto Scaling, pengguna dapat meningkatkan atau mengurangi jumlah instansi berdasarkan penggunaan.
- Amazon EMR memantau klaster untuk memastikan penggunaan sumber daya yang optimal. Ini menggunakan layanan Amazon CloudWatch untuk mengumpulkan dan menafsirkan metrik. Amazon EMR dapat memonitor kesehatan, penggunaan, dan kinerja klaster serta membantu mengidentifikasi node atau pekerjaan yang bermasalah. Layanan ini juga menyediakan layanan penyeimbang beban, yang membantu mengarahkan lalu lintas ke node yang sehat secara otomatis.
- The Protection : Amazon EMR mencakup fitur keamanan, seperti konfigurasi firewall EC2 secara otomatis sehingga hanya lalu lintas jaringan yang diperlukan yang diizinkan pada instansi. Klaster diluncurkan di Amazon Virtual Private Cloud. Enkripsi sisi server atau enkripsi sisi klien dapat membantu dalam mengelola kunci. Mengubah kontrol akses data untuk Lake Formation AWS atau basis data Apache Ranger.
- Flexibility : Amazon EMR memungkinkan pengguna untuk menyesuaikan klaster dan menginstal paket perangkat lunak pihak ketiga menggunakan skrip. Pengguna juga dapat mengonfigurasi ulang aplikasi tanpa meluncurkan klaster baru.