Mengenal AWS PVC : Membahas AWS Athena
Analisis data adalah proses yang sangat kompleks, dan upaya selalu dilakukan untuk membuatnya lebih mudah. Ada banyak alat untuk analitik, bahkan raksasa teknologi seperti Amazon menawarkan layanan AWS bernama Amazon Athena. Tutorial Amazon Athena ini akan memandu melalui penggunaan dasar dan lanjutan dari Amazon Athena.
Amazon Athena adalah alat analisis data interaktif yang digunakan untuk memproses kueri kompleks dalam waktu yang relatif singkat. Ini bersifat serverless, sehingga tidak ada kerumitan untuk pengaturan dan tidak diperlukan manajemen infrastruktur. Athena bukan layanan database, sehingga pembayaran dilakukan hanya untuk kueri yang dijalankan. Cukup arahkan data ke S3, definisikan skema yang diperlukan, dan siap menggunakan SQL standar. Pelajari semua tentang Amazon Web Services dengan Pelatihan AWS.
Pengenalan Amazon Athena
Pada 20 November 2016, Amazon meluncurkan Athena sebagai salah satu layanannya. Seperti yang telah disebutkan, Amazon Athena adalah layanan kueri serverless yang menganalisis data menggunakan SQL standar yang disimpan di Amazon S3. Dengan beberapa klik di AWS Management Console, pelanggan dapat mengarahkan Amazon Athena ke data yang disimpan di Amazon S3 dan menjalankan kueri menggunakan SQL standar untuk mendapatkan hasil dalam hitungan detik.
Dengan Amazon Athena, tidak ada infrastruktur yang perlu diatur atau dikelola, dan pelanggan hanya membayar untuk kueri yang dijalankan. Amazon Athena secara otomatis melakukan scaling, menjalankan kueri secara paralel, memberikan hasil cepat bahkan dengan dataset besar dan kueri kompleks.
Perbedaan antara Microsoft SQL server dan Amazon Athena
Membuat Tabel di Athena
Menggunakan sumber daya langsung, sehingga hanya dikenakan biaya untuk kueri yang dijalankan, tetapi tidak untuk dataset yang digunakan, dan jika ingin mengunggah file data ke Amazon S3, maka akan ada biaya.
Untuk melakukan kueri data file S3, harus memiliki tabel eksternal yang terkait dengan struktur file tersebut. Tabel eksternal dapat dibuat dengan dua cara:
- Manually
- Using AWS Glue Crawler
Untuk membuat tabel eksternal secara manual, ikuti struktur yang benar CREATE EXTERNAL TABLE dan tentukan format yang benar dan lokasi yang tepat. Contoh diberikan di bawah ini:
Creating and External Table Manually
Tabel eksternal yang dibuat disimpan di AWS Glue Catalog. Glue Crawler menganalisis struktur file input dan membuat tabel metadata yang didefinisikan dalam Glue Data Catalog.
Crawler menggunakan peran AWS IAM (Identity and Access Management) untuk mengizinkan data yang diarsipkan dan katalog data. Harus memiliki izin untuk melewatkan peran ke Crawler untuk mengakses jalur Amazon S3 yang diindeks.
Pergi ke AWS Glue, pilih “Add Table,” dan pilih opsi “Add Table Using Crawler”.
Tambah tabel menggunakan glue crawler
Beri nama Crawler, misalnya, car-crawler.
Masukkan nama crawler.
Pilih jalur di Amazon S3 tempat file disimpan.
Jika berencana untuk melakukan kueri hanya satu file, bisa memilih jalur file S3 atau jalur folder S3 untuk melakukan kueri pada semua file dalam folder dengan struktur yang sama.
Masukkan nama crawler. Pilih jalur di Amazon S3 tempat file disimpan.
Jika berencana untuk melakukan kueri hanya satu file, bisa memilih jalur file S3 atau jalur folder S3 untuk melakukan kueri pada semua file dalam folder dengan struktur yang sama.
Buat peran IAM dengan izin untuk objek S3 yang ingin dijadikan target kueri atau pilih peran IAM yang sudah ada (yang memiliki hak istimewa yang cukup untuk mengakses objek S3). Pilih database yang berisi tabel eksternal dan opsional tambahkan awalan ke nama tabel eksternal.
Select Database and prefix for external tables
Click Finish to create the Glue Crawler
- Run Crawler Tabel eksternal telah dibuat di bawah Database yang ditentukan. Sekarang dapat melakukan kueri pada objek S3 menggunakan ini.
- Select data from external table Pilih data dari tabel eksternal Karena file telah dimasukkan, kueri “select * from json_files” mengembalikan satu catatan dalam file. Cobalah memasukkan file lain dengan struktur yang sama di folder S3 yang sama dan kueri tabel eksternal lagi.
Jika kueri pada tabel EKSTERNAL yang sama, akan terlihat dua baris yang dikembalikan, bukan satu.
Ketika tabel eksternal yang sama dikueri, akan mendapatkan dua catatan. Hal ini karena ada dua file di folder S3 dengan struktur yang diinginkan. Banyak operasi dapat dilakukan pada data. Misalnya, Query berikut akan UNNEST array dalam set hasil.
Mengakses Amazon Athena
Athena sangat mudah diakses, dan beberapa cara untuk mengakses Amazon Athena adalah:
Ini adalah beberapa cara untuk mengakses Amazon Athena. Sekarang, semua hal penting tentang Amazon Athena sudah diketahui, dan berikut adalah berbagai fitur Athena.