Macam-macam Database Service : Mengenal Redshift
Redshift memungkinkan perusahaan untuk menjalankan kueri analitik yang kompleks terhadap data yang besar dan bervariasi dengan kecepatan tinggi.
Apa itu Redshift?
- Redshift adalah layanan gudang data berskala petabyte yang cepat dan kuat, terkelola penuh, dan berskala petabyte di cloud.
- Pelanggan dapat menggunakan Redshift hanya dengan $0,25 per jam tanpa komitmen atau biaya di muka dan meningkatkannya menjadi petabyte atau lebih dengan biaya $1.000 per terabyte per tahun.
OLAP
OLAP adalah Sistem Pemrosesan Analisis Online yang digunakan oleh Redshift.
OLAP transaction Example :
Misalkan kita ingin menghitung laba bersih untuk EMEA dan Pasifik untuk Produk Radio Digital. Hal ini membutuhkan sejumlah besar catatan. Berikut ini adalah catatan yang diperlukan untuk menghitung Laba Bersih:
- Sum of Radios sold in EMEA.
- Sum of Radios sold in Pacific.
- Unit cost of radio in each region.
- Sales price of each radio
- Sales price – unit cost
Kueri yang kompleks diperlukan untuk mengambil catatan yang diberikan di atas. Basis data Data Warehousing menggunakan arsitektur jenis yang berbeda baik dari perspektif basis data dan lapisan infrastruktur.
Redshift Configuration
Single Node : Menyimpan hingga 160 GB.
Multi-node : Node yang terdiri dari lebih dari satu node. Terdiri dari dua jenis:
- Leader Node : Simpul ini mengelola koneksi klien dan menerima kueri. Simpul pemimpin menerima kueri dari aplikasi klien, mengurai kueri, dan mengembangkan rencana eksekusi. Node ini berkoordinasi dengan eksekusi paralel dari rencana-rencana ini dengan node komputasi dan menggabungkan hasil perantara dari semua node, lalu mengembalikan hasil akhir ke aplikasi klien.
- Compute Node : Node komputasi mengeksekusi rencana eksekusi, dan kemudian hasil perantara dikirim ke node pemimpin untuk agregasi sebelum dikirim kembali ke aplikasi klien. Node ini dapat memiliki hingga 128 node komputasi.
Mari kita pahami konsep simpul pemimpin dan menghitung simpul melalui sebuah contoh.
NODES
Massive Parallel Proccessing
Gudang Redshift adalah kumpulan sumber daya komputasi yang dikenal sebagai node, dan node ini diatur dalam kelompok yang dikenal sebagai cluster. Setiap cluster berjalan di Redshift Engine yang berisi satu atau lebih database.
Ketika meluncurkan instance Redshift, ia dimulai dengan satu node berukuran 160 GB. Ketika ingin mengembangkannya, node tambahan dapat ditambahkan untuk memanfaatkan pemrosesan paralel. Terdapat sebuah node pemimpin yang mengelola beberapa node. Node pemimpin menangani koneksi klien dan juga node komputasi. Node ini menyimpan data dalam node komputasi dan melakukan kueri.
Mengapa Redshift 10 kai lebih cepat
Redshift 10 kali lebih cepat karena alasan berikut:
- Columnar Data Storage : Alih-alih menyimpan data sebagai serangkaian baris, Amazon Redshift mengatur data berdasarkan kolom. Sistem berbasis baris ideal untuk pemrosesan transaksi, sedangkan sistem berbasis kolom ideal untuk pergudangan data dan analitik, di mana kueri sering kali melibatkan agregat yang dilakukan pada kumpulan data yang besar. Karena hanya kolom yang terlibat dalam kueri yang diproses dan data kolom disimpan dalam media penyimpanan secara berurutan, sistem berbasis kolom membutuhkan lebih sedikit I/O, sehingga meningkatkan kinerja kueri.
- Advanced Compression : Penyimpanan data berbentuk kolom dapat dikompresi lebih banyak daripada penyimpanan data berbasis baris karena data yang serupa disimpan secara berurutan pada disk. Amazon Redshift menggunakan beberapa teknik kompresi dan sering kali dapat mencapai kompresi yang signifikan dibandingkan dengan penyimpanan data relasional tradisional. Amazon Redshift tidak memerlukan indeks atau tampilan yang diwujudkan sehingga membutuhkan lebih sedikit ruang daripada sistem basis data relasional tradisional. Ketika memuat data ke dalam tabel kosong, Amazon Redshift mengambil sampel data secara otomatis dan memilih teknik kompresi yang paling tepat.
- Massively Parallel Processing : Amazon Redshift secara otomatis mendistribusikan data dan memuat kueri di berbagai node. Amazon Redshift memudahkan untuk menambahkan node baru ke gudang data, memungkinkan kinerja kueri yang lebih cepat seiring dengan pertumbuhan gudang data.
Redshift Features
Easy to Setup, deploy, and manage
- Automated Provisioning : Redshift mudah diatur dan dioperasikan. Gudang data baru dapat digunakan hanya dengan beberapa klik di AWS Console, dan Redshift secara otomatis menyediakan infrastruktur. Di AWS, semua tugas administratif diotomatiskan, seperti pencadangan dan replikasi, sehingga fokus dapat diberikan pada data, bukan pada administrasi.
- Automated Backups : Redshift secara otomatis mencadangkan data Anda ke S3. Anda juga bisa mereplikasi snapshot di S3 di wilayah lain untuk pemulihan bencana.
cost-effective
- No upfront costs, pay as you go : Amazon Redshift merupakan layanan gudang data yang paling hemat biaya karena hanya perlu membayar apa yang digunakan. Biayanya mulai dari $0,25 per jam tanpa komitmen dan tanpa biaya di muka, dapat ditingkatkan hingga $250 per terabyte per tahun. Amazon Redshift adalah satu-satunya layanan data warehouse yang menawarkan harga On Demand tanpa biaya di muka, dan juga menawarkan harga Reserved Instance yang menghemat hingga 75% dengan menyediakan jangka waktu 1-3 tahun.
- Choose your node type :
- Dense Compute Node : Node komputasi padat dapat menciptakan gudang data berkinerja tinggi dengan menggunakan CPU yang cepat, RAM dalam jumlah besar, dan solid-state disk.
- Dense Storage Node : Jika Anda ingin mengurangi biaya, maka Anda dapat menggunakan node penyimpanan padat. Ini menciptakan gudang data yang hemat biaya dengan menggunakan hard disk drive yang lebih besar.
Scale Quickly to Meet Your Needs
- Petabyte-scale data warehousing : Amazon Redshift secara otomatis meningkatkan atau menurunkan node sesuai dengan perubahan kebutuhan. Hanya dengan beberapa klik di AWS Console atau satu panggilan API dapat dengan mudah mengubah jumlah node dalam data warehouse.
- Exabyte-scale data lake analytics : Ini adalah fitur Redshift yang memungkinkan Anda untuk menjalankan kueri terhadap data sebesar exabyte di Amazon S3. Amazon S3 adalah data yang aman dan hemat biaya untuk menyimpan data tak terbatas dalam format terbuka.
- Limitless Concurrency : Ini adalah fitur Redshift yang berarti bahwa beberapa kueri dapat mengakses data yang sama di Amazon S3. Fitur ini memungkinkan Anda untuk menjalankan kueri di beberapa node terlepas dari kompleksitas kueri atau jumlah data
Query Your Data Lake
Amazon Redshift adalah satu-satunya data warehouse yang digunakan untuk melakukan query ke data lake Amazon S3 tanpa memuat data. Hal ini memberikan fleksibilitas dengan menyimpan data yang sering diakses di Redshift dan data yang tidak terstruktur atau jarang diakses di Amazon S3.
Secure
Dengan beberapa pengaturan parameter, Anda dapat mengatur Redshift untuk menggunakan SSL untuk mengamankan data Anda. Anda juga dapat mengaktifkan enkripsi, semua data yang ditulis ke disk akan dienkripsi.
Faster Performance
Amazon Redshift menyediakan penyimpanan data kolom, kompresi, dan pemrosesan paralel untuk mengurangi jumlah I/O yang diperlukan untuk melakukan kueri. Hal ini akan meningkatkan kinerja kueri.