Mempelajari Secara Siangkat Hadoop : Apa itu Big Data?

Apa Itu Big Data

Data yang berukuran sangat besar disebut Big Data. Biasanya, data yang digunakan berukuran dalam MB (WordDoc, Excel) atau maksimal GB (Film, Kode), tetapi data dalam ukuran Peta byte yaitu 10^15 byte disebut Big Data. Diperkirakan bahwa hampir 90% data saat ini telah dihasilkan dalam tiga tahun terakhir.

Sumber Big Data Data ini berasal dari banyak sumber seperti:

  • Situs jejaring sosial: Facebook, Google, LinkedIn semuanya menghasilkan jumlah data yang sangat besar setiap hari karena memiliki miliaran pengguna di seluruh dunia.
  • Situs e-commerce: Situs seperti Amazon, Flipkart, Alibaba menghasilkan jumlah log yang besar dari mana tren pembelian pengguna dapat dilacak.
  • Stasiun Cuaca: Semua stasiun cuaca dan satelit memberikan data yang sangat besar yang disimpan dan dimanipulasi untuk meramalkan cuaca.
  • Perusahaan telekomunikasi: Raksasa telekomunikasi seperti Airtel, Vodafone mempelajari tren pengguna dan menyesuaikan rencana mereka, dan untuk ini mereka menyimpan data jutaan pengguna.
  • Pasar Saham: Bursa saham di seluruh dunia menghasilkan jumlah data yang sangat besar melalui transaksi harian mereka.

3V Big Data Kecepatan

  • (Velocity): Data meningkat dengan sangat cepat. Diperkirakan bahwa volume data akan berlipat ganda setiap dua tahun.
  • Keragaman (Variety): Saat ini data tidak disimpan dalam baris dan kolom. Data bisa terstruktur maupun tidak terstruktur. File log, rekaman CCTV adalah data tidak terstruktur. Data yang dapat disimpan dalam tabel adalah data terstruktur seperti data transaksi bank.
  • Volume: Jumlah data yang dihadapi sangat besar, mencapai ukuran Peta byte.

Contoh Kasus

Sebuah situs e-commerce XYZ (dengan 100 juta pengguna) ingin menawarkan voucher hadiah senilai $100 kepada 10 pelanggan teratas yang telah menghabiskan paling banyak dalam setahun terakhir. Selain itu, mereka ingin menemukan tren pembelian dari pelanggan ini agar perusahaan dapat menyarankan lebih banyak barang yang relevan bagi mereka.

Masalah

Jumlah data tidak terstruktur yang sangat besar perlu disimpan, diproses, dan dianalisis.

Solusi

  • Penyimpanan: Untuk jumlah data yang besar ini, Hadoop menggunakan HDFS (Hadoop Distributed File System) yang menggunakan perangkat keras komoditas untuk membentuk kluster dan menyimpan data secara terdistribusi. Sistem ini bekerja berdasarkan prinsip tulis sekali, baca berkali-kali.
  • Pemrosesan: Paradigma Map Reduce diterapkan pada data yang didistribusikan di jaringan untuk menemukan output yang diperlukan.
  • Analisis: Pig, Hive dapat digunakan untuk menganalisis data.
  • Biaya: Hadoop bersifat open source sehingga biaya tidak lagi menjadi masalah.

referensi : [1][2]

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *