NIST Big Data Reference Architecture (NBDRA)

Oleh: Tuga Mauritsius

Istilah Big Data mengacu pada data heterogen dalam jumlah besar baik yang berasal dari sumber tradisional maupun sumber sumber nontradisional, yang bertumbuh dengan sangat pesat melampaui kecepatan pertumbuhan data di waktu waktu lampau. Karena heterogenitasnya yang tinggi, membangun sistem untuk memproses dan menganalisis secara efisien sejumlah besar data  merupakan tantangan bagi organisasi manapun. Arsitektur Big data menggambarkan cetak biru sistem untuk menangani volume data yang sangat besar tersebut, baik selama penyimpanan, pemrosesan, analisis, dan visualisasi. Beberapa arsitektur populer telah diusulkan baik oleh akademisi maupun industry, di antaranya Lambda Architecture, Kappa Architecture, The Microservice Architecture dll, namun hingga saat ini bidang tersebut masih belum memiliki benchmark yang dapat menjadi referensi berbagai kalangan. Oleh karena itu, analisis mendetail tentang karakteristik arsitektur yang ada diperlukan untuk memudahkan pilihan yang disesuaikan dengan konteks atau kasus penggunaan tertentu. Jenis sumber data, persyaratan perangkat keras, latensi maksimum yang dapat ditoleransi, kesesuaian dengan industri, jumlah data yang akan ditangani adalah beberapa faktor yang perlu dipertimbangkan dengan cermat sebelum membuat pilihan arsitektur sistem Big Data yang tepat. Pemilihan arsitektur yang salah dapat mengakibatkan kerugian yang besar baik secara finansial maupun reputasi perusahaan atau organisasi pada umumnya.

Setiap pihak yang terkait dengan domain Big Data perlu memiliki pemahaman dasar tentang bagaimana ekosistem Big Data dirancang dan dioperasikan di lingkungan perusahaan. Pihak pihak tersebut perlu memahami bagaimana data mengalir melalui berbagai lapisan organisasi. Memahami dasar-dasar arsitektur Big Data akan membantu banyak pihak termasuk teknisi sistem, data saintist/ilmuwan data, pengembang Software, data arsitek, dan para pembuat keputusan untuk memahami bagaimana keterkaitan antara komponen Big Data, dan menyediakan sumber daya yang cukup untuk mengembangkan solusi Big Data yang tepat.

Dalam artikel ini akan dibahas Arsitektur Big Data yang dikembangkan oleh National Institute of Standards and Technology (NIST), suatu lembaga yang berada di bawah naungan U.S Department of Commerce. Arsitektur ini dikenal dengan nama NIST Big Data Reference Architecture yang disingkat (NBDRA).  

Arsitektur referensi dapat dianggap sebagai sumber daya yang mendokumentasikan pengalaman belajar berbagai pihak yang diperoleh melalui proyek-proyek sebelumnya. Tujuan dari arsitektur referensi adalah untuk menciptakan “open standard”, yang dapat digunakan oleh semua organisasi. Manfaat penggunaan arsitektur referensi Big Data ‘terbuka’ meliputi: Menyamakan persepsi untuk berbagai pemangku kepentingan; Mendorong kepatuhan pada standar, spesifikasi, dan pola umum; Menyediakan metode yang konsisten untuk implementasi teknologi; Meningkatkan pemahaman  berbagai komponen Big Data, proses, dan sistem, dalam konteks model konseptual yang bebas vendor (vendor agnostic) dan teknologi (technology agnostic); Memfasilitasi analisis standar standar untuk interoperabilitas, portabilitas, reusabilitas dan extendibility.

Arsitektur Referensi Big Data NIST adalah pendekatan bebas vendor dan dapat digunakan oleh organisasi mana pun. Gambar 1 memperlihatkan arsitektur ini yang terdiri dari lima komponen fungsional logis yang dihubungkan oleh antarmuka yang saling terkait. Dua lapisan menyelimuti kelima komponen itu, mewakili lapisan manajemen dan lapisan keamanan serta privasi. Dalam beberapa paragraf berikut, setiap komponen akan dibahas sedikit lebih detail.

Gambar 1: NIST Big Data Reference Architecture (NBDRA) (Sumber: NIST Big Data Public Working Group, Definitions and Taxonomies Subgroup)

NBDRA diatur di sekitar lima peran utama dan beberapa sub-peran yang diselaraskan di sepanjang dua sumbu yang mewakili dua rantai nilai Big Data: Nilai Informasi (sumbu horizontal) dan Teknologi Informasi (IT; sumbu vertikal). Sepanjang sumbu Nilai Informasi, nilai dibuat melalui pengumpulan data, integrasi, analisis, dan penerapan hasil yang mengikuti rantai nilai. Sepanjang sumbu IT, nilai dibuat melalui penyediaan jaringan, infrastruktur, platform, alat aplikasi, dan layanan IT lainnya untuk menghosting dan mengoperasikan Big Data untuk mendukung aplikasi data yang diperlukan. Di persimpangan kedua sumbu adalah peran Penyedia Aplikasi Big Data, yang menunjukkan bahwa analitik data dan implementasinya memberikan nilai bagi pemangku kepentingan Big Data di kedua rantai nilai.

Lima peran utama yang ditunjukkan pada Gambar 1 mewakili komponen logis atau peran dari setiap ekosistem Big Data, dan hadir di setiap perusahaan: System Orchestrator; Data Provider; Big Data Application Provider; Big Data Framework Provider: Data Consumer. Dua dimensi yang ditunjukkan pada Gambar 1 yang mencakup lima peran utama adalah: Management; Security & Privacy. Dimensi ini menyediakan layanan dan fungsionalitas untuk lima peran utama di area khusus untuk Big Data dan sangat penting untuk solusi Big Data manapun.

System Orchestrator Orkestrasi Sistem adalah pengaturan otomatis, koordinasi, dan manajemen sistem komputer, middleware, dan layanan. Orkestrasi memastikan bahwa berbagai aplikasi, data, dan komponen infrastruktur dari lingkungan Big Data semuanya bekerja bersama. Untuk mencapai hal ini, System Orchestrator menggunakan alur kerja, otomatisasi, dan proses manajemen perubahan. Lingkungan IT Big Data terdiri dari kumpulan berbagai komponen aplikasi, data, dan infrastruktur. System Orchestrator (seperti konduktor) memastikan bahwa semua komponen ini bekerja bersama secara sinkron.

Data Provider Peran Penyedia Data mensuplai data atau informasi baru yang dimasukkan ke dalam sistem Big Data untuk ditemukan, diakses, dan ditransformasi oleh sistem Big Data. Data dapat berasal dari berbagai sumber, seperti data yang dihasilkan manusia (media sosial), data sensorik (tag RFID), atau sistem pihak ketiga (transaksi bank). Salah satu karakteristik utama Big Data adalah aspek keragamannya, artinya data dapat datang dalam format yang berbeda dari sumber yang berbeda. Data masukan dapat berupa file teks, gambar, audio, weblog, dll. Sumber dapat mencakup sistem perusahaan internal (ERP, CRM, Keuangan) atau sistem eksternal (data yang dibeli, media sosial). Akibatnya, data dari sumber yang berbeda mungkin memiliki pertimbangan keamanan dan privasi yang berbeda. Seperti yang digambarkan dalam gambar 1, transfer data terjadi antara Penyedia Data dan Penyedia Aplikasi Big Data. Transfer data ini biasanya terjadi dalam tiga fase: inisiasi, transfer data, dan terminasi. Fase inisiasi dimulai oleh salah satu dari dua pihak dan sering kali menyertakan beberapa tingkat otentikasi. Fase transfer data mendorong data menuju Penyedia Aplikasi Big Data. Fase terminasi memeriksa apakah transfer data telah berhasil dan mencatat pertukaran data.

Big Data Application Provider Penyedia Aplikasi Big Data adalah komponen arsitektur yang berisi logika bisnis dan fungsionalitas yang diperlukan untuk mengubah data menjadi hasil yang diinginkan. Tujuan umum dari komponen ini adalah untuk mengekstrak nilai dari data masukan, dan ini mencakup aktivitas berikut: Collection; Preparation; Analytics; Visualization; Access. Tingkat dan jenis aplikasi (yaitu, program Software) yang digunakan dalam komponen arsitektur referensi ini sangat bervariasi dan didasarkan pada sifat dan bisnis perusahaan. Untuk perusahaan keuangan, aplikasi dapat mencakup Software pendeteksi penipuan, aplikasi skor kredit, atau Software otentikasi. Di perusahaan produksi, komponen Penyedia Aplikasi Big Data dapat berupa manajemen inventaris, pengoptimalan rantai pasokan, atau Software pengoptimalan rute.

Big Data Framework Provider Penyedia Kerangka Big Data memiliki sumber daya dan layanan yang dapat digunakan oleh Penyedia Aplikasi Big Data, dan menyediakan infrastruktur inti Arsitektur Big Data. Dalam komponen ini, data disimpan dan diproses berdasarkan desain yang dioptimalkan untuk lingkungan Big Data. Penyedia Kerangka Big Data dapat dibagi lagi menjadi sub-peran berikut:

Infrastructure: networking, computing and storage

Platforms: data organization and distribution

Processing: computing and analytic Sebagian besar lingkungan Big Data menggunakan penyimpanan dan pemrosesan terdistribusi dan kerangka kerja Software Open Source Hadoop untuk merancang sub-peran Penyedia Kerangka Big Data ini. Lapisan infrastruktur terkait dengan kebutuhan jaringan, komputasi, dan penyimpanan untuk memastikan bahwa format data yang besar dan beragam dapat disimpan dan ditransfer dengan cara yang hemat biaya, aman, dan dapat diskalakan. Pada intinya, persyaratan utama penyimpanan Big Data adalah ia mampu menangani sejumlah besar data dan terus menyesuaikan dengan pertumbuhan organisasi, dan dapat menyediakan operasi input / output per detik (IOPS ) yang diperlukan untuk mengirimkan data ke aplikasi. IOPS adalah ukuran kinerja penyimpanan yang melihat kecepatan transfer data. Lapisan platform adalah kumpulan fungsi yang memfasilitasi pemrosesan data berkinerja tinggi. Platform tersebut mencakup kemampuan untuk mengintegrasikan, mengelola, dan menerapkan pekerjaan pemrosesan ke data. Dalam lingkungan Big Data, ini secara efektif berarti bahwa platform perlu memfasilitasi dan mengatur pemrosesan terdistribusi pada solusi penyimpanan terdistribusi. Salah satu infrastruktur platform yang paling banyak digunakan untuk solusi Big Data adalah kerangka kerja Open Source Hadoop. Alasan Hadoop menyediakan infrastruktur platform yang begitu sukses adalah karena penyimpanan terpadu (penyimpanan terdistribusi) dan lingkungan pemrosesan (pemrosesan terdistribusi). Lapisan pemrosesan Penyedia Kerangka Big Data memberikan fungsionalitas untuk membuat kueri data. Melalui lapisan ini, perintah dijalankan yang menjalankan operasi waktu proses pada kumpulan data. Seringkali, ini akan melalui eksekusi algoritme yang menjalankan tugas pemrosesan. Di lapisan ini, analisis yang sebenarnya terjadi. Ini memfasilitasi ‘mengolah angka’ untuk mencapai hasil dan nilai Big Data yang diinginkan.

Data Consumer

Mirip dengan Penyedia Data, peran Konsumen Data dalam Arsitektur Referensi Big Data dapat berupa pengguna akhir aktual atau sistem lain. Dalam banyak hal, peran ini adalah bayangan dari Penyedia Data. Aktivitas yang terkait dengan peran Konsumen Data meliputi: “Search and Retrieve; Download; Analyze; Reporting; Visualization”. Konsumen Data menggunakan antarmuka atau layanan yang disediakan oleh Penyedia Aplikasi Big Data untuk mendapatkan akses ke informasi yang diminati. Antarmuka ini dapat mencakup pelaporan data, pengambilan data, dan rendering data.

 

Referensi:

National Institute of Standards and Technology (NIST), U.S. Department of Commerce, ; NIST Big Data Interoperability Framework: Volume 6, Reference Architecture; Oct 2019.