Apakah Deep Learning ?
Deep learning adalah seperangkat algoritma dalam machine learning yang berusaha belajar dalam berbagai level, sesuai dengan tingkat abstraksi yang berbeda. Ini biasanya menggunakan jaringan syaraf tiruan. Tingkat dalam model statistik yang dipelajari ini sesuai dengan tingkat konsep yang berbeda, di mana konsep tingkat yang lebih tinggi ditentukan dari tingkat yang lebih rendah, dan konsep tingkat yang lebih rendah dapat membantu untuk mendefinisikan banyak konsep tingkat yang lebih tinggi (Deng & Yu, 2014).
Deep learning merupakan bagian dari machine learning yang menjadi acuan penelitian paling popular saat ini. Deep learning menggunakan Artificial Neural Network (ANN) yang merupakan mesin proses informasi yang dimodelkan pada struktur dan tindakan jaringan saraf biologis pada otak. ANN bersifat fleksibel dan dapat beradaptasi sendiri untuk memecahkan masalah kompleks yang tidak jelas yang digambarkan oleh model matematika, seperti pengenalan pola dan klasifikasi, pendekatan fungsi dan kontrol (Lu Yifei, 2017). Prinsip deep learning adalah Artificial Neural Network (ANN) yang memiliki banyak lapisan tersembunyi (Apapan Pumsirirat & Liu Yan, 2018).
Menurut Deng & Yu (2014) berdasarkan arsitektur dan teknik yang digunakan, secara luas deep learning terbagi menjadi 3 (tiga) kategori:
- Deep Networks for Unsupervised or Generative Learning
Kategori ini menangkap korelasi tingkat tinggi dari data yang diamati atau terlihat untuk analisis pola atau tujuan sintesis ketika tidak terdapat informasi tentang label kelas target yang tersedia.
- Deep Networks for Supervised Learning
Kategori ini secara langsung memberikan kekuatan diskriminatif untuk tujuan klasifikasi pola, biasanya dengan mengkarakterisasi distribusi posterior kelas yang dikondisikan pada data yang terlihat. Data label target selalu tersedia dalam bentuk langsung atau tidak langsung untuk pembelajaran yang diawasi seperti itu. Kelas ini juga disebut sebagai discriminative deep networks.
- Hybrid Deep Network
Kategori ini tujuannya adalah diskriminasi yang dibantu, seringkali secara signifikan, dengan hasil generative atau unsupervised deep networks. Tujuan lain dicapai ketika kriteria diskriminatif untuk supervised learning digunakan untuk memperkirakan parameter di salah satu deep generative atau unsupervised deep networks dalam kategori di atas.
Menurut Pandey (2017), deep learning adalah cabang dari algoritma machine learning sebagai berikut :
- Menggunakan banyak lapisan unit pemrosesan non-linear untuk ekstraksi fitur serta transformasi. Output dari setiap lapisan berturut-turut adalah input dari lapisan sebelumnya. Algoritma pembelajaran mendalam mungkin unsupervised atau supervised dan aplikasi termasuk analisis pola (unsupervised) dan klasifikasi (supervised).
- Mempelajari berbagai tingkat fitur atau representasi data. Fitur pada tingkat yang lebih tinggi berasal dari fitur tingkat yang lebih rendah untuk membentuk representasi hirarkis.
- Merupakan bagian dari bidang machine learning yang lebih luas yang mempelajari representasi data.
Salah satu prasyarat untuk belajar adalah bahwa ada sesuatu untuk dipelajari sehingga sampel diperlukan. Untuk mesin sampel ini adalah kumpulan data. Pada algoritma deep learning untuk mendapatkan model yang stabil dan tahan lama, diperlukan data yang sesuai. Korelasi atau konteks antara data sampel, atau transformasi data sampel dan hasil yang diinginkan diperlukan. Data yang dikumpulkan biasanya dibagi menjadi dua kelompok. Kelompok kumpulan data ini disebut rangkaian pelatihan dan rangkaian uji. Rangkaian pelatihan adalah data yang diterapkan untuk membangun model. Set ini digunakan agar sesuai dengan model deep learning dengan memasangkan input dengan output yang diharapkan, dan mencoba menemukan beberapa hubungan antara variabel dan dengan demikian meminimalkan kesalahan. Setelah memasang model, rangkaian uji coba digunakan. Karena rangkaian uji tidak terlihat oleh model, maka dapat menggunakannya untuk mendapatkan ukuran akhir seberapa baik model deep learning sesuai data, ukuran ini harus menunjukkan seberapa baik model akan tampil pada data dunia nyata.
Menurut Pandey (2017), terdapat 4 (empat) langkah-langkah evaluasi kinerja model deep learning, yaitu:
- Data Preprocessing
Menurut Alasadi, S. A., & Bhaya, W. S. (2017) data preprocessing adalah salah satu langkah yang berhubungan dengan persiapan data dan transformasi dataset. Data preprocessing mencakup beberapa teknik antara lain data integration, data cleansing, dan data reduction.
Data integration merupakan teknik untuk menggabungkan 2 (dua) data dari basis data yang berbeda kedalam 1 (satu) basis data (Alasadi, S. A., & Bhaya, W. S., 2017).
Data cleansing merupakan tahapan dalam proses data preprocessing yang digunakan antara lain untuk menemukan missing value (nilai yang hilang dari data) dan memperbaiki inkonsisten data (Alasadi, S. A., & Bhaya, W. S., 2017).
Data reduction merupakan teknik yang digunakan untuk mengurangi representasi dari dataset. Proses data reduction dapat menggunakan metode feature selection (Alasadi, S. A., & Bhaya, W. S., 2017).
Feature selection adalah proses yang memilih subset fitur yang optimal sesuai dengan kriteria tertentu. Metode ini ditujukan untuk menghilangkan fitur yang tidak relevan dan berlebihan, mengurangi jumlah fitur dalam model.
Feature selection bertujuan antara lain:
- Untuk meningkatkan kinerja (interval kecepatan, daya prediksi, kesederhanaan model).
- Untuk mengurangi dimensi.
Metode lain yang digunakan dalam proses data preprocessing adalah feature construction. Feature construction adalah metode yang digunakan dalam menambahkan beberapa fitur baru yang diperlukan dalam dataset untuk meningkatkan akurasi klasifikasi data (Kotsiantis, S. B., Kanellopoulos, D., & Pintelas, P. E., 2006).
- Setup and Load Dataset
Pada proses ini dilakukan split/pemisahan dan pembagian dataset menjadi 3 yaitu:
- Training Set
Merupakan data yang digunakan oleh algoritma klasifikasi untuk membentuk model klasifikasi serta sebagai proses pembelajaran jaringan saraf untuk mendapatkan hasil yang diharapkan (Lu Yifei, 2017).
- Validation Set
Merupakan data yang digunakan untuk mencari parameter yang paling baik untuk sebuah algoritma klasifikasi serta untuk menguji jaringan saraf yang telah dilakukan pada proses pembelajaran dengan menggunakan training set (Lu Yifei, 2017).
- Testing Set
Merupakan data yang digunakan untuk mengukur sejauh mana model berhasil melakukan klasifikasi dengan benar (Lu Yifei, 2017).
- Train a Deep Neural Network Model;
Berdasarkan penelitian Lu Yifei (2017), metode deep learning menggunakan parameter sebagai berikut:
- Hidden layer, untuk menentukan jumlah lapisan tersembunyi dan jumlah neuron di setiap lapisan dalam arsitektur pembelajaran mendalam. Gambar 2.1 menjelaskan mengenai hidden layer dengan jumlah 2 (dua) layer. Informasi input memasuki lapisan tersembunyi pertama dan output dari lapisan ini ditransfer sebagai input ke lapisan tersembunyi kedua dan seterusnya. Setiap lapisan menerima output dari lapisan sebelumnya sebagai input, sehingga sinyal input merambat maju pada basis lapis demi lapis sampai lapisan output.
- Epochs, untuk mewakili jumlah iterasi yang harus dilakukan pada set data. Epochs menandakan satu siklus algoritma deep learning belajar dari keseluruhan training dataset. Satu epochs berarti menandakan sebuah algoritma deep learning telah belajar dari training dataset secara keseluruhan (Satria Wibawa, 2017).
- Learning rate, merupakan salah satu parameter training untuk menghitung nilai koreksi bobot pada waktu proses training. Nilai learning rate ini berada pada range nol (0) sampai (1). Semakin besar nilai learning rate, maka proses training akan berjalan semakin cepat. Semakin besar learning rate, maka ketelitian jaringan akan semakin berkurang, tetapi berlaku sebaliknya, apabila learning rate-nya semakin kecil, maka ketelitian jaringan akan semakin besar atau bertambah dengan konsekuensi proses training akan memakan waktu yang semakin lama.
- Evaluate Performance, kinerja model dievaluasi performanya berdasarkan parameter epochs dan learning rate yang telah disetting sampai dengan mendapatkan hasil dari model dengan kinerja yang paling ideal berdasarkan tingkat akurasi, TPR/sensitivity dan Kurva Receiver Operating Characteristic (ROC).
Daftar Pustaka
Deng, L., & Yu, D. (2014). Deep Learning: Methods and Applications. Foundations and Trends® in Signal Processing, 7(3–4), 197–387. https://doi.org/10.1561/2000000039.
Lu, Y. (2017). Deep neural networks and fraud detection. U.U.D.M. Project Report 2017:38
Pumsirirat, A., & Yan, L. (2018). Credit Card Fraud Detection using Deep Learning based on Auto-Encoder and Restricted Boltzmann Machine. International Journal of Advanced Computer Science and Applications (IJACSA), 9(1), 18–25. https://doi.org/10.14569/IJACSA.2018.090103
Penulis:
Astari Retnowardhani, PhD
Tiswa Ramdani, MMSI