Guest Lecture Toward data driven product development in Vidio.com

 

Pada Jumat, 11 Oktober 2019 dilaksanakan kuliah tamu dari Industry dengan judul Toward Data Driven Product Development yang dibawakan oleh Gemala Yanuariata Rahmaningtyas.

Gemala adalah seorang Data Scientist/Engineer di Vidio.com sejak 2017. Di Vidio.com, beliau bertugas antara lain: managing data infrastructure , managing ETL for data reporting, data infrastructure migration, driving product development by providing insights through data analysis  serta machine learning model development for video recommendation. Selain itu beliau juga merupakan Instructor  di Hactiv8.

Vidio.com sendiri merupakan website konten-konten video yang dari acara Liputan6.com, Viva.co.id, celeb360,  SCTV, Indosiar, RCTI, TransTV, Trans7 dan konten-konten lokal Indonesia lainnya. Video video resmi dari konten olahraga seperti dari bein sport dan Bola.com juga ada. Sejak tahun 2019, vidio.com mulai mengembangnagkan model bisnis berlangangganan dan berusaha untuk mengembangkan original content seperti NetFlix dan iFlix. Sebelumnya, Vidio.com menggunakan model bisnis video iklan yang mirip dengan model bisnis dari Youtube.

Gemala bercerita bahwa saat ini di vidio.com sedang memanfaatkan data ketika mengembangkan fitur-fitur Vidio.com. Awalnya, pengembangan fitur-fitur didasarkan pada intuisi dari business owner. Namun, saat ini sudah berbasiskan data dan insight yang dilakukan oleh tim data analist. Data driven product developement dilakukan dengan data sebagai ujung tombak pembuatan data. Di Vidio.com product manager harus membuat keputusan fitur-fitur tertentu berdasarkan analisa data. Di vidio.com terdapat tim untuk data exploration untuk mencari cluster costumer, most valuable costumer.. Sementara Tim data enggineering mengelola proses proses ETL.

Tantangan di Vidio.com nya adalah banyaknya source data yang berbeda-beda yang perlu dicentralized dan banyak bersentuhan dengan proses bisnis operasional. Tantangannya lainnya adalah menjaga data valid, kemudahan data untuk diakses, real-time data, serta resource dapat dioptimalisasi untuk meminimalisir cost.

Seluruh data untuk keperluan analytics dan prediction di Vidio.com  dimasukkan ke dalam Data Lake serta Data Warehouse. Proses ETL sendiri menggunakan Scala. Data yang relatif bersih dan telah diproses dalam ETL kemudian dimasukkan kedalam Data Mart. Saat ini, digunakan Tableau digunakan untuk membangun BI dashboard di Vidio.com. Dulunya, proses ETL dan model machine learning dibentuk mengunakan mengunakan liblary machine learning dari Python. Namun, saat ini ETL dan permodelan telah menggunakan Spark dan Scala karena bisa mengelola data yang besar dan lebih mudah dikelola.

Beberapa main metric di Vidio.com adalah Daily active user (DAU), Montly active subcription, Daily Plays, Percentage of users: metric seberapa bagus performance per feature serta Play contribution: per feature bagaimana di play nya. Menurut Gemala, metric yang bagus itu haruslah Comparative, mudah dimengerti, arusnya berbentuk rasio, seperti total click di website, serta kondisi Metric yang dapat dinamis berubah seiring waktu. Challenge yang dihadapi oleh Vidio.com dalam penentuan metric antara lain berupa actionable metric, metric yang harus valid, kadang terjadi query keliru menyebabkan data inkosisten dan berubah rubah. Haruslah bisa keeping track terhadap dashboard yang ada.

Spam filtering ini di Vidio.com saat ini  dilakukan pada Video Spam denga filtering dengan teknik khusus. Sementara spam comment menggunakan linear reggression. Teknik similiar text extraction untuk recomendasi videio berdasarkan title. Teknik rekomendasi cross filtering juga dilakukan dengan penggabungan cross user preferences. Sementara, contextual search juga dilakukan untuk menghasillkan hasil search yang lebih bagus. Topic extraction juga digunakan untuk membuat topic berdasarkan Vidio nya. Semua proses Machine Learning di Vidio.com saat ini telah menggunakan Spark ML dan Recomended system di user menggunakan TFIDF. Pada saat ini sistem recomendation system juga sudah dilakukan sendiri oleh Vidio.com dengan Word2Vec.

Tantangan lainnya yang dihadapi di Vidio.com antara lain permodelan yang membutuhan resource optimalisasi serta data cleaning. Kemudian, mereka juga menghadapi tantangan data representative dan berkulitas bagus serta seimbang. Tantangan lainnya antara lain banyak user behaviour yang tidak mudah dipredeksi, proyek-proyek membutuhkan waktu yang lama, sementara di Industry. membutuhkan fast-paced solution. Sehingga banyak solusi dibuat teknik sederhana dulu sambil mengembangkan teknik-teknik yang lebih bagus. Pada akhirnya experimentation & evaluation di Vidio.com berdasarkan revenue yang didapat.

Dilaporkan oleh: Riyanto Jayadi