Prediksi Sentimen Pada Teks Media Sosial Corporate University Menggunakan RoBERTa
Abstract
Sentimen publik yang tercermin dalam media sosial memainkan peran sentral dalam membentuk citra sebuah corporate university. Penelitian ini bertujuan untuk melakukan prediksi sentimen pada data teks media sosial corporate university menggunakan salah satu model kecerdasan buatan untuk teknik Natural Language Processing (NLP) yaitu RoBERTa (a Robustly Optimized BERT Pretraining Approach). RoBERTa merupakan salah satu model NLP yang dilatih dalam korpus bahasa tertentu, kompleks dan mampu menghasilkan representasi teks dengan baik, yang berpotensi meningkatkan kinerja dalam memahami konteks dan niat di balik teks media sosial. Dalam kasus ini, RoBERTa dilatih dalam korpus Bahasa Indonesia yang disebut IndoRoBERTa. Pada penelitian ini, dikumpulkan dataset berbasis teks untuk dilakukan pra-pemrosesan data. Setelah itu, dilakukan konfigurasi hiperparameter yang dilanjutkan dengan fine-tuning dari model untuk dilatih dalam tugas analisis sentimen. Berdasarkan hasil fine-tuning, secara komparatif, IndoRoBERTa mengungguli varian IndoBERT lainnya dalam tugas analisis sentimen. Selanjutnya dilakukan evaluasi model IndoRoBERTa berdasarkan laporan klasifikasi, dan didapatkan bahwa model yang dilatih menghasilkan nilai rata-rata untuk akurasi tes 96.2% dan F1-Score 95.2% dari tiga kelas sentimen: negatif, netral, positif. Selain itu, untuk keseluruhan evaluasi model berdasarkan confusion matrix, sensitivitas, spesifisitas, MCC, indeks Kappa Cohen, dan kurva ROC, diperoleh hasil kinerja yang baik. Terakhir, model yang telah dievaluasi, dilakukan uji prediksi sentimen dari sejumlah sampel postingan teks media sosial yang berkaitan dengan corporate university, dan didapatkan nilai prediksi rata-rata dari sampel lebih dari 97%. Secara keseluruhan, hasil prediksi ini membantu bagaimana corporate university merespon publik terhadap layanan dan produk, khususnya layanan pendidikan dan pelatihan SDM