Back to Search Start Over

Deteksi Emosi Wicara pada Media On-Demand menggunakan SVM dan LSTM

Authors :
Ainurrochman
Derry Pramono Adi
Agustinus Bimo Gumelar
Source :
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi); Vol 4 No 5 (2020): Oktober 2020; 799-804, Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), Vol 4, Iss 5, Pp 799-804 (2020)
Publication Year :
2020
Publisher :
Ikatan Ahli Informatika Indonesia (IAII), 2020.

Abstract

To date, there are many speech data sets with emotional classes, but with impromptu or intentional actors. The native speakers are given a stimulus in each emotion expression. Because natural conversation from secretly recorded daily communication still raises ethical issues, then using voice data that takes samples from movies and podcasts is the most appropriate step to take the best insights from speech. Professional actors are trained to induce the most real emotions close to natural, through the Stanislavski acting method. The speech dataset that meets this qualification is the Human voice Natural Language from On-demand media (HENLO). Within HENLO, there are basic per-emotion audio clips of films and podcasts originating from Media On-Demand, a motion video entertainment media platform with the freedom to play and download at any time. In this paper, we describe the use of sound clips from HENLO, then conduct learning using Support Vector Machine (SVM) and Long Short-Term Memory (LSTM). In these two methods, we found the best strategy by training LSTMs first, then then feeding the model to SVM, with a data split strategy at 80:20 scale. The results of the five training phases show that the last accuracy results increased by more than 17% compared to the first training. These results mean both complement and methods are important for improving classification accuracy.<br />Hingga saat ini, terdapat banyak dataset wicara dengan kelas emosi, namun dengan aktor dadakan atau disengaja. Penutur asli diberi stimulus serta petunjuk emosi apa yang harus ditampakkan selanjutnya. Karena percakapan natural dari komunikasi sehari-hari masih menimbulkan isu etik ketika direkam secara diam-diam, maka, menggunakan data suara yang mengambil sampel dari film dan podcast adalah langkah paling tepat untuk mengambil insight terbaik dari wicara. Aktor profesional terlatih untuk menginduksikan emosi paling nyata mendekati natural, melalui metode akting Stanislavski. Dataset suara yang memenuhi kualifikasi ini adalah Human voice Natural Language from On-demand media (HENLO). Di dalam HENLO, terdapat klip audio per emosi dasar dari film dan podcast yang berasal dari Media On-Demand, yaitu platform media hiburan motion video dengan kebebasan play dan download kapanpun. Dalam makalah ini, kami menjabarkan penggunaan klip suara dari HENLO, lalu melakukan learning menggunakan Support Vector Machine (SVM) dan Long Short-Term Memory (LSTM). Pada dua metode tersebut, kami menemukan strategi terbaik dengan melatih LSTM terlebih dahulu, lalu selanjutnya memberi feed model ke SVM, dengan strategi split data di skala 80:20. Hasil dari lima kali fase training menunjukkan hasil akurasi terakhir meningkat lebih dari 17% dibandingkan dengan training pertama. Hasil ini berarti kedua metode komplemen dan penting untuk peningkatan akurasi klasifikasi.

Details

Language :
English
ISSN :
25800760
Database :
OpenAIRE
Journal :
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi)
Accession number :
edsair.doi.dedup.....4a4c430fd94f29198ae49e26d8374678
Full Text :
https://doi.org/10.29207/resti.v4i5