1. Nenadzirano učenje značajki govora korištenjem neuronskih mreža baziranih na autoenkoderskim arhitekturama
- Author
-
Murn, Luka and Petrinović, Davor
- Subjects
feature learning ,glas ,govor ,speech ,TEHNIČKE ZNANOSTI. Računarstvo ,govor, glas, učenje značajki, nenadzirano učenje, neuronske mreže, autoenkoderi ,učenje značajki ,voice ,unsupervised learning ,neural networks ,TECHNICAL SCIENCES. Computing ,autoencoders ,neuronske mreže ,autoenkoderi ,nenadzirano učenje - Abstract
Nenadzirano učenje značajki i nižedimenzionalnih reprezentacija podataka nalazi primjene u strojnom učenju, kompresiji s gubitkom i sl. Postojeće metode poput analize osnovnih komponenata (PCA) se često baziraju na linearnim transformacijama podataka, dok su modernije metode bazirane na neuronskim mrežama bolje opremljene za prepoznavanje nelinearnih odnosa u podacima. U okviru diplomskog rada implementiran je sustav za nenadzirano učenje značajki govora korištenjem rijetke autoenkoderske arhitekture neuronskih mreža. Dodatno, evaluirana je implementacija nad klasičnim problemom afektivnog računarstva (prepoznavanje emocija), uz korištenje učenja s prijenosom značajki (engl. feature transfer learning). Diskutirana je optimalna arhitektura mreže s obzirom na aktivacijsku funkciju i broj trening epoha i uspoređeni su rezultati s GeMAPS značajkama iz openSMILE alata. Unsupervised feature learning and lower dimensional data representation finds application in machine learning, lossy compression, etc. Existing methods such as Principal Component Analysis (PCA) are often based on linear data transformations, while more modern methods based on neural networks are better equipped for detecting non-linear relationships in datasets. In this graduate thesis, a system for unsupervised learning of speech features was implemented, using a neural network based on a sparse autoencoder architecture. In addition, the implementation of the classical problem of emotion recognition in affective computing was evaluated, along with the use of feature transfer learning. The optimal network architecture was discussed with regards to the activation functions and number of training epochs and the results were compared with GeMAPS features from the openSMILE toolkit.
- Published
- 2018