Back to Search Start Over

Automatic Emotional Speech Analysis from Daylong Child-Centered Recordings from a Neonatal Intensive Care Unit

Authors :
Vaaras, Einari
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Tampere University
Publication Year :
2021

Abstract

Speech emotion recognition (SER) is the task of recognizing the emotional state of the speaker from a speech signal. One potential field of application for SER is the study of the effect of parental proximity and communication to the early cognitive development of preterm infants. A crucial aspect in this kind of research is the analysis of the emotional content of speech that the preterm infants hear during intensive care. However, manual analysis of emotions in speech is highly time-consuming and expensive. Hence, an automatic SER system is essentially required for performing large-scale emotional speech analysis. In the present study, a system which performs SER for real-life child-centered audio samples from a neonatal intensive care unit (NICU) was developed. Typically, with enough labeled training data, a traditional supervised machine learning approach could be taken to address this task. However, the primary audio material of the present experiments recorded in a NICU contains hundreds of hours of audio, and is thus far too large to be fully annotated manually. Therefore, alternative machine learning-based approaches, namely cross-corpus generalization, k-medoids clustering-based active learning (AL), and Wasserstein generative adversarial network-based domain adaptation (DA), are compared in the present experiments. Since the dataset from the NICU was initially unannotated and the manual annotation of the recordings is laborious, simulations with four already existing SER corpora were first conducted to find out what would be the best approach for deploying a SER system on a novel unannotated corpus. Then, a subset of the NICU dataset was annotated, and the discovered solutions from the simulations were applied this subset to test how the simulated strategies would work in practice. As a result, the DA method outperformed the cross-corpus generalization approach in situations when there are no labeled data available for the target corpus. With a moderate human annotation effort, the AL method was superior compared to the DA method for the classification of valence when approximately 4% of the NICU data was annotated. With the same number of annotated samples, the DA method slightly outperformed the AL method when classifying arousal. For a binary classification for valence, the best-performing model was a support vector machine classifier utilizing the AL method with a classification accuracy of 73.4% unweighted average recall (UAR). For arousal, the best model for a binary classification was a neural network-based classifier using the DA method with an accuracy of 73.2% UAR. Puheen tunteiden tunnistuksessa (SER, Speech Emotion Recognition) tarkoituksena on tunnistaa puhujan emotionaalinen tila puhesignaalista. Yksi potentiaalinen soveltamisala SER:ille on tutkimus vanhempien läheisyyden ja kommunikaation vaikutuksesta keskosvauvojen varhaiseen kognitiiviseen kehitykseen. Yksi tärkeä näkökanta tällaisessa tutkimuksessa on analysoida emotionaalista sisältöä puheesta, jota keskoset kuulevat tehohoidon aikana. Puheen emotionaalisen sisällön manuaalinen analyysi on kuitenkin erittäin aikaavievää ja kallista. Täten olennaisesti tarvitaan automaattinen SER-systeemi laajamittaiseen puheen emootioanalyysiin. Tässä tutkimuksessa tarkastellaan systeemiä, joka suorittaa SER:iä tosielämän lapsikeskeisille ääninäytteille vastasyntyneiden teho-osastolta. Tyypillisesti tällaista ongelmaa voitaisiin lähestyä ohjatun koneoppimisen menetelmin, mikäli riittävä määrä annotoitua opetusdataa on saatavilla. Tutkimuksen pääaineisto eli teho-osastonauhoitteet sisältävät kuitenkin satoja tunteja äänimateriaalia, joten aineisto on aivan liian suuri manuaalisesti annotoitavaksi. Tämän vuoksi vaihtoehtoisia koneoppimisen lähestymistapoja vertailtiin tutkimuksessa. Nämä lähestymistavat olivat ristikorpusopetus, k-medoids -klusterointialgoritmiin perustuva aktiivinen oppiminen (AL, Active Learning) sekä Wasserstein-generatiiviseen kilpailevaan verkostoon perustuva määrittelyjoukon adaptointi (DA, Domain Adaptation). Koska tutkimuksen teho-osastonauhoitteista puuttuivat aluksi annotaatiot ja nauhoitteiden manuaalinen annotointi on erittäin työlästä, simulaatioita suoritettiin neljällä jo olemassa olevalla SER-korpuksilla jotta saataisiin selville, että mikä olisi parhain lähestymistapa kehittää SER-järjestelmää annotoimattomalle korpukselle. Tämän jälkeen osa teho-osastonauhoitteista annotoitiin ja näitä annotoituja nauhoitteita käytettiin arvioimaan simulaatioiden avulla saatujen löydösten toimivuutta käytännössä. Tutkimuksen kokeissa DA-metodi suoriutui paremmin kuin ristikorpusopetus tapauksissa, joissa annotoitua dataa ei ole saatavilla kohdekorpukselle. Kohtalaisella annotoinnilla AL-metodi oli parempi kuin DA-metodi valenssin luokittelussa kun noin 4% teho-osastonauhoitteista oli annotoitu. Samalla määrällä annotaatioita DA-metodi suoriutui kuitenkin hieman paremmin kuin AL-metodi virittävyyden luokittelussa. Valenssin binäärisessä luokittelussa parhaiten suoriutunut koneoppimismalli oli AL-metodia hyödyntävä tukivektorikone, jonka luokittelutarkkuus oli 73.4% UAR (engl. unweighted average recall). Vastaavasti virittävyyden binäärisessä luokittelussa parhain koneoppimismalli oli DA-metodia hyödyntävä neuroverkkopohjainen luokitin, jonka tarkkuus oli 73.2% UAR.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.od......4853..f86d47e282e56aeaa795f67668198b9b