Rosero Jacome, Karen Gissell, 1996, Masiero, Bruno Sanches, 1981, Grijalva Arévalo, Felipe Leonel, 1984, Biscainho, Luiz Wagner Pereira, Tavares, Tiago Fernandes, Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica, and UNIVERSIDADE ESTADUAL DE CAMPINAS
Orientadores: Bruno Sanches Masiero, Felipe Leonel Grijalva Arévalo Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação Resumo: O sistema auditivo humano tem a capacidade de extrair significado do som, ajudan-do-nos a identificar e localizar sons em um ambiente acústico. O desenvolvimento de métodos computacionais inspirados nas capacidades e comportamentos humanos estabeleceu oportunidades para melhorar a escuta de máquina. Estudos recentes baseados em aprendizado profundo mostram que o uso de redes neurais convolucionais e recorrentes é uma abordagem promissora para a tarefa de detecção e localização de eventos sonoros (SELD). Mas, dependendo do ambiente sonoro, o desempenho dos sistemas ainda está longe de atingir métricas satisfatórias, apesar de já ter superado o desempenho humano para algumas tarefas. Portanto, este projeto pretende aumentar o desempenho dos sistemas SELD estudados, melhorando diferentes etapas do processo. É proposto o uso de filtros auditivos Gammatone para a extração de características acústicas, e contempla-se a implementação de um bloco de convoluções temporais numa arquitetura de rede convolucional recorrente. O sistema suportará a detecção e localização de até três eventos sonoros que podem ser da mesma classe ou não. Além disso, devido à quantidade limitada de amostras de áudio contidas nos conjuntos de dados, também exploramos o uso de técnicas adequadas de aumento de dados. O sistema é avaliado em bases de dados que representam ambientes com diferentes níveis de dificuldade. Os resultados do trabalho mostram que os filtros Gammatone são uma ótima alternativa para modificar a resolução linear de frequência do espectrograma, pois modelam a distribuição da tonotopia produzida na cóclea. Em relação à arquitetura da rede, o bloco de convoluções temporais captura dependências de longo prazo dos dados, gerando uma extração de características mais profunda e que produz um número maior de parâmetros treináveis, sem aumentar muito a complexidade da arquitetura do sistema. Por fim, dentre as técnicas de aumento de dados avaliadas, as que mostraram os melhores resultados foram mascaramento de frequência, magnitude aleatória e troca dos canais Ambisônicos. A avaliação do sistema proposto superou todas as métricas do estado da arte obtidas nas quatro bases de dados utilizadas, mantendo um desempenho aceitável em ambientes reverberantes e com múltiplas fontes sonoras, e um desempenho quase perfeito em um ambiente anecoico Abstract: The human auditory system has the ability to extract meaning from sound, helping us to identify and localize sounds in an acoustical environment. The development of computational methods inspired in human capacities and behaviors has established opportunities for improving machine hearing. Recent studies based on deep learning show that the use of convolutional neural networks (CNN) and recurrent neural networks (RNN) is a promising approach for the sound event detection and localization (SELD) task. Even though, depending on the sound environment, the performance of these systems is still far from reaching perfect metrics, in some aspects they have already surpassed the human performance. Therefore, this project intends to boost the performance of the studied SELD systems by improving different stages of the process. We propose the use of Gammatone auditory filters for the acoustic feature extraction stage, and the implementation of a temporal convolutional network (TCN) along with CNN and RNN layers is contemplated as an improvement for the traditional SELD architecture. The system will support the detection and localization of up to three sound events that could be class-coincident or not. Furthermore, due to the limited quantity of audio samples contained in the datasets, we also explore the use of suitable data augmentation techniques. The system is evaluated on databases that represent environments with different levels of difficulty. The results of this work show that the Gammatone filters are a great alternative to modify the linear frequency resolution of the spectrogram, since they model the tonotopic distribution produced in the cochlea. Regarding the network architecture, the TCN block captures long-term dependencies on data, generating a deeper feature extraction that produces a greater number of trainable parameters, without adding much complexity to the system architecture. Lastly, the data augmentation techniques that showed the best results were frequency masking, random magnitude, and swapping of Ambisonics channels. The evaluation of the proposed system surpassed all the state of the art metrics obtained for four different datasets, maintaining an acceptable performance in reverberant environments and audio scenes with multiple sound sources, and an almost perfect performance in an anechoic environment Mestrado Telecomunicações e Telemática Mestra em Engenharia Elétrica FAPESP 2019/22945-3