Back to Search Start Over

Uma arquitetura para teste de sistemas de reconhecimento da fala com geração automática de áudios

Authors :
OLIVEIRA, Chaina Santos
PRUDÊNCIO, Ricardo Bastos Cavalcante
Source :
Repositório Institucional da UFPE, Universidade Federal de Pernambuco (UFPE), instacron:UFPE
Publication Year :
2019
Publisher :
Universidade Federal de Pernambuco, 2019.

Abstract

CNPq As aplicações que utilizam sistemas de reconhecimento de fala (speech to text - STT) estão em ascendência nos últimos anos. Tal crescimento se deu tanto pela evolução de pesquisas acadêmicas na área, quanto pela facilidade de comunicação via fala. Esses tipos de software têm simplificado a interação entre humanos e máquinas (e.g., sistemas para smartphones, smart home, smart cities, etc.). Tais aplicações possuem uma variedade de usuários (nacionalidades, sotaques e gêneros diferentes) que influenciam diretamente na avaliação da qualidade de tais sistemas. Os usuários são exigentes e as diferenças anteriormente citadas devem ser levadas em consideração no momento de avaliar tais aplicações. Uma das atividades fundamentais na garantia da qualidade em aplicações que utilizam sistemas STT é o teste de SW. Para tal, faz-se necessário a utilização de técnicas que consigam reproduzir as variações da fala humana para a obtenção de resultados mais expressivos e, com isso, evitar o uso de pessoas (fala gravada) devido aos altos custos e disponibilidade. Diante disso, o uso de falas sintéticas para teste de sistemas STT seria uma opção às falas humanas devido ao seu baixo custo e praticidade de obtenção. Dado esse contexto, o presente trabalho propõe uma arquitetura para testes de sistemas STT com áudios sintetizados utilizando quatro abordagens de síntese diferentes. Para a validação do uso de áudios sintéticos como uma alternativa aos gravados, foram realizados experimentos automatizados (aplicados a sistemas de STT em smartphones) e baseados na opinião de pessoas (i.e., teste de Turing e de qualidade). Ambos os experimentos utilizaram um ambiente real de teste de SW nas dependências do projeto CIn-Motorola. In recent years, applications that use speech-to-text (STT) systems are in the ascendancy. Such growth is due to the evolution of academic research in the area and to the ease of communication through speech. These softwares have simplified the interaction between humans and machines (e.g., systems for smartphones, smart home, smart cities, etc.). Such applications have a variety of users (different nationalities, accents and genres) that directly influence the quality evaluation of such systems. Users are demanding and the differences mentioned above should be taken into account when evaluating such applications. One of the fundamental activities in quality assurance in applications using STT systems is the SW test. It is necessary to use techniques that can reproduce the variations of human speech to obtain more expressive results, and thus avoid the use of people (recorded speech) due to the high costs and availability. Therefore, the use of synthetic speeches to test STT systems is an option to substitute human speech because of its low cost and practicality of obtaining. Given this context, the present work proposes an architecture for testing STT systems with audios synthesized using four different synthesis approaches. For the evaluation of the use of synthetic audios as an alternative to the recorded ones, automated experiments (applied to STT systems in smartphones) and based on the opinion of people (i.e., Turing test and quality) were made. Both experiments used a real SW test environment in the CIn-Motorola project dependencies.

Details

Language :
Portuguese
Database :
OpenAIRE
Journal :
Repositório Institucional da UFPE, Universidade Federal de Pernambuco (UFPE), instacron:UFPE
Accession number :
edsair.od......3056..48ea3285e73cd5dccf1e687239a3db00