1. Reconhecimento de indiv??duos multimodal (face e voz): an??lise comparativa entre uma abordagem de aprendizado de m??quina cl??ssica e uma proposta utilizando rede neural profunda
- Author
-
Negreiro, Jo??o Victor Campos de, Costa, Marly Guimar??es Fernandes, Costa Filho, C??cero Ferreira Fernandes, Pereira, Jos?? Raimundo Gomes, and Oliveira, Jozias Parente de
- Subjects
Biometria - Programas de computador ,Identifica????o biom??trica ,CIENCIA DA COMPUTACAO: METODOLOGIA E TECNICAS DA COMPUTACAO: LINGUAGENS DE PROGRAMACAO [CIENCIAS EXATAS E DA TERRA] ,Reconhecimento biom??trico ,Aprendizado do computador ,Rede neural profunda ,Rede neural convolucional ,Aprendizado de m??quina ,Aprendizado por quantiza????o vetorial ,ENGENHARIA ELETRICA: ELETRONICA INDUSTRIAL, SISTEMAS E CONTROLES ELETRONICOS: AUTOMACAO ELETRONICA DE PROCESSOS ELETRICOS E INDUSTRIAIS [ENGENHARIAS] ,Face-voz - Abstract
Submitted by Jo??o Victor Negreiro (negreiro.joaovictor@outlook.com) on 2022-12-19T22:14:10Z No. of bitstreams: 5 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) versao_final_dissertacao_pos_banca_jvcn_.pdf: 4114564 bytes, checksum: b62e81158ef2b1fbd17a8a6a73919d64 (MD5) CartaEncaminhamentoTCC-TESE-DISSERTA????O_jvcn.pdf: 144884 bytes, checksum: 234f7355427bcc924d5c91b65c96b2f3 (MD5) Termo de Autoriza????o - Autodep??sito RIU-TEDE_JVCN.pdf: 568805 bytes, checksum: e9f3c7006da67b5352dadd42300ddbed (MD5) 147??- Ata de Julgamento- Jo??o Victor Campos de Negreiro- assinada.pdf: 446268 bytes, checksum: 68a605405f8a970bc6ed51945de13184 (MD5) Approved for entry into archive by PPGEE Engenharia El??trica (mestrado_engeletrica@ufam.edu.br) on 2023-01-10T11:54:47Z (GMT) No. of bitstreams: 5 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) versao_final_dissertacao_pos_banca_jvcn_.pdf: 4114564 bytes, checksum: b62e81158ef2b1fbd17a8a6a73919d64 (MD5) CartaEncaminhamentoTCC-TESE-DISSERTA????O_jvcn.pdf: 144884 bytes, checksum: 234f7355427bcc924d5c91b65c96b2f3 (MD5) Termo de Autoriza????o - Autodep??sito RIU-TEDE_JVCN.pdf: 568805 bytes, checksum: e9f3c7006da67b5352dadd42300ddbed (MD5) 147??- Ata de Julgamento- Jo??o Victor Campos de Negreiro- assinada.pdf: 446268 bytes, checksum: 68a605405f8a970bc6ed51945de13184 (MD5) Approved for entry into archive by Divis??o de Documenta????o/BC Biblioteca Central (ddbc@ufam.edu.br) on 2023-01-10T18:49:57Z (GMT) No. of bitstreams: 5 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) versao_final_dissertacao_pos_banca_jvcn_.pdf: 4114564 bytes, checksum: b62e81158ef2b1fbd17a8a6a73919d64 (MD5) CartaEncaminhamentoTCC-TESE-DISSERTA????O_jvcn.pdf: 144884 bytes, checksum: 234f7355427bcc924d5c91b65c96b2f3 (MD5) Termo de Autoriza????o - Autodep??sito RIU-TEDE_JVCN.pdf: 568805 bytes, checksum: e9f3c7006da67b5352dadd42300ddbed (MD5) 147??- Ata de Julgamento- Jo??o Victor Campos de Negreiro- assinada.pdf: 446268 bytes, checksum: 68a605405f8a970bc6ed51945de13184 (MD5) Made available in DSpace on 2023-01-10T18:49:57Z (GMT). No. of bitstreams: 5 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) versao_final_dissertacao_pos_banca_jvcn_.pdf: 4114564 bytes, checksum: b62e81158ef2b1fbd17a8a6a73919d64 (MD5) CartaEncaminhamentoTCC-TESE-DISSERTA????O_jvcn.pdf: 144884 bytes, checksum: 234f7355427bcc924d5c91b65c96b2f3 (MD5) Termo de Autoriza????o - Autodep??sito RIU-TEDE_JVCN.pdf: 568805 bytes, checksum: e9f3c7006da67b5352dadd42300ddbed (MD5) 147??- Ata de Julgamento- Jo??o Victor Campos de Negreiro- assinada.pdf: 446268 bytes, checksum: 68a605405f8a970bc6ed51945de13184 (MD5) Previous issue date: 2022-11-03 FAPEAM - Funda????o de Amparo ?? Pesquisa do Estado do Amazonas Humans use body features such as face, voice and eyes in conjunction with other contextual information to recognize themselves. Biometric recognition seeks to identify an individual using behavioral, physical or psychological characteristics. This work presents a comparative analysis between a classical machine learning approach and a proposal using a deep neural network in the individual recognition activity. Two biometric modes were used: face and voice. These data were obtained from the MOBIO bimodal database (MCCOOL et al, 2012). Fifty individuals were used, 37 men and 13 women. A pre-processing was applied to the images, extracting the face, standardizing it in 64x80 and converting it to monochrome. An autoencoder was used to obtain a reduced face data representation. For voice, an activity detector was chosen to classify audio excerpts with or without voice. Mel Cepstral coefficients and their derived coefficients were extracted, composing 39 coefficients. Unimodal and multimodal models of biometric identification were developed, totaling 6 architectures. The multimodal model with machine learning techniques has a fusion step at the scoring level and Learning Vector Quantization (LVQ). The multimodal model with deep machine learning techniques has a feature level fusion and a Convolutional Neural Network (CNN). The proposed architectures were tested in different cluster scenarios, audio frames number, encoding layer dimension, MFCCs coefficients number, regularization and optimizers. The systems were evaluated through the area under the ROC curve (AUC-ROC), True Acceptance Rate (TAR) and False Acceptance Rate (FAR) and best operating point threshold. In addition, the training and testing time of networks was measured. The results show that for the multimodal proposal with LVQ, an AUC-ROC of 0.98 was obtained and the multimodal proposal with CNN reached an AUC-ROC value of 0.99. The results showed that deep learning produces better performances, in addition to more optimized training. Thus, the architectures proposed in this work can constitute a good starting point for implementing a robust system for automatic identification of individuals. Os seres humanos utilizam caracter??sticas do corpo como rosto, voz e olhos em conjunto com outras informa????es contextuais para se reconhecerem. O reconhecimento biom??trico busca identificar um indiv??duo utilizando caracter??sticas comportamentais, f??sicas ou psicol??gicas. Esse trabalho apresenta uma an??lise comparativa entre uma abordagem de aprendizado de m??quina cl??ssica e uma proposta utilizando rede neural profunda na atividade de reconhecimento de indiv??duo. Utilizaram-se dois modos biom??tricos: face e voz. Estes dados foram obtidos da base de dados bimodal MOBIO (MCCOOL et al, 2012). Utilizaram-se 50 indiv??duos, sendo 37 homens e 13 mulheres. Aplicou-se um pr??-processamento nas imagens, extraindo a face, padronizando em 64x80 e convertendo para monocrom??tica. Foi utilizado um autoencoder para obter uma representa????o reduzida dos dados da face. Para voz, optou-se por um detector de atividade para classificar trechos de ??udios com ou sem voz. Extra??ram-se coeficientes Mel-Cepstrais e seus coeficientes derivados, compondo 39 coeficientes. Foram desenvolvidos modelos unimodais e multimodais de identifica????o biom??trica, totalizando 6 arquiteturas. O modelo multimodal com t??cnicas de aprendizagem de m??quina possui uma etapa fus??o ?? n??vel de pontua????o e aprendizado por quantiza????o vetorial (LVQ). O modelo multimodal com t??cnicas de aprendizado profundo de m??quina possui uma fus??o a n??vel de caracter??stica e uma rede neural convolucional (CNN). Testaram-se as arquiteturas propostas em diversos cen??rios de clusters, quantidade de frames de ??udio, dimens??o da camada de codifica????o, quantidade de coeficientes MFCCs, regulariza????o e otimizadores. Avaliaram-se os sistemas atrav??s da ??rea sobre a curva ROC (AUC-ROC), taxa de verdadeiros positivos e taxa de falsos positivos e o limiar do melhor ponto de opera????o. Al??m disso, mediu-se o tempo de treinamento e testes das redes elaboradas. Os resultados mostram que para a proposta multimodal com LVQ foi obtido AUC-ROC de 0,98 e a proposta multimodal com CNN teve um valor de AUC-ROC de 0,99. Os resultados apontaram que a utiliza????o de aprendizagem profunda produz melhores desempenhos, al??m de treinamentos mais otimizados. Assim, as arquiteturas propostas neste trabalho podem constituir um bom ponto de partida para implementa????o de um sistema robusto de identifica????o autom??tica de indiv??duos.
- Published
- 2022