1. Training strategies for efficient deep image retrieval
- Author
-
Baldrich i Caselles, Ramon, Gatta, Carlo, Gajić, Bojana, Baldrich i Caselles, Ramon, Gatta, Carlo, and Gajić, Bojana
- Abstract
En aquesta tesi ens centrem en la recuperació i re-identificació d'imatges. L'entrenament de xarxes neuronals profundes usant funcions de pèrdua basades en rànquing ha esdevingut un estàndard de facto per a les tasques de recuperació i re-identificació. Hi analitzem i aportem propostes de respostes a tres qüestions principals: 1) Quines són les estratègies més rellevants dels mètodes de l'estat de l'art i com es poden combinar per obtenir un millor rendiment? 2) Es pot realitzar un mostreig de mostres negatives restrictiu de manera eficient (O(1)) mentre es proporciona un rendiment millorat respecte al mostreig aleatori simple? 3) Es poden aconseguir objectius de reconeixement i recuperació mitjançant una funció de pèrdua basada en el reconeixement? En primer lloc, en el capítol 4 analitzem la importància d'algunes estratègies de l'estat de l'art relacionades amb la formació d'un model d'aprenentatge profund que abasta l'augment d'imatges, l'arquitectura vertebral i la mineria de tripletes restrictives. A continuació, combinem les millors estratègies per dissenyar una arquitectura profunda senzilla, a més d'una metodologia d'entrenament per a una identificació de persones efectiva i d'alta qualitat. Avaluem àmpliament cada opció de disseny, donant lloc a una llista de bones pràctiques per a la re-identificació de persones. Seguint aquestes pràctiques, el nostre enfocament supera l'estat de l'art, inclosos mètodes més complexos amb components auxiliars, de forma amplia en quatre conjunts de dades de referència. També proporcionem una anàlisi qualitativa de la nostra representació entrenada que indica que, tot i ser compacta, és capaç de captar informació de regions focalitzades i discriminatives, d'una manera semblant a un mecanisme d'atenció implícita. En segon lloc, al capítol 5 abordem el problema del mostreig de mostres negatives restrictiu quan s'entrena un model amb funcions del tipus pèrdua per tripletes. En aquest capítol presentem"Bag of Negatives (BoN)", un, En esta tesis nos centramos en la recuperación y re-identificación de imágenes. El entrenamiento de redes neuronales profundas usando funciones de pérdida basadas en ranking se ha convertido en un estándar de facto para las tareas de recuperación y re-identificación. Analizamos y aportamos propuestas de respuestas a tres cuestiones principales: 1) ¿Cuáles son las estrategias más relevantes de los métodos del estado del arte y cómo se pueden combinar para obtener un mejor rendimiento? 2) ¿Se puede realizar unmuestreo de muestras negativas restrictivo de manera eficiente (O(1)) mientras se proporciona un rendimiento mejorado respecto almuestreo aleatorio simple? 3) ¿Se pueden conseguir objetivos de reconocimiento y recuperación mediante una función de pérdida basada en el reconocimiento? En primer lugar, en el capítulo 4 analizamos la importancia de algunas estrategias del estado del arte relacionadas con la formación de un modelo de aprendizaje profundo que abarca el aumento de imágenes, la arquitectura vertebral y la minería de tripletas restrictivas. A continuación, combinamos las mejores estrategias para diseñar una arquitectura profunda sencilla, además de una metodología de entrenamiento para una identificación de personas efectiva y de alta calidad. Evaluamos ampliamente cada opción de diseño, dando lugar a una lista de buenas prácticas para la re-identificación de personas. Siguiendo estas prácticas, nuestro enfoque supera el estado del arte, incluidos métodos más complejos con componentes auxiliares, de forma amplia en cuatro conjuntos de datos de referencia. También proporcionamos un análisis cualitativo de nuestra representación entrenada que indica que, a pesar de ser compacta, es capaz de captar información de regiones focalizadas y discriminativas, de una manera similar a un mecanismo de atención implícita. En segundo lugar, el capítulo 5 abordamos el problema del muestreo demuestras negativas restrictivo cuando se entrena un modelo con funciones del tip, In this thesis we focus on image retrieval and re-identification. Training a deep architecture using a ranking loss has become standard for the retrieval and re-identification tasks. We analyze and propose answers on three main issues: 1) What are the most relevant strategies of state-of-the-art methods and how can they be combined in order to obtain a better performance? 2) Can hard negative sampling be performed efficiently (O(1)) while providing improved performance over naïve random sampling? 3) Can recognition and retrieval objectives be achieved by using a recognition-based loss? First, in chapter 4 we analyze the importance of some state of the art strategies related to the training of a deep model such as image augmentation, backbone architecture and hard triplet mining. We then combine the best strategies to design a simple deep architecture plus a training methodology for effective and high quality person re-identification. We extensively evaluate each design choice, leading to a list of good practices for person re-identification. By following these practices, our approach outperforms the state of the art, including more complex methods with auxiliary components, by large margins on four benchmark datasets. We also provide a qualitative analysis of our trained representation which indicates that, while compact, it is able to capture information from localized and discriminative regions, in a manner akin to an implicit attention mechanism. Second, in chapter 5 we address the problem of hard negative sampling when training a model with triplet-like loss. In this chapter we present Bag of Negatives (BoN), a fast hard negative mining method, that provides a set, triplet or pair of potentially relevant training samples. BoN is an efficient method that selects a bag of hard negatives based on a novel online hashing strategy. We show the superiority of BoN against state-of-the-art hard negative mining methods in terms of accuracy and training time over three lar, Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica
- Published
- 2021