251. Designing Variational Autoencoders for Image Retrieval
- Author
-
Torres Fernandez, Sara
- Subjects
Electrical Engineering, Electronic Engineering, Information Engineering ,Elektroteknik och elektronik - Abstract
The explosive growth of acquired visual data on the Internet has raised interestin developing advanced image retrieval systems. The main problem relies on thesearch of a specic image among large collections or databases, and this issue isshared by lots of users from a variety of domains, like crime prevention, medicineor journalism. To deal with this situation, this project focuses on variationalautoencoders for image retrieval.Variational autoencoders (VAE) are neural networks used for the unsupervisedlearning of complicated distributions by using stochastic variational inference.Traditionally, they have been used for image reconstruction or generation.However, the goal of this thesis consists of testing variational autoencoders forthe classication and retrieval of dierent images from a database.This thesis investigates several methods to achieve the best performance forimage retrieval applications. We use the latent variables in the bottleneck stageof the VAE as the learned features for the image retrieval task. In order toachieve fast retrieval, we focus on discrete latent features. Specically, the sigmoidfunction for binarization and the Gumbel-Softmax method for discretizationare investigated. The tests show that using the mean of the latent variablesas features gives generally better performance than their stochastic representations.Further, discrete features that use the Gumbel-Softmax method in thelatent space show good performance. It is close to the maximum a posterioriperformance as achieved by using a continuous latent space. Den explosiva tillväxten av förvärvade visuella data på Internet har ökat in- tresse för att utveckla avancerade bildhämtningssystem. Huvudproblemet är beroende av sökandet efter en specifik bild bland stora samlingar eller databaser, och det här problemet delas av många användare från olika domäner, som brottsförebyggande, medicin eller journalistik. För att hantera denna situation fokuserar detta projekt på Variations autokodare för bildhämtning. Variations autokodare (VAE) är neurala nätverk som används för oövervakat lärande av komplicerade fördelningar genom att använda stokastisk variationsinferens. Traditionellt har de använts för bildrekonstruktion eller generation. Målet med denna avhandling består emellertid i att testa olika autokodare för klassificering och hämtning av olika bilder från en databas. Denna avhandling undersöker flera metoder för att uppnå bästa prestanda för bildåtervinning. Vi använder de latenta variablerna i flaskhalsstadiet i VAE som de lärda funktionerna för bildhämtningsuppgiften. För att uppnå snabb hämtning fokuserar vi på diskreta latenta funktioner. Specifikt undersöks sigmoidfunktionen för binärisering och Gumbel-Softmax-metoden för diskretisering. Testerna visar att med hjälp av medelvärdet av latenta variabler som funktioner ger generellt bättre prestanda än deras stokastiska representationer. Vidare visar diskreta funktioner som använder Gumbel-Softmax-metoden i det latenta utrymmet bra prestanda. Det ligger nära det maximala prestanda somuppnås genom att använda ett kontinuerligt latent utrymme.
- Published
- 2018