1. Segmentació Semàntica a la Representació Latent
- Author
-
Díaz Juan, Artur, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, École polytechnique fédérale de Lausanne, Salembier Clairon, Philippe Jean, Testolina, Michela, Gao, Changsheng, and Ebrahimi, Touradj
- Subjects
Artificial intelligence ,rgb ,Imatges--Processament ,reconstruction ,aprendizaje profundo ,Image compression ,decoding ,segmentación semántica ,segmentación de personas ,tasa de distorsión ,Neural networks (Computer science) ,codificación ,Image processing ,pixel ,compresión de imágenes ,latent domain ,Machine learning ,calidad de imagen ,Aprenentatge automàtic ,image quality ,pixel domain ,dominio latente ,Xarxes neuronals (Informàtica) ,latent ,espacio latente ,coding ,redes neuronales ,Intel·ligència artificial ,deep learning ,rate distortion ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC] ,PSPNet ,encoding ,neural networks ,tasa de bits ,semantic segmentation ,latent space ,código ,people segmentation ,semseg ,code ,dominio de píxel ,CompressAI ,bitrate ,decodificación ,reconstrucción ,Compressió d'imatges - Abstract
This project proposes a method to merge image compression and semantic segmentation, in a single stage, for the foreground/background segmentation approach. This binary segmentation is based on the case of person segmentation, whereby the foreground corresponds to each person in the image and the background is everything else. The proposed method is analysed and compared with an end-to-end compression model followed by a semantic segmentation stage, as well as with the results obtained from uncompressed image segmentation. The CompressAI cheng2020-anchor model and the Pyramid Scene Parsing Network (PSPNet), implemented through the Semseg repository, have been used to develop this approach. The results obtained by the proposed merging method outperform those obtained by the end-to-end compression model followed by the semantic segmentation stage for low bitrates. Este proyecto propone un método para fusionar la compresión de imágenes y la segmentación semántica, en una sola etapa, para el enfoque de segmentación primer plano/fondo. Esta segmentación binaria se basa en el caso de la segmentación de personas, según la cual el primer plano corresponde a cada persona de la imagen y el fondo es todo lo demás. El método propuesto se analiza y compara con un modelo de compresión de extremo a extremo seguido de una etapa de segmentación semántica, así como con los resultados obtenidos de la segmentación de imágenes sin comprimir. Para desarrollar este método se ha utilizado el modelo cheng2020-anchor de CompressAI y la Pyramid Scene Parsing Network (PSPNet), implementada a través del repositorio Semseg. Los resultados obtenidos por el método de fusión propuesto superan a los obtenidos por el modelo de compresión de extremo a extremo seguido de la etapa de segmentación semántica para tasas de bits bajas. Aquest projecte proposa un mètode per a fusionar la compressió d'imatges i la segmentació semàntica, en una sola etapa, per a l'enfocament de segmentació primer pla/fons. Aquesta segmentació binària es basa en el cas de la segmentació de persones, segons la qual el primer pla correspon a cada persona de la imatge i el fons és tota la resta. El mètode proposat s'analitza i compara amb un model de compressió d'extrem a extrem seguit d'una etapa de segmentació semàntica, així com amb els resultats obtinguts de la segmentació d'imatges sense comprimir. Per a desenvolupar aquest mètode s'ha utilitzat el model cheng2020-*anchor de CompressAI i la Pyramid Scene Parsing Network (PSPNet), implementada a través del repositori Semseg. Els resultats obtinguts pel mètode de fusió proposat superen als obtinguts pel model de compressió d'extrem a extrem seguit de l'etapa de segmentació semàntica per a taxes de bits baixes.
- Published
- 2022