Descriptor: "Imatges--Processament" / Topic: deep learning - Searchworks@Jio Institute Digital Library Search Results

Your search keyword '"Imatges--Processament"' showing total 8 results

Start Over Descriptor "Imatges--Processament" Topic deep learning

8 results on '"Imatges--Processament"'

1. Segmentació Semàntica a la Representació Latent

Author: Díaz Juan, Artur, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, École polytechnique fédérale de Lausanne, Salembier Clairon, Philippe Jean, Testolina, Michela, Gao, Changsheng, and Ebrahimi, Touradj
Subjects: Artificial intelligence, rgb, Imatges--Processament, reconstruction, aprendizaje profundo, Image compression, decoding, segmentación semántica, segmentación de personas, tasa de distorsión, Neural networks (Computer science), codificación, Image processing, pixel, compresión de imágenes, latent domain, Machine learning, calidad de imagen, Aprenentatge automàtic, image quality, pixel domain, dominio latente, Xarxes neuronals (Informàtica), latent, espacio latente, coding, redes neuronales, Intel·ligència artificial, deep learning, rate distortion, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], PSPNet, encoding, neural networks, tasa de bits, semantic segmentation, latent space, código, people segmentation, semseg, code, dominio de píxel, CompressAI, bitrate, decodificación, reconstrucción, Compressió d'imatges
Abstract: This project proposes a method to merge image compression and semantic segmentation, in a single stage, for the foreground/background segmentation approach. This binary segmentation is based on the case of person segmentation, whereby the foreground corresponds to each person in the image and the background is everything else. The proposed method is analysed and compared with an end-to-end compression model followed by a semantic segmentation stage, as well as with the results obtained from uncompressed image segmentation. The CompressAI cheng2020-anchor model and the Pyramid Scene Parsing Network (PSPNet), implemented through the Semseg repository, have been used to develop this approach. The results obtained by the proposed merging method outperform those obtained by the end-to-end compression model followed by the semantic segmentation stage for low bitrates. Este proyecto propone un método para fusionar la compresión de imágenes y la segmentación semántica, en una sola etapa, para el enfoque de segmentación primer plano/fondo. Esta segmentación binaria se basa en el caso de la segmentación de personas, según la cual el primer plano corresponde a cada persona de la imagen y el fondo es todo lo demás. El método propuesto se analiza y compara con un modelo de compresión de extremo a extremo seguido de una etapa de segmentación semántica, así como con los resultados obtenidos de la segmentación de imágenes sin comprimir. Para desarrollar este método se ha utilizado el modelo cheng2020-anchor de CompressAI y la Pyramid Scene Parsing Network (PSPNet), implementada a través del repositorio Semseg. Los resultados obtenidos por el método de fusión propuesto superan a los obtenidos por el modelo de compresión de extremo a extremo seguido de la etapa de segmentación semántica para tasas de bits bajas. Aquest projecte proposa un mètode per a fusionar la compressió d'imatges i la segmentació semàntica, en una sola etapa, per a l'enfocament de segmentació primer pla/fons. Aquesta segmentació binària es basa en el cas de la segmentació de persones, segons la qual el primer pla correspon a cada persona de la imatge i el fons és tota la resta. El mètode proposat s'analitza i compara amb un model de compressió d'extrem a extrem seguit d'una etapa de segmentació semàntica, així com amb els resultats obtinguts de la segmentació d'imatges sense comprimir. Per a desenvolupar aquest mètode s'ha utilitzat el model cheng2020-*anchor de CompressAI i la Pyramid Scene Parsing Network (PSPNet), implementada a través del repositori Semseg. Els resultats obtinguts pel mètode de fusió proposat superen als obtinguts pel model de compressió d'extrem a extrem seguit de l'etapa de segmentació semàntica per a taxes de bits baixes.
Published: 2022

2. Aplicació i anàlisi de tècniques de superresolució en imatges

Author: Beaus Iranzo, Pablo, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Politecnico di Milano, Marqués Acosta, Fernando, Bestagini, Paolo, and Cannas, Edoardo Daniele
Subjects: Imatges--Processament, Informàtica::Intel·ligència artificial::Aprenentatge automàtic [Àrees temàtiques de la UPC], aprendizaje profundo, Remote-sensing images, Fourier, Transformacions de, deep learning, procesado de imagen, Fourier transformations, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], super resolution, satellite imagery, image processing, Neural networks (Computer science), machine learning, Aprenentatge automàtic, superresolucion, Xarxes neuronals (Informàtica), imagenes satelite, Imatges satel·litàries, aprendizaje automatico
Abstract: Super-Resolution (SR) is a branch of deep learning aiming at improving the resolution of an image preserving as much detail as possible. This technology applied to overhead imagery has been on the rise in the recent years, but the generation of super-resolved images imposes caution when this data is widespread without adequate information. This calls for the presence of techniques that can determine if an image under analysis is super-resolved, or it has been natively generated at high resolution. In this thesis, we focus on three techniques developed using Convolutional Neural Networks (CNNs) for generating SR satellite images, as well as developing a SR detector able to discriminate them. This detector is evaluated in three scenarios: binary classification, multi-class classification and an open-set scenario, showing promising results in all of them. A discussion on the features learnt by the detector is finally proposed with the illustration of future research themes. La Superresolución (SR) es una rama del aprendizaje profundo que tiene como objetivo mejorar la resolución de una imagen preservando el máximo detalle posible. Esta tecnología aplicada a las imágenes aéreas ha estado en auge en los últimos años, pero la generación de imágenes superresueltas impone precaución cuando estos datos se difunden sin la información adecuada. Esto exige la presencia de técnicas que puedan determinar si una imagen analizada ha sido superresuelta o generada de forma nativa a alta resolución. En esta tesis nos centramos en tres técnicas desarrolladas mediante Redes Neuronales Convolucionales (CNNs) para la generación de imágenes satelitales de SR, así como en el desarrollo de un detector de SR capaz de discriminarlas. Este detector se evalúa en tres escenarios: clasificación binaria, clasificación multiclase y un escenario abierto, mostrando resultados prometedores en todos ellos. Finalmente se propone una discusión sobre las características aprendidas por el detector con la ilustración de futuros temas de investigación. La Superresolució (SR) és una branca de l'aprenentatge profund que té com a objectiu millorar la resolució d'una imatge preservant el màxim detall possible. Aquesta tecnologia aplicada a les imatges aèries ha estat en auge en els últims anys, però la generació d'imatges superresoltes imposa precaució quan aquestes dades es difonen sense la informació adequada. Això exigeix la presència de tècniques que puguin determinar si una imatge analitzada ha estat superresolta o generada de manera nativa en alta resolució. En aquesta tesi ens centrem en tres tècniques desenvolupades mitjançant Xarxes Neuronals Convolucionals (CNNs) per a la generació d'imatges satel·litàries de SR, així com en el desenvolupament d'un detector de SR capaç de discriminar-les. Aquest detector s'avalua en tres escenaris: classificació binària, classificació multiclasse i un escenari obert, mostrant resultats prometedors en tots ells. Finalment es proposa una discussió sobre les característiques apreses pel detector amb la il·lustració de futurs temes de recerca.
Published: 2022

3. Base de dades de micromobilitat per a la classificació de tipus de via

Author: Ibànyez i Torres, Marc, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Sayrol Clols, Elisa, and Morros Rubió, Josep Ramon
Subjects: Bases de dades, Databases, Video processing, Imatges--Processament, Deep Learning, Image processing, Computer Vision, Visió per ordinador, BBDD, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], Base de datos
Abstract: The use and development of micromobility solutions and vehicles in cities is growing too fast, causing possible dangers due to the circulation of different users. The main objective of this thesis is to create a proper video database suitable for a project based on a Deep Learning model that detects different types of lanes, being able to improve both drivers and pedestrian security. El desarrollo de soluciones para la micromovilidad y uso de dichos vehículos en las ciudades está creciendo rápidamente, provocando posibles peligros debido a la circulación de diferentes usuarios. El principal objetivo de esta tesis es crear una base de datos de videos adecuada para un proyecto basado en la aplicación de un modelo Deep Learning para detectar diferentes tipos de carriles, así mejorando la seguridad tanto de los conductores como de los peatones. El desenvolupament de solucions per a la micromobilitat i ús dels seus vehicles a les ciutats està creixent ràpidament, provocant possibles perills a causa de la circulació de diferents usuaris. El principal objectiu d'aquesta tesi és crear una base de dades de vídeo adequada per a un projecte basat en l'aplicació d'un model Deep Learning per detectar diferents tipus de carril, així millorant la seguretat tant dels conductors com dels vianants.
Published: 2022

4. Deep learning for image super resolution

Author: Rojas Sedó, Pablo, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Infaimon, Morros Rubió, Josep Ramon, and Mateo, Xavier
Subjects: Imatges--Processament, Image processing, Deep learning (Machine learning), bin picking, hyperspectral imaging, deep learning, super-resolution, object detection, machine vision, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], computer vision, Aprenentatge profund
Abstract: Super-resolution is a popular computer vision task that aims to enhance an image by increasing its resolution. The countless possibilities for applications with this technology and the recent success of deep learning in this field have encouraged a huge development, leading to more efficient and more effective methods. In this thesis I will explore the state-of-the-art of this technology, and I will test some of these applications, with particular interest to those regarding the non-visible spectrum. To do so, I present a new hyperspectral object detection dataset, consisting of 202 annotated images of apples in a bin picking situation. With this benchmark the benefits of super-resolution in such situation are demonstrated, with some models showing up to 24.8% mAP performance improvement in comparison to low resolution images. La super-resolución es una popular tarea de visión que intenta mejorar la calidad de una imagen incrementando su resolución. Las innumerables aplicaciones de esta tecnología y el reciente éxito que ha cosechado el aprendizaje profundo en esta área han impulsado un enorme desarrollo de esta, logrando métodos cada vez más eficientes y efectivos. En esta tesis exploraré el estado del arte de esta tecnología, y pondré a prueba algunas de estas aplicaciones, con especial interés en aquellas centradas en el espectro no visible. Para lograrlo, presento el nuevo dataset hiperespectral de detección de objetos, compuesto de 202 imágenes etiquetadas de manzanas en situación de bin picking. Con este benchmark, se demuestran los beneficios de la super-resolución en dicha situación, con algunos modelos mostrando una mejoría de hasta un 24.8% mAP respecto a imágenes de baja resolución. La super-resolució és una popular tasca de visió que intenta millorar la qualitat d’’una imatge incrementant la seva resolució. Les innumerables aplicacions d’aquesta tecnologia i el recent èxit que ha tingut l’aprenentatge profund en aquesta àrea han impulsat un enorme desenvolupament d’aquesta, aconseguint mètodes cada cop més eficients i efectius. En aquest tesis exploraré el estat del art d’aquest tecnologia, i posaré a prova algunes d’aquestes aplicacions, amb especial interès en aquelles centrades en el espectre no visible. Per aconseguir-ho, presento el nou data set hiperespectral de detecció d’objectes, composat de 202 imatges etiquetades de pomes en situació de bin picking. Amb aquest benchmark, es demostren els beneficis de la super-resolució en aquesta situació, amb alguns models mostrant una millora de fins al 24.8% mAP respecte imatges de baixa resolució.
Published: 2022

5. Joining three-dimensional and two-dimensional worlds via multi-space registration

Author: Bueno Sanchez, Miguel Ángel, Ruiz Hidalgo, Javier, Mosella Montoro, Albert, and Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Subjects: graphs, Imatges--Processament, matching, deep learning, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], neural networks, Image processing, registration, point clouds, Three-dimensional imaging, image, 2D, Imatgeria tridimensional, 3D
Abstract: In recent years, applications employing 3D and 2D data have emerged, and they all requirematching 3D models to 2D images. Large-scale location recognition systems allow to esti-mate the location where a picture was taken. Geo-localization systems can be useful in theautonomous driving context by performing place recognition in situations where the GPS mightfail. Furthermore, forensic police could use this systems to solve crimes or prevent attacks.Thegoal of this thesis is to find a novel method to register 2D images to 3D point clouds. Deeplearning techniques are employed for such purpose.A stat-of-the-art study of 2D-3D registration and matching methods is carried out. Some tech-niques are implemented to serve as baseline to the novel work developed: a neural networkbased on graphs trained in a triplet-like fashion with a VGG16 architecture to generate cross-domain descriptors of images and point clouds. The presented architecture can achieve similar(and sometimes better) performance than state-of-the-art techniques in the 2D-3D matchingtask.
Published: 2021

6. Processing in vivo ultrasound images of the carotid artery

Author: Manzano Rodríguez, Ana, Kybic, Jan, Vilaplana Besler, Verónica, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and České vysoké učení technické v Praze
Subjects: Ultrasonic waves, Imatges--Processament, Image processing, ultrasound, Machine learning, aprendizaje automático, Aprenentatge automàtic, medical imaging, Ultrasons, deep learning, imágenes médicas, ultrasonidos, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC]
Abstract: Carotid stenosis is a narrowing of the carotid arteries, the two major arteries that carry oxygen-rich blood from the heart to the brain. This disease is caused by a buildup of plaque (atherosclerosis) inside the artery wall that reduces blood flow to the brain. This thesis focuses on predicting whether the plaque in the carotid artery is unstable (symptomatic) or stable (asymptomatic) using ultrasound images of the carotid artery. If it is unstable it means that the plaque is going to grow, otherwise, is going to remain the same. Using a provided segmentation, a series of descriptors and a subsequent classification model has been developed to fulfil this task. We will see that between the linear regression classifier, SVC or Random Forest, SVC will give the best results. For the cross-sectional images, the descriptors that will give us the best accuracy in distinguishing the two classes will be: relative percentage stenosis, relative plaque area, wavelets and Haralick texture descriptors. The first two will be calculated on the cross-sectional segmentations and the last ones on the original cross-sectional images using segmentations as well. With this selection of features we will achieve 67% accuracy in the classification of our data. La estenosis carotídea es un estrechamiento de las arterias carótidas, las dos arterias principales que llevan la sangre rica en oxígeno del corazón al cerebro. Esta enfermedad está causada por una acumulación de placa (aterosclerosis) en el interior de la pared arterial que reduce el flujo sanguíneo al cerebro. La presente tesis se centra en predecir si la placa en la arteria carótida es inestable (sintomática) o estable (asintomática) utilizando las imágenes ecográficas de la arteria carótida. Si es inestable significa que la placa va a crecer, por otra parte, si es estable, se mantendrá igual. Mediante una segmentación que nos ha sido facilitada, se han desarrollado una serie de descriptores y un posterior modelo de clasificación para cumplir este cometido. Veremos que entre el clasificador de regresión lineal, SVC o Random Forest, SVC será el que nos dará mejores resultados. Para las imágenes transversales, los descriptores que nos darán una mayor precisión al distinguir las dos clases serán: porcentaje de estenosis relativa, área relativa de la placa, wavelets y los descriptores de textura de Haralick. Las dos primeras se calcularán sobre les segmentaciones transversales y las últimas sobre las imágenes transversales originales utilizando también las segmentaciones. Con esta selección de características se conseguirá un 67% de precisión en la clasificación de nuestros datos. L'estenosi carotídia és un estrenyiment de les artèries caròtides, les dues artèries principals que porten la sang rica en oxigen del cor al cervell. Aquesta malaltia està causada per una acumulació de placa (aterosclerosi) a l'interior de la paret arterial que redueix el flux sanguini al cervell. La tesis que es presenta es centra en predir si la placa en l'arteria caròtida és inestable (simptomàtica) o estable (asimptomàtica) utilitzant les imatges ecogràfiques de l'arteria caròtida. Si és inestable significa que la placa creixerà, d'altra banda, si és estable, romandrà igual. Mitjançant una segmentació que se'ns ha facilitat, s'han desenvolupat una sèrie de descriptors i un posterior model de classificació per complir aquesta comesa. Veurem que entre el classificador de regressió lineal, SVC o Random Forest, SVC serà amb el que obtindrem millors resultats. Per les imatges transversals, els descriptors que ens donaran una major precisió al distingir les dos classes seran: percentatge d'estenosis relativa, àrea relativa de la placa, wavelets i els descriptors de textura de Haralick. Les dues primeres es calcularan sobre les segmentacions transversals i les últimes sobre les imatges transversals originals utilitzant també les segmentacions. Amb aquesta selecció de característiques s'aconseguirà un 67% de precisió en la classificació de les nostres dades.
Published: 2021

7. Súper-resolución de imágenes de profundidad aplicadas con deep learning

Author: Casales Hernández, Víctor, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Ruiz Hidalgo, Javier
Subjects: Imatges digitals, Imatges--Processament, Image processing, Super-resolution, Deep learning, Enginyeria de la telecomunicació::Processament del senyal::Processament de la imatge i del senyal vídeo [Àrees temàtiques de la UPC], Depth maps, Digital images
Abstract: En este trabajo se ha intentado realizar un estudio sobre un proyecto ya desarrollado, que trata sobre la súper-resolución de imágenes aplicada con deep learning y readaptar dicho proyecto para su utilización con imágenes de profundidad, ya que originalmente éste está optimizado para la súper-resolución con imágenes a color y en escala de grises. El principal trabajo realizado ha sido aprovechar la implementación de este proyecto y entrenarlo con diferentes bases de datos de profundidad para analizar su comportamiento al ser probado con diferentes sets de validación. Después de entrenar la red neuronal con las diferentes bases de datos y comprobar su rendimiento con los diferentes sets de validación, se han elegido los modelos con mejor rendimiento. Una vez escogidos los modelos se han modificado parámetros de configuración de la red tales como el número de iteraciones o las bases de datos utilizadas para reentrenar dichos modelos y analizar de nuevo su rendimiento con los mismos sets de validación. Finalmente los resultados obtenidos han sido los esperados, obteniendo nuevas imágenes de profundidad aumentadas en un factor 3 a las originales y con una calidad de imagen mejorada de hasta 2.7 dB superior a la interpolación bicúbica.
Published: 2016

8. Open-ended visual question answering

Author: Masuda Mora, Issey, Giró Nieto, Xavier, Pascual de la Puente, Santiago, and Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions
Subjects: procesado de lenguaje natural, redes neuronales, Imatges--Processament, deep learning, Ordinadors neuronals, Enginyeria de la telecomunicació [Àrees temàtiques de la UPC], Neural computers, procesado de imágenes, Neural networks (Computer science), Image processing, Natural language processing (Computer science), Machine learning, aprendizaje automático, Aprenentatge automàtic, Xarxes neuronals (Informàtica), Tractament del llenguatge natural (Informàtica)
Abstract: Wearable cameras generate a large amount of photos which are, in many cases, useless or redundant. On the other hand, these devices are provide an excellent opportunity to create automatic questions and answers for reminiscence therapy. This is a follow up of the BSc thesis developed by Ricard Mestre during Fall 2014, and MSc thesis developed by Aniol Lidon. This thesis studies methods to solve Visual Question-Answering (VQA) tasks with a Deep Learning framework. As a preliminary step, we explore Long Short-Term Memory (LSTM) networks used in Natural Language Processing (NLP) to tackle Question-Answering (text based). We then modify the previous model to accept an image as an input in addition to the question. For this purpose, we explore the VGG-16 and K-CNN convolutional neural networks to extract visual features from the image. These are merged with the word embedding or with a sentence embedding of the question to predict the answer. This work was successfully submitted to the Visual Question Answering Challenge 2016, where it achieved a 53,62% of accuracy in the test dataset. The developed software has followed the best programming practices and Python code style, providing a consistent baseline in Keras for different configurations. The source code and models are publicly available at https://github.com/imatge-upc/vqa-2016-cvprw. Esta tesis estudia métodos para resolver tareas de Visual Question-Answering usando técnicas de Deep Learning. Como primer paso, exploramos las redes Long Short-Term Memory (LST) que se usan en el Procesado del Lenguaje Natural (NLP) para atacar tareas de Question-Answering basadas únicamente en texto. A continuación modificamos el modelo anterior para aceptar una imagen como entrada junto con la pregunta. Para este propósito, estudiamos el uso de las redes convolucionales VGG-16 y K-CNN para extraer los descriptores visuales de la imagen. Estos descriptores son fusionados con el word embedding o sentence embedding de la pregunta para poder predecir la respuesta. Este trabajo se ha presentado al Visual Question Answering Challenge 2016, donde ha obtenido una precisión del 53,62% en los datos de test. El software desarrollado ha usado buenas prácticas de programación y ha seguido las directrices de estilo de Python, proveyendo un proyecto base en Keras consistente a distintas configuraciones. El código fuente y los modelos son públicos en https://github.com/imatge-upc/ vqa-2016-cvprw. Aquesta tesis estudia mètodes per resoldre tasques de Visual Question-Answering emprant tècniques de Deep Learning. Com a pas preliminar, explorem les xarxes Long Short-Term Memory (LSTM) que s'utilitzen en el Processat del Llenguatge Natural (NLP) per atacar tasques de Question-Answering basades únicament en text. A continuació modifiquem el model anterior per acceptar una imatge com a entrada juntament amb la pregunta. Per aquest propòsit, estudiem l'ús de les xarxes convolucionals VGG-16 i KCNN per tal d'extreure els descriptors visuals de la imatge. Aquests descriptors són fusionats amb el word embedding o sentence embedding de la pregunta per poder predir la resposta. Aquest treball ha estat presentat al Visual Question Answering Challenge 2016, on ha obtingut una precisió del 53,62% en les dades de test. El software desenvolupat ha emprat bones pràctiques en programació i ha seguit les directrius d'estil de Python, prove ïnt un projecte base en Keras consistent a diferents configuracions. El codi font i els models són públics a https://github.com/imatge-upc/vqa-2016-cvprw.
Published: 2016

Catalog

Books, media, physical & digital resources

See catalog results

Searchworks

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources

Refine your results

8 results on '"Imatges--Processament"'

1. Segmentació Semàntica a la Representació Latent

2. Aplicació i anàlisi de tècniques de superresolució en imatges

3. Base de dades de micromobilitat per a la classificació de tipus de via

4. Deep learning for image super resolution

5. Joining three-dimensional and two-dimensional worlds via multi-space registration

6. Processing in vivo ultrasound images of the carotid artery

7. Súper-resolución de imágenes de profundidad aplicadas con deep learning

8. Open-ended visual question answering

Catalog

Searchworks

Select search scope, currently: Articles Catalog books, media & more in Jio Institute collections Articles journal articles & other e-resources

Search

Search Constraints

Refine your results

Search Limiters

Topic

Publication Year Range

Language

Database

8 results on '"Imatges--Processament"'

Search Results

Catalog

Select search scope, currently: Articles

Catalog

books, media & more in Jio Institute collections

Articles

journal articles & other e-resources