50 results on '"Valveny Llobet, Ernest"'
Search Results
2. Generació automàtica de preguntes
- Author
-
Valveny Llobet, Ernest, Castaño Segade, Biel, Universitat Autònoma de Barcelona. Escola d'Enginyeria, Valveny Llobet, Ernest, Castaño Segade, Biel, and Universitat Autònoma de Barcelona. Escola d'Enginyeria
- Abstract
La generació automàtica de preguntes és un procés mitjançant el qual un model informàtic és capaç d'obtenir preguntes basades en una entrada -habitualment, un text-. Un model capaç d'executar aquesta tasca té nombroses aplicacions pràctiques, tals com contribuir a la creació d'un tutor intel·ligent o un model de conversació automàtica. Així mateix, la generació automàtica de preguntes també és rellevant de cara a la creació de bases de dades que permetin l'entrenament d'un model generador de respostes. En aquest article es presenten els fonaments teòrics i la metodologia seguida per a crear un model generador de preguntes a partir dels transformers, un tipus d'arquitectura de xarxes neuronals que és àmpliament utilitzada en l'estat de l'art del processament del llenguatge natural., Automatic question generation is a process by which a computer model can obtain questions based on input - usually text. In addition to their relevance in the creation of databases that train automatic answer generation models, such models have other practical applications, such as contributing to the creation of intelligent tutor and conversational models. This article outlines the theoretical foundations and methodology behind the creation of a question generation model from a transformer, the kind of neural network architecture widely used in the state of the art of natural language processing., La generación automática de preguntas es un proceso mediante el cual un modelo informático es capaz de obtener preguntas basadas en una entrada -habitualmente, un texto-. Un modelo capaz de ejecutar esta tarea tiene numerosas aplicaciones prácticas, tales como contribuir a la creación de un tutor inteligente o un modelo de conversación automática. Así mismo, la generación automática de preguntas también es relevante de cara a la creación de bases de datos que permitan entrenar un modelo generador de respuestas. En este artículo se presentan los fundamentos teóricos y la metodología seguida para crear un modelo generador de preguntas a partir de los transformers, un tipo de arquitectura de redes neuronales que es muy utilizada en el estado del arte del procesamiento del lenguaje natural.
- Published
- 2022
3. Classificació automàtica d'imatges de comptadors de gas
- Author
-
Giner Delgado, Júlia, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Escola d'Enginyeria
- Subjects
Visió per ordinador Processament de dades ,Imatges Processament Tècniques digitals - Abstract
Aquest projecte correspon a la doble titulació de la Fac. de Ciències (UAB), integrada per Enginyeria Informàtica i Graduat de Matemàtiques (780) L'àmbit d'aquest projecte és la visió per computador i el seu objectiu principal és avaluar la possibilitat d'identificar el model (marca i tipus) al que correspon un comptador de gas cercant certes paraules clau en una imatge del comptador. Per a assolir aquest objectiu hem partit d'un mètode ja existent i hem realitzat una adaptació per a aquest fi específic. El ámbito de este proyecto es la visión por computador y su principal objetivo es evaluar la posibilidad de identificar el modelo (marca y clase) al que corresponde un contador de gas buscando ciertas palabras clave en una imagen del contador. Para alcanzar este objetivo se ha partido de un método ya existente y se ha realizado una adaptación a este fin concreto. The field where this project was developed is "computer vision", and its objectives is to evaluate the possibility of identifying the model (brand and class) to which corresponds a gas meter by searching keywords in a picture of the gas meter. To achieve this goal we started from an existing method and we performed an adaptation for this specific purpose.
- Published
- 2021
4. Cerca i reconeixement de paraules en imatges
- Author
-
Rodríguez Sabater, Xavier, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Escola d'Enginyeria
- Subjects
Pàgines web Desenvolupament - Abstract
Aquest projecte correspon a la doble titulació de la Fac. de Ciències (UAB), integrada per Enginyeria Informàtica i Graduat de Matemàtiques (780)
- Published
- 2021
5. Aula de programació interactiva
- Author
-
Valveny Llobet, Ernest, Assbaghi Asbahi, Youssef, Universitat Autònoma de Barcelona. Escola d'Enginyeria, Valveny Llobet, Ernest, Assbaghi Asbahi, Youssef, and Universitat Autònoma de Barcelona. Escola d'Enginyeria
- Abstract
Un dels majors problemes que es troben els professors de programació és la supervisió dels alumnes a l'hora de fer problemes i desenvolupar codi a classe. Aquests ho tenen complicat per rebre un feedback de manera directa, ja que no hi ha eines per les quals un professor pugui ajudar als alumnes de la classe sense exposar-se ni perdre temps anant taula per taula. A més a més aquest problema s'ha agreujat degut a la crisi sanitària, ja que la necessitat de tenir una eina que resolgui aquest problema és cada vegada més forta. Per tant hem decidit crear una aula de programació interactiva on el professor podrà publicar problemes i els estudiants els podran resoldre. La innovació en aquest projecte és que en tot moment el professor podrà veure en un llistat el codi que desenvolupen els estudiants i accedir i modificar-los, oferint així un feedback en temps real des de la comoditat del seu ordinador., One of the biggest problems teachers face in programming is supervising students when it comes to making problems and developing code in class. These make it difficult to receive feedback directly, as there are no tools by which a teacher can help students in the class without exposing themselves or wasting time going table by table. Furthermore, this problem has been exacerbated due to the health crisis, as the need to have a tool to solve this problem. So, we decided to create an interactive programming, classroom where the teacher will be able to post problems and students will be able to solve them. The innovation in this project is that at all times the teacher can see in a list the code developed by students and access and modify them, thus providing real-time feedback from the comfort of your computer., Uno de los mayores problemas que se encuentran los profesores de programación es la supervisión de los alumnos a la hora de realizar problemas y desarrollar código en clase. Éstos lo tienen complicado para recibir un feedback de forma directa, ya que no hay herramientas por las que un profesor pueda ayudar a los alumnos de la clase sin exponerse ni perder tiempo yendo mesa por mesa. Además este problema se ha agravado debido a la crisis sanitaria, ya que la necesidad de tener una herramienta que resuelva este problema es cada vez más fuerte. Por tanto hemos decidido crear un aula de programación interactiva donde el profesor podrá publicar problemas y los estudiantes podrán resolverlos. La innovación en este proyecto es que en todo momento el profesor podrá ver en un listado el código que desarrollan los estudiantes y acceder y modificarlos, ofreciendo así un feedback en tiempo real desde la comodidad de su ordenador.
- Published
- 2021
6. Word spotting and recognition in images from heterogeneous sources
- Author
-
Valveny Llobet, Ernest, Ghosh, Suman Kumar, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació, Valveny Llobet, Ernest, Ghosh, Suman Kumar, and Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
- Abstract
El text es la manera més habitual d'intercanviar informació des de les edats. Amb el desenvolupament recent d'imatges de bases de dades de manuscrits manuscrits històrics, la demanda d'algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L'augment exponencial de les bases de dades d'imatges disponibles públicament i les col·leccions personals d'imatges, aquest interès també inclou l'enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d'imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d'estendre'ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d'imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s'utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d'aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l'ús d'una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions., El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci'on unificada donde el mismo marco puede generar ambos tipos de representaciones., Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.
- Published
- 2019
7. Classificació automàtica d'imatges de comptadors de gas
- Author
-
Giner Delgado, Júlia, Valveny Llobet, Ernest, Universitat Autònoma de Barcelona. Escola d'Enginyeria, Giner Delgado, Júlia, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Escola d'Enginyeria
- Abstract
Aquest projecte correspon a la doble titulació de la Fac. de Ciències (UAB), integrada per Enginyeria Informàtica i Graduat de Matemàtiques (780), L'àmbit d'aquest projecte és la visió per computador i el seu objectiu principal és avaluar la possibilitat d'identificar el model (marca i tipus) al que correspon un comptador de gas cercant certes paraules clau en una imatge del comptador. Per a assolir aquest objectiu hem partit d'un mètode ja existent i hem realitzat una adaptació per a aquest fi específic., El ámbito de este proyecto es la visión por computador y su principal objetivo es evaluar la posibilidad de identificar el modelo (marca y clase) al que corresponde un contador de gas buscando ciertas palabras clave en una imagen del contador. Para alcanzar este objetivo se ha partido de un método ya existente y se ha realizado una adaptación a este fin concreto., The field where this project was developed is "computer vision", and its objectives is to evaluate the possibility of identifying the model (brand and class) to which corresponds a gas meter by searching keywords in a picture of the gas meter. To achieve this goal we started from an existing method and we performed an adaptation for this specific purpose.
- Published
- 2015
8. Document image representation, classification and retrieval in large-scale domains
- Author
-
Valveny Llobet, Ernest, Perronnin, Florent, Gordo, Albert, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació, Universitat Autònoma de Barcelona. Centre de Visió per Computador (Bellaterra, Catalunya), Valveny Llobet, Ernest, Perronnin, Florent, Gordo, Albert, Universitat Autònoma de Barcelona. Departament de Ciències de la Computació, and Universitat Autònoma de Barcelona. Centre de Visió per Computador (Bellaterra, Catalunya)
- Abstract
Als preliminars: The research described in this book was carried out at the Computer Vision Center, A pesar del ideal de "oficina sin papeles" nacida en la década de los setenta, la mayoría de empresas siguen todavía luchando contra una ingente cantidad de documentación en papel. Aunque muchas empresas están haciendo un esfuerzo en la transformación de parte de su documentación interna a un formato digital sin necesidad de pasar por el papel, la comunicación con otras empresas y clientes en un formato puramente digital es un problema mucho más complejo debido a la escasa adopción de estándares. Las empresas reciben una gran cantidad de documentación en papel que necesita ser analizada y procesada, en su mayoría de forma manual. Una solución para esta tarea consiste en, en primer lugar, el escaneo automático de los documentos entrantes. A continuación, las imágenes de los documentos puede ser analizadas y la información puede ser extraida a partir de los datos. Los documentos también pueden ser automáticamente enviados a los flujos de trabajo adecuados, usados para buscar documentos similares en bases de datos para transferir información, etc. Debido a la naturaleza de esta "sala de correo" digital, es necesario que los métodos de representación de documentos sean generales, es decir, adecuados para representar correctamente tipos muy diferentes de documentos. Es necesario que los métodos sean robustos, es decir, capaces de representar nuevos tipos de documentos, imágenes con ruido, etc. Y, por último, es necesario que los métodos sean escalables, es decir, capaces de funcionar cuando miles o millones de documentos necesitan ser tratados, almacenados y consultados. Desafortunadamente, las técnicas actuales de representación, clasificación y búsqueda de documentos no son aptos para esta sala de correo digital, ya que no cumplen con algunos o ninguno de estos requisitos. En esta tesis nos centramos en el problema de la representación de documentos enfocada a la clasificación y búsqueda en el marco de la sala de correo digital. En particular, en la primera parte de es, Despite the "paperless office" ideal that started in the decade of the seventies, businesses still strive against an increasing amount of paper documentation. Although many businesses are making an effort in transforming some of the internal documentation into a digital form with no intrinsic need for paper, the communication with other businesses and clients in a pure digital form is a much more complex problem due to the lack of adopted standards. Companies receive huge amounts of paper documentation that need to be analyzed and processed, mostly in a manual way. A solution for this task consists in, first, automatically scanning the incoming documents. Then, document images can be analyzed and information can be extracted from the data. Documents can also be automatically dispatched to the appropriate workflows, used to retrieve similar documents in the dataset to transfer information, etc. Due to the nature of this "digital mailroom", we need document representation methods to be general, i.e., able to cope with very different types of documents. We need the methods to be sound, i.e., able to cope with unexpected types of documents, noise, etc. And, we need to methods to be scalable, i.e., able to cope with thousands or millions of documents that need to be processed, stored, and consulted. Unfortunately, current techniques of document representation, classification and retrieval are not apt for this digital mailroom framework, since they do not fulfill some or all of these requirements. Through this thesis we focus on the problem of document representation aimed at classification and retrieval tasks under this digital mailroom framework. Specifically, on the first part of this thesis, we first present a novel document representation based on runlength histograms that achieves state-of-the-art results on public and in-house datasets of different nature and quality on classification and retrieval tasks. This representation is later modified to cope with more comp
- Published
- 2013
9. Vector space embedding of graphs via statistics of labelling information
- Author
-
Valveny Llobet, Ernest, Gibert Domingo, Jaume, Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius, Valveny Llobet, Ernest, Gibert Domingo, Jaume, and Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius
- Abstract
El reconeixement de patrons és la tasca que pretén distingir objectes entre diferents classes. Quan aquesta tasca es vol solucionar de forma automàtica un pas crucial és el com representar formalment els patrons a l'ordinador. En funció d'aquests formalismes, podem distingir entre el reconeixement estadístic i l'estructural. El primer descriu objectes com un conjunt de mesures col·locats en forma del que s'anomena un vector de característiques. El segon assumeix que hi ha relacions entre parts dels objectes que han de quedar explícitament representades i per tant fa servir estructures relacionals com els grafs per codificar la seva informació inherent. Els espais vectorials són una estructura matemàtica molt flexible que ha permès definir diverses maneres eficients d'analitzar patrons sota la forma de vectors de característiques. De totes maneres, la representació vectorial no és capaç d'expressar explícitament relacions binàries entre parts dels objectes i està restrigida a mesurar sempre, independentment de la complexitat dels patrons, el mateix nombre de característiques per cadascun d'ells. Les representacions en forma de graf presenten la situació contrària. Poden adaptar-se fàcilment a la complexitat inherent dels patrons però introdueixen un problema d'alta complexitat computational, dificultant el disseny d'eines eficients per al procés i l'anàlisis de patrons. Resoldre aquesta paradoxa és el principal objectiu d'aquesta tesi. La situació ideal per resoldre problemes de reconeixement de patrons seria el representar-los fent servir estructures relacionals com els grafs, i a l'hora, poder fer ús del ric repositori d'eines pel processament de dades del reconeixement estadístic. Una solució elegant a aquest problema és la de transformar el domini dels grafs en el domini dels vectors, on podem aplicar qualsevol algorisme de processament de dades. En altres paraules, assignant a cada graf un punt en un espai vectorial, automàticament tenim accés al conjunt d'algor, Pattern recognition is the task that aims at distinguishing objects among different classes. When such a task wants to be solved in an automatic way a crucial step is how to formally represent such patterns to the computer. Based on the different representational formalisms, we may distinguish between statistical and structural pattern recognition. The former describes objects as a set of measurements arranged in the form of what is called a feature vector. The latter assumes that relations between parts of the underlying objects need to be explicitly represented and thus it uses relational structures such as graphs for encoding their inherent information. Vector spaces are a very flexible mathematical structure that has allowed to come up with several efficient ways for the analysis of patterns under the form of feature vectors. Nevertheless, such a representation cannot explicitly cope with binary relations between parts of the objects and it is restricted to measure the exact same number of features for each pattern under study regardless of their complexity. Graph-based representations present the contrary situation. They can easily adapt to the inherent complexity of the patterns but introduce a problem of high computational complexity, hindering the design of efficient tools to process and analyze patterns. Solving this paradox is the main goal of this thesis. The ideal situation for solving pattern recognition problems would be to represent the patterns using relational structures such as graphs, and to be able to use the wealthy repository of data processing tools from the statistical pattern recognition domain. An elegant solution to this problem is to transform the graph domain into a vector domain where any processing algorithm can be applied. In other words, by mapping each graph to a point in a vector space we automatically get access to the rich set of algorithms from the statistical domain to be applied in the graph domain. Such methodology is called
- Published
- 2012
10. Theory and algorithms on the median graph : application to graph-based classification and clustering
- Author
-
Valveny Llobet, Ernest, Serratosa Casanelles, Francesc, Ferrer Sumsi, Miquel, Valveny Llobet, Ernest, Serratosa Casanelles, Francesc, and Ferrer Sumsi, Miquel
- Abstract
Consultable des del TDX, Títol obtingut de la portada digitalitzada, Donat un conjunt d'objectes, el concepte genèric de mediana està definit com l'objecte amb la suma de distàncies a tot el conjunt, més petita. Sovint, aquest concepte és usat per a obtenir el representant del conjunt. En el reconeixement estructural de patrons, els grafs han estat usats normalment per a representar objectes complexos. En el domini dels grafs, el concepte de mediana és conegut com median graph. Potencialment, té les mateixes aplicacions que el concepte de mediana per poder ser usat com a representant d'un conjunt de grafs. Tot i la seva simple definició i les potencials aplicacions, s'ha demostrat que el seu càlcul és una tasca extremadament complexa. Tots els algorismes existents només han estat capaços de treballar amb conjunts petits de grafs, i per tant, la seva aplicació ha estat limitada en molts casos a usar dades sintètiques sense significat real. Així, tot i el seu potencial, ha restat com un concepte eminentment teòric. L'objectiu principal d'aquesta tesi doctoral és el d'investigar a fons la teoria i l'algorísmica relacionada amb el concepte de medinan graph, amb l'objectiu final d'extendre la seva aplicabilitat i lliurar tot el seu potencial al món de les aplicacions reals. Per això, presentem nous resultats teòrics i també nous algorismes per al seu càlcul. Des d'un punt de vista teòric aquesta tesi fa dues aportacions fonamentals. Per una banda, s'introdueix el nou concepte d'spectral median graph. Per altra banda es mostra que certes de les propietats teòriques del median graph poden ser millorades sota determinades condicions. Més enllà de les aportacioncs teòriques, proposem cinc noves alternatives per al seu càlcul. La primera d'elles és una conseqüència directa del concepte d'spectral median graph. Després, basats en les millores de les propietats teòriques, presentem dues alternatives més per a la seva obtenció. Finalment, s'introdueix una nova tècnica per al càlcul del median basat en el mapeig de grafs en espais de vectors, i es pro, Given a set of objects, the generic concept of median is defined as the object with the smallest sum of distances to all the objects in the set. It has been often used as a good alternative to obtain a representative of the set. In structural pattern recognition, graphs are normally used to represent structured objects. In the graph domain, the concept analogous to the median is known as the median graph. By extension, it has the same potential applications as the generic median in order to be used as the representative of a set of graphs. Despite its simple definition and potential applications, its computation has been shown as an extremely complex task. All the existing algorithms can only deal with small sets of graphs, and its application has been constrained in most cases to the use of synthetic data with no real meaning. Thus, it has mainly remained in the box of the theoretical concepts. The main objective of this work is to further investigate both the theory and the algorithmic underlying the concept of the median graph with the final objective to extend its applicability and bring all its potential to the world of real applications. To this end, new theory and new algorithms for its computation are reported. From a theoretical point of view, this thesis makes two main contributions. On one hand, the new concept of spectral median graph. On the other hand, we show that some of the existing theoretical properties of the median graph can be improved under some specific conditions. In addition to these theoretical contributions, we propose five new ways to compute the median graph. One of them is a direct consequence of the spectral median graph concept. In addition, we provide two new algorithms based on the new theoretical properties. Finally, we present a novel technique for the median graph computation based on graph embedding into vector spaces. With this technique two more new algorithms are presented. The experimental evaluation of the proposed methods on o
- Published
- 2009
11. Linear combination of multiresolution descriptors application to graphics recognition
- Author
-
Valveny Llobet, Ernest, Tabonne, Salvatore Antoine, Ramos Terrades, Oriol, Valveny Llobet, Ernest, Tabonne, Salvatore Antoine, and Ramos Terrades, Oriol
- Abstract
Consultable des del TDX, En el camp de l'Anàlisi de Documents voldríem ser capaços de processar automàticament qualsevol tipus de document digital i d'extreure la informació rellevant. és a dir, voldríem conËixer la configuració del document, identificar cadascuna de les seves parts i reconËixer els seus continguts; per a poder fer cerques entre les components del document, però també, per fer cerques entre documents diferents. Aquest és un problema difícil que ha motivat diferents línies de recerca a diferents nivells. S'ha desenvolupat tot una sèrie de tècniques destinades a pre-processar la imatge per augmentar la seva qualitat, reduint el soroll dels sistemes d'adquisició i minimitzant els efectes de la degradació dels documents. També trobem molts treballs en la segmentació destinats a separar les àrees d'interès de la resta del document. Finalment, des de finals dels anys 60 fins a l'actualitat s'han proposat molts tipus descriptors que pretenen representar i identificar aquestes àrees d'interès. En aquesta tesis ens hem centrat en el darrer d'aquests problemes, la descripció de formes però també en la fusió de classificadors per a aplicar-los a una de les apliacions de l'Anàlisi de Documents, el reconeixement de símbols gràfics. En el reconeixement de formes, moltes aplicacions han de fer front al problema de descriure un conjunt gran i complex de formes per a reconèixer-les, o per a recuperar-les de gran bases de dades. En alguns casos, a més del gran nombre de formes, podem trobar altres dificultats com són la semblança entre formes o la variabilitat de classes de símbols. En aquest casos, un punt clau en el procés de reconeixement de formes és la definició de descriptors de gran capacitat de discriminació. Malauradament, un sol tipus de descriptors no sol ser suficient per aconseguir resultats satisfactoris i per tant, hem de combinar la informació provinent de diferents fonts per a millorar el comportament global del sistema de reconeixement. Aquesta combinació de la informació l, In the field of Document Analysis we would like to be able to automatically process any kind of digital document. We mean extracting the document layout and identifying each of its parts, recognising its contents and organising them in order to make searches of its components, through the document itself, but also through different documents. This is a challenger problem that has motivated different lines of research in the field of Document Analysis at different levels: Pre-processing techniques have been developed to upgrade the quality of the document image, reducing noise from the input devices and minimizing the effects of the degradation of documents. A deep study in segmentation has been carried out in order to separate the regions of interest from the document background. Finally, many descriptors have been proposed for representing and identifying these regions of interest since the end of 60s until now. In this thesis, we have focused on, this last problem, the shape description description and also on classifier fusion, to apply them to one of the application fields in the Document Analysis: the graphics recognition. In shape recognition, many applications have to face the problem of describing a large number of complex shapes for recognition or retrieval in large databases. Besides the large number of shapes, we can find other challenges for shape description, such as the similarity among some of the shapes or the variability of the shape classes. In these cases, one of the key issues is the design of highly discriminant shape descriptors. Unfortunately, one kind of descriptor is not usually enough to achieve satisfactory results and hence, we have to combine the information from different sources to improve the global performance of the recognition system. We have carried out this combination of information using classifier fusion. Concerning shape description, traditionally graphics have been represented using structural descriptors, which are based on
- Published
- 2007
12. Theory and algorithms on the median graph application to graph-based classification and clustering
- Author
-
Valveny Llobet, Ernest, Serratosa Casanelles, Francesc, Ferrer Sumsi, Miquel, Valveny Llobet, Ernest, Serratosa Casanelles, Francesc, and Ferrer Sumsi, Miquel
- Abstract
Consultable des del TDX, Títol obtingut de la portada digitalitzada, Donat un conjunt d'objectes, el concepte genèric de mediana està definit com l'objecte amb la suma de distàncies a tot el conjunt, més petita. Sovint, aquest concepte és usat per a obtenir el representant del conjunt. En el reconeixement estructural de patrons, els grafs han estat usats normalment per a representar objectes complexos. En el domini dels grafs, el concepte de mediana és conegut com median graph. Potencialment, té les mateixes aplicacions que el concepte de mediana per poder ser usat com a representant d'un conjunt de grafs. Tot i la seva simple definició i les potencials aplicacions, s'ha demostrat que el seu càlcul és una tasca extremadament complexa. Tots els algorismes existents només han estat capaços de treballar amb conjunts petits de grafs, i per tant, la seva aplicació ha estat limitada en molts casos a usar dades sintètiques sense significat real. Així, tot i el seu potencial, ha restat com un concepte eminentment teòric. L'objectiu principal d'aquesta tesi doctoral és el d'investigar a fons la teoria i l'algorísmica relacionada amb el concepte de medinan graph, amb l'objectiu final d'extendre la seva aplicabilitat i lliurar tot el seu potencial al món de les aplicacions reals. Per això, presentem nous resultats teòrics i també nous algorismes per al seu càlcul. Des d'un punt de vista teòric aquesta tesi fa dues aportacions fonamentals. Per una banda, s'introdueix el nou concepte d'spectral median graph. Per altra banda es mostra que certes de les propietats teòriques del median graph poden ser millorades sota determinades condicions. Més enllà de les aportacioncs teòriques, proposem cinc noves alternatives per al seu càlcul. La primera d'elles és una conseqüència directa del concepte d'spectral median graph. Després, basats en les millores de les propietats teòriques, presentem dues alternatives més per a la seva obtenció. Finalment, s'introdueix una nova tècnica per al càlcul del median basat en el mapeig de grafs en espais de vectors, i es pro, Given a set of objects, the generic concept of median is defined as the object with the smallest sum of distances to all the objects in the set. It has been often used as a good alternative to obtain a representative of the set. In structural pattern recognition, graphs are normally used to represent structured objects. In the graph domain, the concept analogous to the median is known as the median graph. By extension, it has the same potential applications as the generic median in order to be used as the representative of a set of graphs. Despite its simple definition and potential applications, its computation has been shown as an extremely complex task. All the existing algorithms can only deal with small sets of graphs, and its application has been constrained in most cases to the use of synthetic data with no real meaning. Thus, it has mainly remained in the box of the theoretical concepts. The main objective of this work is to further investigate both the theory and the algorithmic underlying the concept of the median graph with the final objective to extend its applicability and bring all its potential to the world of real applications. To this end, new theory and new algorithms for its computation are reported. From a theoretical point of view, this thesis makes two main contributions. On one hand, the new concept of spectral median graph. On the other hand, we show that some of the existing theoretical properties of the median graph can be improved under some specific conditions. In addition to these theoretical contributions, we propose five new ways to compute the median graph. One of them is a direct consequence of the spectral median graph concept. In addition, we provide two new algorithms based on the new theoretical properties. Finally, we present a novel technique for the median graph computation based on graph embedding into vector spaces. With this technique two more new algorithms are presented. The experimental evaluation of the proposed methods on o
13. Desenvolupament de sistema de documentació automàtica aplicant IA per APIs REST
- Author
-
Bolaños Casado, Sergio, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Documentación automática ,Artificial intelligence ,Api ,Intel·ligència artificial ,Gpt ,Automatic documentation ,Documentació automàtica ,Inteligencia artificial - Abstract
Aquest projecte té com a objectiu desenvolupar una eina que permeti la documentació automàtica d'una API REST a partir d'utilitzar un dels models d'Intel·ligència Artificial més coneguts en l'actualitat com és GPT, el model de llenguatge desenvolupat per OpenAI. En aquest document, es realitza una revisió de l'estat de l'art per tal de contextualitzar la temàtica i s'expliquen detalladament tots els aspectes relacionats amb el desenvolupament del projecte. S'inclouen tant els objectius, la metodologia i planificació proposades, realitzant una comparació entre la planificació realitzada a l'inici del projecte i la planificació amb les modificacions finals, i s'inclou tota la part d'implementació, que és on es troba el contingut més pràctic i on s'expliquen els diferents mòduls i components que té l'eina desenvolupada. Els resultats del projecte poden ser valuosos per entendre millor com aplicar la intel·ligència artificial en el camp de la documentació automàtica i contribuir així al progrés i a l'evolució d'un tòpic que s'està desenvolupant àmpliament. Este proyecto tiene como objetivo desarrollar una herramienta que permita la documentación automática de una API REST utilizando uno de los modelos de Inteligencia Artificial más conocidos en la actualidad, como es GPT, el modelo de lenguaje desarrollado por OpenAI. En este documento, se realiza una revisión del estado del arte para contextualizar la temática y se explican detalladamente todos los aspectos relacionados con el desarrollo del proyecto. Se incluyen tanto los objetivos, la metodología y la planificación propuestas, realizando una comparación entre la planificación realizada al inicio del proyecto y la planificación con las modificaciones finales, y se incluye toda la parte de implementación, que es donde se encuentra el contenido más práctico y se explican los diferentes módulos y componentes que tiene la herramienta desarrollada. Los resultados del proyecto pueden ser valiosos para entender mejor cómo aplicar la inteligencia artificial en el campo de la documentación automática y contribuir así al progreso y la evolución de un tema que se está desarrollando ampliamente. The objective of this project is to develop a tool that allows the automatic documentation of a REST API using one of the best known Artificial Intelligence models currently available, such as GPT, the language model developed by OpenAI. In this document, a review of the state of the art is made to contextualize the subject and all the aspects related to the development of the project are explained in detail. It includes the objectives, the proposed methodology and planning, making a comparison between the planning made at the beginning of the project and the planning with the final modifications, and includes all the implementation part, which is where the most practical content is found and where the different modules and components of the developed tool are explained. The results of the project may be valuable to better understand how to apply artificial intelligence in the field of automatic documentation and thus contribute to the further progress and evolution of a topic that is developing significantly.
- Published
- 2023
14. [Aps] App mòbil per la gestió del benestar animal en lloros
- Author
-
López Vizcaino, Sergi, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Scheduling ,Calendarització ,Actividades ,Calendarización ,Well-being ,Mòbil ,Mobile ,Enrequiteca ,Móvil ,Parrots ,Android ,Activitats ,Benestar ,Loros ,App ,Lloros ,Bienestar ,Activities - Abstract
Aquest projecte es basa en la creació d'una aplicació mòbil. Aquesta és demanada per l'associació Emplumados Club, que és una associació que ofereix un espai perquè els lloros domèstics que té la gent desenvolupin i gaudeixin de les seves habilitats naturals. L'objectiu de l'aplicació és proporcionar una eina als socis d'aquesta associació que els permeti autogestionar totes les activitats relacionades amb el tractament dels seus lloros des de la seva pròpia casa. Els usuaris podran escollir quines activitats volen realitzar i podran consultar quines activitats tenen programades. A més a més, podran consultar models d'activitats creades per altres usuaris i podran tenir accés a diferents documents relacionats amb el benestar animal. Este proyecto se basa en la creación de una aplicación móvil. Ésta es pedida por la asociación Emplumados Club, que es una asociación que ofrece un espacio para que los loros domésticos que tiene la gente desarrollen y disfruten de sus habilidades naturales. El objetivo de la aplicación es proporcionar una herramienta a los socios de esta asociación que les permita autogestionar todas las actividades relacionadas con el tratamiento de sus loros desde su propia casa. Los usuarios podrán escoger qué actividades desean realizar y podrán consultar qué actividades tienen programadas. Además, podrán consultar modelos de actividades creadas por otros usuarios y podrán tener acceso a diferentes documentos relacionados con el bienestar animal. This project is based on the creation of a mobile application. This is requested by the association Emplumados Club, which is an association that provides a space for people's pet parrots to develop and enjoy
- Published
- 2023
15. Aplicació mòbil basada en una calculadora per obtenir la petjada de carboni dels aliments
- Author
-
Masip Quintana, Robert, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación móvil ,Calculadora ,Android ,API ,Mobile application ,Huella de carbono ,Calculator ,Petjada de carboni ,Carbon footprint ,Software ,Aplicació mobil - Abstract
En aquest article, s'exposa el desenvolupament dut a terme per tal de realitzar una aplicació per a dispositius mòbils. Aquesta aplicació té els objectius de facilitar als usuaris, un seguiment de quin és l'impacte que crea la petjada de carboni dels aliments que consumeixen en el seu dia a dia. L'aplicatiu que s'ha dut a terme durant el projecte té la intenció de què la introducció i representació dels valors sigui senzilla i amigable, i que el procés d'aprenentatge esdevingui el menor possible, també incorpora ajuts per a qui ho necessiti. Els usuaris poden calcular la petjada de carboni introduint un aliment desitjat i la quantitat, l'aplicatiu mostrarà diferents valors sobre l'impacte ambiental d'aquell aliment, tant menteix l'aplicació permet registrar usuaris o tenir un compte personal per visualitzar les darreres cerques. L'aplicació ha estat implementada emprant Net Core i Xamarin. Per a la gestió del projecte s'ha seguit el model en cascada. In this article, the development carried out in order to make an application for mobile devices is presented. This application aims to help users monitor the impact of the carbon footprint of the food they consume on a daily basis. The application that has been carried out during the project aims to make the introduction and representation of the values simple and friendly, and that the learning process becomes as short as possible, it also incorporates aids for those who need it. Users can calculate the carbon footprint by entering a desired food and the amount, the application will show different values about the environmental impact of that food, so much lies the application allows users to register or have a personal account to view the last searches . The application has been implemented using Net Core and Xamarin. For project management, the waterfall model has been followed. En este artículo, se expone el desarrollo llevado a cabo para realizar una aplicación para dispositivos móviles. Esta aplicación tiene los objetivos de facilitar a los usuarios, un seguimiento de cuál es el impacto que crea la huella de carbono de los alimentos que consumen en su día a día. El aplicativo que se ha llevado a cabo durante el proyecto tiene la intención de que la introducción y representación de los valores sea sencilla y amigable, y que el proceso de aprendizaje sea lo menor posible, también incorpora ayudas para quien lo necesite. Los usuarios pueden calcular la huella de carbono introduciendo un alimento deseado y la cantidad, el aplicativo mostrará diferentes valores sobre el impacto ambiental de ese alimento, tanto miente la aplicación permite registrar usuarios o tener una cuenta personal para visualizar las últimas búsquedas . La aplicación ha sido implementada utilizando Net Core y Xamarin. Para la gestión del proyecto se ha seguido el modelo en cascada.
- Published
- 2023
16. Generació automàtica de diàlegs de còmic
- Author
-
Masip Cabeza, Sergi, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Transformer ,Generación de lenguaje ,Vl-t5 ,Còmics ,Generació de llenguatge ,Language modeling ,Cómics ,Comics ,Visual storytelling ,T5 - Abstract
En els últims anys, els models de generació de llenguatge han estat millorant a un ritme accelerat. Aquestes millores han arribat també als models multimodals que treballen amb text i imatges, amb els quals se solen dur a terme tasques de descriure imatges o respondre preguntes sobre elles. En aquest projecte, però, s'han fet servir models d'aquest tipus amb l'objectiu últim de generar diàlegs de còmic. Per a aconseguir-ho, s'ha fet servir la base de dades proporcionada a COMICS. Primer s'ha plantejat la tasca de predir el següent diàleg d'entre un conjunt de candidats (Text cloze) donat un context de 3 panells i avaluar l'eficàcia d'aquests models comparant-los amb els resultats assolits a COMICS. Llavors, s'ha entrenat el millor d'aquests models per a la generació de diàlegs. Els resultats quantitatius mostren que els models de Text cloze superen al model hi-LSTM de COMICS. A més, es proposa un model generatiu en aquesta tasca el qual és capaç de generar següents diàlegs amb una adequació al context limitada, tot i obtenir uns valors baixos a les mètriques i contenir errors induïts per la qualitat de la base de dades. Recently, language generation models have improved at an accelerated pace. Along with them, multimodal models that work with text and images have also improved. These models are usually used to perform tasks such as image captioning or visual question answering. However, in this project, we are using these models to generate comic dialogues. To do this, we used the dataset provided in COMICS. First, we proposed predicting the following dialogue from a set of candidates given the 3 previous panels as a context (Text cloze) as the first task and evaluating the effectiveness of these models by comparing them with the results achieved in COMICS. Then, we trained another based on the previous one for generating dialogues. The quantitative results show that the Text cloze models outperform the hi-LSTM model used in COMICS. In addition, we propose a generative model in this task, which is able to generate subsequent dialogues that fit the context to a certain extent, despite obtaining low values in the metrics and containing errors induced by the quality of the text transcriptions. En los últimos años, los modelos de generación de lenguaje han mejorado a un ritmo acelerado. Estas mejoras han llegado también a los modelos multimodales que trabajan con texto e imágenes, con los que suelen llevarse a cabo tareas de describir imágenes o responder a preguntas sobre ellas. Sin embargo, en este proyecto se han utilizado modelos de este tipo con el objetivo último de generar diálogos de cómic. Para ello, se ha utilizado la base de datos proporcionada en COMICS. Primero se ha planteado la tarea de predecir el siguiente diálogo a partir de un conjunto de candidatos (Text cloze) dado un contexto de 3 paneles y evaluar la eficacia de estos modelos comparándolos con los resultados alcanzados en COMICS. Entonces, se ha entrenado el mejor de estos modelos para la generación de diálogos. Los resultados cuantitativos muestran que los modelos de Text cloze superan al modelo hi-LSTM de COMICS. Además, se propone un modelo generativo en esta tarea que es capaz de generar siguientes diálogos con una adecuación al contexto limitada, a pesar de obtener unos valores bajos en las métricas y contener errores inducidos por la calidad de la base de datos.
- Published
- 2022
17. Generació automàtica de preguntes
- Author
-
Castaño Segade, Biel, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Transformer ,Question ,Preguntes ,Preguntas ,Red neuronal ,Xarxa neural ,Neural network ,Pytorch ,T5 - Abstract
La generació automàtica de preguntes és un procés mitjançant el qual un model informàtic és capaç d'obtenir preguntes basades en una entrada -habitualment, un text-. Un model capaç d'executar aquesta tasca té nombroses aplicacions pràctiques, tals com contribuir a la creació d'un tutor intel·ligent o un model de conversació automàtica. Així mateix, la generació automàtica de preguntes també és rellevant de cara a la creació de bases de dades que permetin l'entrenament d'un model generador de respostes. En aquest article es presenten els fonaments teòrics i la metodologia seguida per a crear un model generador de preguntes a partir dels transformers, un tipus d'arquitectura de xarxes neuronals que és àmpliament utilitzada en l'estat de l'art del processament del llenguatge natural. Automatic question generation is a process by which a computer model can obtain questions based on input - usually text. In addition to their relevance in the creation of databases that train automatic answer generation models, such models have other practical applications, such as contributing to the creation of intelligent tutor and conversational models. This article outlines the theoretical foundations and methodology behind the creation of a question generation model from a transformer, the kind of neural network architecture widely used in the state of the art of natural language processing. La generación automática de preguntas es un proceso mediante el cual un modelo informático es capaz de obtener preguntas basadas en una entrada -habitualmente, un texto-. Un modelo capaz de ejecutar esta tarea tiene numerosas aplicaciones prácticas, tales como contribuir a la creación de un tutor inteligente o un modelo de conversación automática. Así mismo, la generación automática de preguntas también es relevante de cara a la creación de bases de datos que permitan entrenar un modelo generador de respuestas. En este artículo se presentan los fundamentos teóricos y la metodología seguida para crear un modelo generador de preguntas a partir de los transformers, un tipo de arquitectura de redes neuronales que es muy utilizada en el estado del arte del procesamiento del lenguaje natural.
- Published
- 2022
18. Aplicació pel seguiment del procés de rehabilitació de pacients amb malalties neuromusculars
- Author
-
Faura Moreno, Guillermo, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación ,Terapeuta ,Patient ,Pacient ,Application ,Actividades ,Firebase ,Paciente ,BD ,Front end ,Back end ,Neuromuscular ,Frente end ,Activitats ,Therapist ,Activities ,Aplicació - Abstract
Aquest treball consisteix en el desenvolupament i posada en marxa d'una aplicació mòbil que ajuda a l'equip de Teràpia Ocupacional de l'Hospital de Sant Pau, en la planificació, control i seguiment de les activitats de rehabilitació de pacients amb malalties neuromusculars degeneratives. D'una banda, el sistema creat té un espai exclusivament pels terapeutes perquè aquests puguin assignar activitats (vídeos) als seus pacients, veure les activitats que han realitzat i comunicar-se amb ells via xat (per un control més personalitzat del procés de rehabilitació). De l'altra, l'aplicació ofereix un entorn diferent pels pacients, on aquests poden veure les categories d'activitats disponibles i els vídeos que tenen assignats en cadascuna. Aleshores, poden visualitzar les activitats amb el reproductor de vídeo que s'ha implementat. A més, poden rebre retroalimentació per mitjà de la funcionalitat de xat i veure la informació de contacte en l'apartat de perfil. L'aplicació que s'ha creat seguint la metodologia de desenvolupament àgil Kanban, que permet dividir el treball en tasques, proporciona una millor versatilitat i dona més transparència del que s'està fent. A més, s'ha implementat mitjançant l'arquitectura MVC (Model Vista Controlador), amb la qual cosa es pot reaprofitar el codi i permet una gran escalabilitat, per si en un futur es volen afegir noves funcionalitats. This work consists of developing and implementing a mobile application that assists the Occupational Therapy Team of the Hospital of Saint Paul, in the planning, control and monitoring of rehabilitation activities for patients with degenerative neuromuscular diseases. On the one hand, the created system has space exclusively for therapists so that they can assign activities (vicdeos) to their patients, see the activities they have performed and communicate with them via chat (for more personal control of the rehabilitation process). On the other hand, the application offers a different environment for patients, where patients can see the categories of activities available and the videos assigned to them. They can then view the activities with the video player that has been implemented. In addition, they can receive feedback via chat functionality and view contact information in the profile paragraph. The application that has been created by following the agile Kanban development methodology, which allows for the division of work into tasks, provides better versatility and gives more transparency than is being done. In addition, it has been implemented using the MVC (Model Vista Controller) architecture, allowing for large scalability, in case new features are added in the future. Este trabajo consiste en el desarrollo y puesta en marcha de una aplicación móvil que ayuda al equipo de Terapia Ocupacional del Hospital de Santo Pablo, en la planificación, control y seguimiento de las actividades de rehabilitación de pacientes con enfermedades neuromusculares degenerativas. Por un lado, el sistema creado tiene un espacio exclusivamente por los terapeutas porque estos puedan asignar actividades (videos) a sus pacientes, ver las actividades que han realizado y comunicarse con ellos vía chat (por un control más personalizado del proceso de rehabilitación). De la otra, la aplicación ofrece un entorno diferente por los pacientes, donde estos pueden ver las categorías de actividades disponibles y los videos que tienen asignados en cada una. Entonces, pueden visualizar las actividades con el reproductor de video que se ha implementado. Además, pueden recibir retroalimentación por medio de la funcionalidad de chat y ver la información de contacto en el apartado de perfil. La aplicación que se ha creado siguiendo la metodología de desarrollo ágil Kanban, que permite dividir el trabajo en tareas, proporciona una mejor versatilidad y mujer más transparencia del que se está haciendo. Además, se ha implementado mediante la arquitectura MVC (Modelo Vista Controlador), con lo cual se puede reaprovechar el código y permite una gran escalabilidad, por sí en un futuro se quieren añadir nuevas funcionalidades.
- Published
- 2022
19. Aula de programació interactiva
- Author
-
Pipoyan Paronyan, Arman, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Docència online ,Programación en línea ,Programació online ,Desenvolupament de software ,Desarrollo de software ,Eina de suport docent ,Software development ,Herramienta de apoyo docente ,Docencia en línea ,Online programming ,Online teaching ,Teaching support tool - Abstract
L'objectiu d'aquest projecte és augmentar les funcionalitats d'una eina de suport docent integrant diferents tecnologies existents com GitHub, Jupyter o Moodle i afegir altres funcionalitats que no requereixen mòduls externs. El resultat obtingut és una eina desplegada a un servidor del centre que permet als docents crear problemes i monitorar les solucions que van donant els estudiants durant les sessions de classe, amb la possibilitat d'interactuar amb ells de manera online modificant el seu codi. Tot això amb la possibilitat d'utilitzar GitHub per indicar arxius inicials d'un problema, per afegir fitxers mentre s'està resolent un exercici o per guardar el progrés a un repositori privat. The goal of this project is to increase the functionalities of a teaching support tool by integrating different existing technologies such as GitHub, Jupyter or Moodle and adding other functionalities that do not require external modules. The result obtained is a tool deployed on a server at the center that allows teachers to create problems and monitor the solutions given by students during class sessions, with the possibility of interacting with them online by modifying their code. All of this with the possibility of using GitHub to indicate initial problem files, to add files while solving an exercise or to save the progress in a private repository. El objetivo de este proyecto es aumentar las funcionalidades de una herramienta de apoyo docente integrando diferentes tecnologías existentes como GitHub, Jupyter o Moodle y añadir otras funcionalidades que no requieren módulos externos. El resultado obtenido es una herramienta desplegada a un servidor del centro que permite a los docentes crear problemas y monitorizar las soluciones que van dando los estudiantes durante las sesiones de clase, con la posibilidad de interactuar con ellos de manera en línea modificando su código. Todo esto con la posibilidad de utilizar GitHub para indicar archivos iniciales de un problema, para añadir ficheros mientras se está resolviendo un ejercicio o para guardar el progreso a un repositorio privado.
- Published
- 2022
20. Aplicació pel seguiment del procés de rehabilitació de pacients amb malalties neuromusculars
- Author
-
Isamat Sabadell, Emili, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación ,Teràpia ,Application ,Mòbil ,Mobile ,Web ,Ictus ,Malaltia ,Stroke ,Móvil ,Server ,Android ,Terapia ,Neuromuscular ,Disease ,Therapy ,Servidor ,Enfermedad ,Aplicació - Abstract
Per a un pacient que ha sofert un ictus, una bona recuperació és vital. A l'hospital de Sant Pau, els terapeutes a càrrec de pacients en recuperació de malalties neuromusculars, estan enviant activitats en format de vídeo perquè aquests els resolguin a casa. Els pacients han de saber a on buscar aquests vídeos, tenir present quines activitats han de resoldre cada setmana i, en el cas de tenir consultes, han de trucar al centre o esperar-se a la pròxima vegada que tornin a tenir una sessió. Amb aquest projecte, hem volgut desenvolupar una aplicació web i mòbil, que ajudi a millorar el procés de rehabilitació d'aquests pacients, permetent que el terapeuta pugui compartir una sèrie de vídeos setmanalment amb els seus pacients, i que aquests els puguin reproduir al seu telèfon, de la manera més senzilla possible. For a patient who has suffered a stroke, a good recovery is vital. At Sant Pau Hospital, therapists in charge of stroke recovery patients are sending assignments in a video format for them to solve at home. The patients need to know where to look for these videos, keep in mind what assignments they need to solve each week, and in the event of having some questions, they have to call the medical center or wait until the next time they have a session again. With this project, we wanted to develop a web and mobile application that helps improve the rehabilitation process of these patients, allowing the therapist to share a series of videos weekly with their patients, and that they can watch them in their phone, in the simplest way possible. Para un paciente que ha sufrido un ictus, una buena recuperación es vital. En el hospital de Sant Pau, los terapeutas a cargo de pacientes en recuperación de enfermedades neuromusculares, están enviando actividades en formato de vídeo para que estos las resuelvan en casa. Los pacientes deben saber dónde buscar estos vídeos, tener presente qué actividades deben resolver cada semana y, en el caso de tener consultas, deben llamar al centro o esperarse a la próxima vez que vuelvan a tener una sesión. Con este proyecto, hemos querido desarrollar una aplicación web y móvil, que ayude a mejorar el proceso de rehabilitación de estos pacientes, permitiendo que el terapeuta pueda compartir una serie de vídeos semanalmente con sus pacientes, y que estos puedan reproducir en su teléfono, de la manera más sencilla posible.
- Published
- 2021
21. Desenvolupament d'un sistema per a la planificació d'activitats per pacients amb dificultats cognitives
- Author
-
Baldelomar Salazar, Juan Edgar, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
JavaScript ,SQL ,Aplicación móvil ,Aplicació mòbil ,MVC ,Mobile application ,Web application ,Jquery ,Aplicació web ,Flutter ,PHP ,Aplicación web ,Bootstrap - Abstract
Aquest projecte té com a objectiu la creació d'un sistema que permeti als metges del departament de teràpia ocupacional planificar activitats als seus pacients. Per arribar a bon port, s'ha seguit la metodologia àgil de Kanban, aquest permet gestionar les tasques fins la seva finalització. S'ha desenvolupat una pagina web d'us intern per planificar les activitats amb una arquitectura que permet reutilitzar codi i una gran escalabilitat per si en un futur es volen afegir més funcionalitats, el segon desenvolupament és una aplicació mòbil compatible amb IOS/Android que permetrà als pacients veure totes les activitats assignades. This project aims to create a system that allows doctors in the occupational therapy department to plan activities for their patients. In order to be successful, Kanban's agile methodology has been followed, which allows you to manage tasks until they are completed. An internal website has been developed to plan activities with an architecture that allows code reuse and great scalability in case you want to add more functionality in the future, the second development is a mobile application compatible with IOS / Android that will allow patients to see all assigned activities. Este proyecto tiene como objetivo la creación de un sistema que permita a los médicos del departamento de terapia ocupacional planificar actividades a sus pacientes. Para llegar a buen puerto, se ha seguido la metodología ágil de Kanban, este permite gestionar las tareas hasta su finalización. Se ha desarrollado una página web de uso interno para planificar las actividades con una arquitectura que permite reutilizar código y una gran escalabilidad por si en un futuro se quieren añadir más funcionalidades, el segundo desarrollo es una aplicación móvil compatible con IOS / Android que permitirá a los pacientes ver todas las actividades asignadas.
- Published
- 2021
22. Estudi i desenvolupament d'un simulador de la vida real amb Unity 3D
- Author
-
Yuste Bohé, Xavier, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Desarrollo ágil ,Video game ,Programari ,Patrons de disseny ,Video game programming ,Real life ,Videojuego ,C# ,Desenvolupament àgil ,Life ,Construcció ,Programació de videojocs ,Simulación ,Agile development ,Construction ,Videojoc ,Unity ,Vida ,Programa ,Roleplay ,Simulador ,Patrones de disseño ,Programación de videojuegos ,Design patterns ,Simulator ,C # ,Construcción ,Vida real ,Simulació ,Kanban ,Simulation ,Software - Abstract
El projecte consisteix en el desenvolupament i l'estudi d'un videojoc del gènere Life Simulator (Simulació de la vida real) amb el motor gràfic Unity 3d. Life Simulator es defineix per ser un gènere de videojocs de simulació, centrat en la vida real d'un personatge el qual ha d'anar desenvolupant la seva pròpia vida i guanyar diners per no perdre la partida. El personatge pot buscar feina, treballar de diferents oficis i buscar-se la vida, per posteriorment poder-se gastar els diners en menjar, beguda, cotxes, construir la seva pròpia casa etc. El projecte utilitza el motor gràfic Unity i s'ha desenvolupat en l'entorn de desenvolupament Visual Studio 2019 amb C# com a llenguatge de programació. S'ha treballat amb la metodologia àgil Kanban, mitjançant el sotfware Trello. El resultat de la feina ha culminat en un prototip estable i testejat que es pot provar per a PC, Mac i Linux. The project consists of the development and study of a video game of the genre Life Simulator with the Unity 3d graphics engine. Life Simulator is defined as a genre of simulation video games, focused on the real life of a character who must develop his own life and earn money so as not to lose the game. The character can look for work, work in different trades and make a living, to later be able to spend money on food, drink, cars, build their own house, etc. The project uses the Unity graphics engine and was developed in the Visual Studio 2019 development environment with C# as the programming language. We have worked with the agile Kanban methodology, using the Trello software. The result of the work has culminated in a stable and tested prototype that can be played for PC, Mac and Linux. El proyecto consiste en el desarrollo y el estudio de un videojuego del género Life Simulator (Simulación de la vida real) con el motor gráfico Unity 3d. Life Simulator se define por ser un género de videojuegos de simulación, centrado en la vida real de un personaje el cual debe ir desarrollando su propia vida y ganar dinero para no perder la partida. El personaje puede buscar empleo, trabajar de diferentes oficios y buscarse la vida, para posteriormente poder gastar el dinero en comida, bebida, coches, construir su propia casa etc. El proyecto utiliza el motor gráfico Unity y se ha desarrollado en el entorno de desarrollo Visual Studio 2019 con C # como lenguaje de programación. Se ha trabajado con la metodología ágil Kanban, mediante el sotfware Trello. El resultado del trabajo ha culminado en un prototipo estable y testeado que se puede probar para PC, Mac y Linux.
- Published
- 2021
23. Aula de programació interactiva
- Author
-
Assbaghi Asbahi, Youssef, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Problem ,Alumno ,Javascript ,Alumne ,PHP ,Covid ,Programación ,Classroom ,AJAX ,Problema ,Classe ,C++ ,Css ,Profesor ,Html ,Aula ,Professor ,Teacher ,Programació ,JQuery ,Clase ,MVC ,Programming ,Student ,Kanban ,Python ,Class - Abstract
Un dels majors problemes que es troben els professors de programació és la supervisió dels alumnes a l'hora de fer problemes i desenvolupar codi a classe. Aquests ho tenen complicat per rebre un feedback de manera directa, ja que no hi ha eines per les quals un professor pugui ajudar als alumnes de la classe sense exposar-se ni perdre temps anant taula per taula. A més a més aquest problema s'ha agreujat degut a la crisi sanitària, ja que la necessitat de tenir una eina que resolgui aquest problema és cada vegada més forta. Per tant hem decidit crear una aula de programació interactiva on el professor podrà publicar problemes i els estudiants els podran resoldre. La innovació en aquest projecte és que en tot moment el professor podrà veure en un llistat el codi que desenvolupen els estudiants i accedir i modificar-los, oferint així un feedback en temps real des de la comoditat del seu ordinador. One of the biggest problems teachers face in programming is supervising students when it comes to making problems and developing code in class. These make it difficult to receive feedback directly, as there are no tools by which a teacher can help students in the class without exposing themselves or wasting time going table by table. Furthermore, this problem has been exacerbated due to the health crisis, as the need to have a tool to solve this problem. So, we decided to create an interactive programming, classroom where the teacher will be able to post problems and students will be able to solve them. The innovation in this project is that at all times the teacher can see in a list the code developed by students and access and modify them, thus providing real-time feedback from the comfort of your computer. Uno de los mayores problemas que se encuentran los profesores de programación es la supervisión de los alumnos a la hora de realizar problemas y desarrollar código en clase. Éstos lo tienen complicado para recibir un feedback de forma directa, ya que no hay herramientas por las que un profesor pueda ayudar a los alumnos de la clase sin exponerse ni perder tiempo yendo mesa por mesa. Además este problema se ha agravado debido a la crisis sanitaria, ya que la necesidad de tener una herramienta que resuelva este problema es cada vez más fuerte. Por tanto hemos decidido crear un aula de programación interactiva donde el profesor podrá publicar problemas y los estudiantes podrán resolverlos. La innovación en este proyecto es que en todo momento el profesor podrá ver en un listado el código que desarrollan los estudiantes y acceder y modificarlos, ofreciendo así un feedback en tiempo real desde la comodidad de su ordenador.
- Published
- 2021
24. Implementació d'un mòdul descodificador per un sistema OCR
- Author
-
López Guerra, Oriol, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Transformer ,Intel·ligència artificial ,Xarxes neuronals ,Reconeixement de text ,BI-STET ,Resnet ,Tensorflow ,PHOCNet ,Scene Text Recognition ,Intel·ligencia artificial ,Machine learning ,Reconocimiento de texto ,Redes neuronals ,Neuronal Networks ,Pytorch ,Python - Abstract
En el reconeixement de text en escenes, avui en dia retallar la paraula amb el correcte significat segueix sent un fet complicat. En aquest treball veurem una de les xarxes que ha obtingut bons resultats. Utilitzarem la xarxa BI-STET que utilitza CNN i transformers encoder i decoder. Veurem com funciona i intentarem introduir-li una CNN diferent anomenada PHOCNet, aquesta a diferencia de la BI-STET està pensada per treballar amb imatges amb lletres escrites a mà. En aquest treball compararem les dos CNN esmentades i veurem les seves possibilitats, avantatges i diferencies. Nowadays, In Scene Text Recognition (STR), crooping the words with the correct meaning is still complicated. In this work we will see one of the network that has obtained good results, we will use the BI-STET network that uses CNN and encoder and decoder transformers. We'll see how it Works and try to introduce a new diferent CNN called PHOCNet, unlike BI-STET is designed to work with images with handwritten letters. In this paper we will compare the two CNN mentioned and see their possibilities, advantages and differences. En el reconocimiento de texto en escenas, hoy en dia tecortar la palabra con el significado correcto sigue siendo una tarea complicada. En este trabajo veremos una de las redes que ha obtenido buenos resultados. Utilizaremos la red BI-STET que utiliza una CNN i transformers encoder i decoder. Veremos como funciona i intentaremos introducir una CNN diferente llamada PFOCNet, esta a diferencia de la BI-STET esta pensada para trabajar con imagenes de letras escritas a mano. En este trabajo compararemos estas dos CNN comentadas.
- Published
- 2021
25. Desenvolupament d'un entorn gràfic d'un supermercat virtual
- Author
-
Morales Llamas, Alejandro, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Unity ,Trello ,PC ,C# ,Kanban ,3D - Abstract
Desenvolupament d'un entorn gràfic d'un supermercat virtual, és un software on permetrà a l'usuari realitzar una simulació com si estigués en un supermercat. Aquest projecte parteix de la base d'un altre projecte desenvolupat en el motor gràfic de Unity, realitzat per Elias Kasma Piovani, un antic estudiant de Master de la UAB, on es genera automaticament l'estructura del supermercat amb els seus productes. Aquesta fase de desenvolupament s'ha centrat en donar una experiència més realista a l'usuari, fent que aquest pugui realitzar algunes accions dins del supermercat, tals com moure's per tota la botiga, agafar un carro de la compra, poder agafar els diferents productes que hi han i comprar-los, tot això realitzat en 3 dimensions. Pel desenvolupament del projecte s'ha utilitzat la metodologia àgile Kanban a partir d'una planificació setmanal i s'ha obtingut una versió estable del software. Desarrollo de un entorno gráfico de un supermercado, es un software donde permitirá al usuario realizar una simulación como si estuviera en un supermercado. Este proyecto parte de la base de otro proyecto desarrollado en el motor gráfico de Unity, realizado por Elias Kasma Piovani, un antiguo estudiante de Master de la UAB, donde se genera automáticamente la estructura del supermercado con sus productos. Esta fase de desarrollo se ha centrado en dar una experiencia más realista al usuario, haciendo que éste pueda realizar algunas acciones dentro del supermercado, tales como moverse por la tienda, coger un carro de la compra, poder coger los diferentes productos que hay y comprarlos, todo ello realizado en 3 dimensiones. Para el desarrollo del proyecto se ha utilizado la metodología Àgile Kanban a partir de una planificación semanal y se ha obtenido una versión estable del software. Development of a graphical environment of a virtual supermarket, is a software where it will allow the user to perform a simulation as if he were in a supermarket. This project is the improvement on another project developed in the Unity graphics engine by Elias Kasma Piovani, a former UAB Master's student, where the structure of the supermarket is automatically generated with its products. This development phase has focused on giving to user a more realistic experience, allowing the user to perform some actions within the supermarket, such as moving around the store, grab a shopping cart, be able to grab the different products that are there and buy them, all in 3 dimensions. For the development of the project, the Agile Kanban methodology was used with a weekly planning and a stable version of the software was created.
- Published
- 2020
26. Pixel Wars : disseny i desenvolupament d'un videojoc d'estrategia multiplataforma
- Author
-
Collado Sanchez, Xavier, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Videojoc ,LibGDX ,Patrons de disseny ,Phone ,Videogame ,Principios SOLID ,CleanCode ,Videojuego ,Design pat- terns ,TDD ,Mòvil ,Móvil ,SOLID principles ,Patrones de diseño ,Principis SOLID ,Java ,2D - Abstract
PixelWars és un joc per a dispositius Android, IOS i PC del gènere Estratègia per torns, on el jugador haurà d'avançar per una sèrie de nivells en els quals haurà de vàncer l'exercit enemic. Per a vèncer, el jugador té a la seva disposició una sèrie d'unitats cadascuna amb habilitats i capacitats úniques, amb les quals podrà optar per eliminar totes les unitats enemigues o bé capturar el Quartell enemic. El jugador també haurà de tenir en compte les condicions del terreny al moment de planificar els seus atacs ja que cada terreny afecta d'una forma única a totes les unitats. El projecte ha sigut realitzat fent servir Java com a llenguatge de programació i LibGDX com a framework per a la visualització. El desenvolupament s'ha realitzat seguint els principis del Clean Code i la filosofia Test Driven Development per tal de permetre una modificació i un manteniment més senzill. Totes les funcionalitats han estat dissenyades pensant en els dispositius mòbils així com en els jugadors. PixelWars is a game for Android, IOS and PC devices of the sort Strategy by turns, where the player will have to advance by a series of levels in which he will have to overcome the enemy army. To win, the player has at his disposal a series of units each with unique skills and abilities, with which he can choose to eliminate all enemy units or capture the enemy Barracks. The player must also take into account the terrain conditions when planning his attacks as each terrain affects all units in a unique way. The project has been carried out using Java as a programming language and LibGDX as a framework for visualization. The development has been carried out following the principles of the Clean Code and the Test Driven Development philosophy in order to allow a simpler modifica- tion and maintenance. All features have been designed with mobile devices in mind as well as gamers. PixelWars es un juego para dispositivos Android, IOS y PC del género Estrategia por turnos, donde el jugador deberá avanzar por una serie de niveles en los que deberá vencer al ejercito enemigo. Para vencer, el jugador tiene a su disposición una serie de unidades cada una con habilidades y capacidades únicas, con las que podrá optar por eliminar todas las unidades enemigas o capturar el Cuartel enemigo. El jugador también deberá tener en cuenta las condiciones del terreno en el momento de planificar sus ataques ya que cada terreno afecta de una forma única a todas las unidades. El proyecto ha sido realizado utilizando Java como lenguaje de programación y LibGDX como framework para la visualización. El desarrollo se ha realizado siguiendo los principios del Clean Code y la filosofía Test Driven Development para permitir una modificación y un mantenimiento más sencillo. Todas las funcionalidades han sido diseñadas pensando en los dispositivos móviles así como en los jugadores.
- Published
- 2020
27. Improvement and expansion of a decoder module for an OCR system
- Author
-
Vázquez Junyent, Arnau, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Bigrama ,Decodificador ,Decoder ,PHOC ,Probabilistic histogram ,Diccionario ,Generació sintètica ,Bigram ,Histograma binari ,Graf ,Synthetic generation ,Histograma binario ,Graph ,Histograma probabilístic ,OCR ,Generación sintética ,Diccionari ,Binary histogram ,Histograma probabilístico ,Grafo ,Lexicon - Abstract
OCR systems, short for Optical Character Recognition, are becoming increasingly popular due to the increase in the digitalization of everything. Books, textbooks, magazines and several other paper-based documents are being transformed into an electronic version to be manipulated by a computer. As well, instant translation by image is becoming a reality with the booming technology of smartphones. Nonetheless, OCR systems are still not perfect. The real world contains a lot of extra information and noise that is very difficult for a current OCR system to clean completely, as well as the immensity of variables that take place in handwritten characters and paper-based documents. This project is meant to further improve a decoding module that uses a graph-based algorithm to predict optimal words, and attempts to increase its overall accuracy by using synthetic dataset generation for testing and applying improvements to the base algorithm. Els sistemes OCR, de l'anglès Optical Character Recognition, s'estàn popularitzant considerablement degut a l'augment en la digitalització del món. Llibres de lectura, llibres de text, revistes i altres documents impresos s'estàn transformant en versions digitals per a ser manipulades a través d'ordinadors. A més a més, la traducció instantània a través d'imatge s'està convertint en una realitat amb la tecnologia dels mòbils intel·ligents. No obstant, els sistemes OCR encara no són perfectes. El món real conté molta informació adicional i soroll que són molt complicats d'eliminar per a un sistema OCR actual, a més a més de la immensa quantitat de variables que trobem als caràcters manuscrits i als documents a paper. Aquest projecte millora un mòdul decodificador que fa servir un algorisme basat en grafs per a predir paraules òptimes, i millora els seus resultats utilitzant conjunts de dades generats sintèticament i aplicant modificacions per a millorar l'algorisme base. Los sistemas OCR, del inglés Optical Character Recognition, se están popularizando considerablemente debido al aumento en la digitalización del mundo. Libros de lectura, libros de texto, revistas y otros documentos impresos se están transformando en versiones digitales para ser manipuladas a través de ordenadores. Además, la traducción instantánea a través de imagen se está convirtiendo en una realidad con la tecnología de los móviles inteligentes. No obstante, los sistemas OCR aún no son perfectos. El mundo real contiene mucha información adicional y ruido que son muy complicados de eliminar para un sistema OCR actual, además de la inmensa cantidad de variables que encontramos en los caracteres manuscritos y los documentos a papel. Este proyecto mejora un módulo decodificador que utiliza un algoritmo basado en grafos para predecir palabras óptimas, y mejora sus resultados utilizando conjuntos de datos generados sintéticamente y aplicando modificaciones para mejorar el algoritmo base.
- Published
- 2020
28. Creación de una App híbrida para la gestión del programa Cistell Solidari
- Author
-
Pérez Guerrero, Alejandro, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Solidària ,Hybrid application ,Aplicació híbrida ,Ajuda ,Trello ,Angular ,Firebase ,Solidaria ,Ayuda ,Aplicación híbrida ,Help ,Solidary - Abstract
El Cistell Solidari de Montcada i Reixac es un proyecto perteneciente a la empresa Aldeas Intantiles SOS de ayuda solidaria y de venta a bajo precio de productos frescos a familias con niños y niñas a su cargo que no tienen suficiente renta disponible y no pueden darles la alimentación adecuada. Actualmente, esta empresa gestiona esto manualmente y decidieron automatizar todo este sistema desde una aplicación móvil y web. Con esta aplicación consiguen que las familias no se sientan excluídas de la sociedad además de una mayor gestión del cobro de comercios a familias. En este proyecto se muestra el desarrollo de CistellSolidari App, una aplicación híbrida que permite conectarse desde cualquier dispositivo, ya sea smartphone o vía web para solventar la petición de Aldeas Infantiles SOS. El Cistell Solidari de Montcada i Reixac és un projecte pertanyent a l'empresa Aldeas Intantiles SOS d'ajuda solidària i de venda a baix preu de productes frescos a famílies amb nens i nenes al seu càrrec que no tenen prou renda disponible i no poden donar-los l'alimentació adequada. Actualment, aquesta empresa gestiona això manualment i van decidir automatitzar tot aquest sistema des d'una aplicació mòbil i web. Amb aquesta aplicació aconsegueixen que les famílies no se sentin excloses de la societat a més d'una major gestió de cobrament de comerços a famílies. En aquest projecte es presenta el desenvolupament de CistellSolidari App, una aplicació híbrida que permet connectar-se des de qualsevol dispositiu, ja sigui telèfon intel·ligent o via web per solucionar la petició de Aldeas Infantiles SOS. The Cistell Solidari de Montcada i Reixac is a project belonging to the company Aldeas Intantiles SOS of solidarity aid and low-price sale of fresh products to families with children in their care who do not have enough disposable income and cannot give them food adequate. Currently, this company manages this manually and they decided to automate this entire system from a mobile and web application. With this application, they ensure that families do not feel excluded from society as well as greater management of the collection of businesses from families. This project shows the development of the CistellSolidari App, a hybrid application that allows you to connect from any device, be it a smartphone or via the web to solve the request of Aldeas Infantiles SOS.
- Published
- 2020
29. Generació automàtica de test, per a l'avaluació d'exercicis de programació
- Author
-
Bernal Petit, Ricard, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Concepto clase ,Artificial intelligence ,End to end test ,POO ,Class concept ,Test automàtic ,Test extrem a extrem ,Automatic testing ,Inteligencia artificial ,TDD ,UML ,Documento de texto plano ,Document de text pla ,Test extremo a extremo ,Concepte classe ,GUI ,Test automático ,Plain text document ,BDD ,Software ,C++ ,Java - Abstract
Donada la problemàtica de la correcció d'exercicis de programació, causada per la gran quantitat d'alumnes i per tant d'exercicis entregats per part d'aquests, els docents encarregats de mantenir l'avaluació continua al dia han de realitzar grans esforços, ja que han de crear des de zero els test que s'aplicaran als exercicis per obtenir la nota de l'exercici de cada alumne, això sumat al temps invertit a crear nous exercicis per poder dinamitzar les classes i adaptar-se als avenços en el camp de les noves metodologies i procediments de desenvolupament. Per tal d'agilitzar aquest procés, s'ha desenvolupat una aplicació Java que permet generar automàticament aquestes classes de test, a través d'introduir un fitxer de text pla en l'estil acordat, el qual és tractat i utilitzat per obtenir la informació necessària per generar un fitxer de sortida en el format acordat, en aquest cas c++, que ja permet testejar els exercicis demanats pel docent. Due to the problem of the correction of programming exercises, caused by the large number of students and therefore of exercises delivered by them, the teachers responsible for keeping the evaluation up-to-date must realize large efforts, since they have to create from scratch the tests that will be applied to the exercises to obtain the note of the exercise of each student, this added to the time invested in creating new exercises to be able to dynamize the classes and adapt to the advances in the field of new methodologies and development procedures. In order to streamline this process, a Java application has been developed that allows you to automatically generate these test classes, by entering a plain text file in the agreed style, which is treated and used to obtain the necessary information to generate an output file in the agreed format, in this case c++, which already allows to test the exercises requested by the teacher. Dada la problemática de la corrección de ejercicios de programación, causada por la gran cantidad de alumnos y por tanto de ejercicios entregados por parte de éstos, los docentes encargados de mantener la evaluación contínua al día tienen que realizar grandes esfuerzos, puesto que tienen que crear desde cero los test que se aplicarán a los ejercicios para obtener la nota del ejercicio de cada alumno, esto sumado al tiempo invertido a crear nuevos ejercicios para poder dinamizar las clases y adaptarse a los adelantos en el campo de las nuevas metodologías y procedimientos de desarrollo. Para agilizar este proceso, se ha desarrollado una aplicación Java que permite generar automáticamente estas clases de test, a través de introducir un fichero de texto plano en el estilo acordado, el cual es tratado y utilizado para obtener la información necesaria para generar un fichero de salida en el formato acordado, en este caso c++, que ya permite testar los ejercicios pedidos por el docente.
- Published
- 2019
30. Implementació d'un mòdul decodificador per un sistema OCR
- Author
-
Jardí Geijo, Guillem, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Vector característic ,Vèrtex ,Letter ,Letres ,Caminos óptimos ,Optimal path ,Camí òptim ,Descodificar ,Graf ,Words ,Palabras ,Grafos ,Graph ,Paraules ,Histogrames ,OCR ,Vertex ,Vector característico ,Histogramas ,Histograms. Decode ,Vértices ,Characteristic vector ,Letras - Abstract
Els sistemes OCR, sistemes informàtics capaços d'interpretar paraules en una imatge, tenen un gran impacte i possibilitats d'ús en la societat d'avui dia. En aquest projecte es presenta com s'han desenvolupat una sèrie de models amb l'objectiu d'interpretar la lectura de paraules en imatges naturals obtingudes per un sistema OCR. Les característiques que ens proporcionen els grafs, juntament amb la correcta aplicació d'algoritmes de cerca de camins òptims són les principals estratègies utilitzades per al desenvolupament dels tres models implementats. OCR systems, computer systems capable to extract words from an image, have a great impact and possibilities of use in today's society. This project shows how a series of models have been developed with the aim of interpreting the reading of words in natural images obtained by this system. The characteristics that the graphs provide to us, with the correct application of optimal path search algorithms are the main strategies used for the development of the three models implemented in this project. En los sistemas OCR, sistemas informáticos capaces de interpretar palabras en imágenes, tienen un gran impacto y posibilidades de uso en la sociedad de hoy en día. Es este proyecto se expone como se han desarrollado un conjunto de modelos con el objetivo de interpretar la lectura de palabras en imágenes naturales obtenidas por un sistema OCR. Las características que nos proporcionan los grafos, junto con la correcta aplicación de algoritmos de búsqueda de camino óptimos son las principales estrategias utilizadas para el desarrollo de los tres modelos implementados.
- Published
- 2019
31. Aula interactiva per l'aprenentatge de la programació
- Author
-
Ortiz Gallardo, David, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Professor ,Teacher ,Programació ,Exercises ,Estudiants ,Exercicis ,Ejercicios ,Aula interactiva ,Web ,Feedback ,Programación ,Estudiantes ,Moodle ,Programming ,Interactive classroom ,Students ,Plugin ,Profesor - Abstract
Aula interactiva per l'aprenentatge de la programació consisteix en el desenvolupament d'una aplicació web interactiva que faciliti la docència d'assignatures de programació. Aquest aplicatiu web ha de permetre que el professor d'una assignatura de programació pugui proposar de forma interactiva exercicis, els quals, els alumnes han de poder resoldre directament a través de la interfície web mitjançant un editor de text i un compilador per tal d'executar-ho tot en un mateix entorn. El projecte, també ha de permetre la interacció entre professors i alumnes per poder proporcionar feedback entre ells. Aula interactiva para el aprendizaje de la programación consiste en el desarrollo de una aplicación web interactiva que facilite la docencia de asignaturas de programación. Este aplicativo web tiene que permitir que el profesor de una asignatura de programación pueda proponer de forma interactiva ejercicios, los cuales, los alumnos tienen que poder resolver directamente a través de la interfaz web mediante un editor de texto y un compilador para ejecutarlo todo en un mismo entorno. El proyecto, también tiene que permitir la interacción entre profesores y alumnos para poder proporcionar feedback entre ellos. Interactive classroom for the learning of programming consists in the development of an interactive web application that facilitates the teaching of programming subjects. This web application should allow the teacher of a programming subject to propose interactive exercises, which, students must be able to solve directly through the web interface using a text editor and a compiler to run everything in the same environment. The project, also, must allow the interaction between teachers and students to be able to provide feedback among them.
- Published
- 2018
32. Word spotting and recognition in images from heterogeneous sources
- Author
-
Ghosh, Suman Kumar, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
- Subjects
Handwriting recognition ,Reconeixment de paraules manuscrites ,Ciències Experimentals ,Indexament ,Indexamiento ,Indexing ,Reconocimiento de palabras manuscritas ,Word spotting - Abstract
El text es la manera més habitual d’intercanviar informació des de les edats. Amb el desenvolupament recent d’imatges de bases de dades de manuscrits manuscrits històrics, la demanda d’algorismes per fer accessibles aquestes bases de dades per a la navegació i la indexació estan augmentant. L’augment exponencial de les bases de dades d’imatges disponibles públicament i les col·leccions personals d’imatges, aquest interès també inclou l’enteniment del text sobre imatges naturals. Activar la cerca o comprendre una gran collecció de manuscrits o bases de dades d’imatges requereix un mètode ràpid i robust. Els investigadors han trobat diferents maneres de representar paraules retallades per a la comprensió i la concordança, cosa que funciona bé quan les paraules ja estan segmentades. No obstant això, no hi ha cap manera trivial d’estendre’ls per a documents no segmentats. En aquesta tesi, explorem diferents mètodes per a la recuperació i el reconeixement de text a partir d’imatges sense escena de documents i escenes. Hi ha dues formes de representació diferents a la literatura, s’utilitza una representació de longitud fixa a partir de paraules retallades i una altra amb una seqüència de característiques de longitud variable. Al llarg d’aquesta tesi, hem estudiat aquestes dues representacions per la seva idoneïtat en la lliure comprensió del text. A la primera part, ens hem centrat en la segmentació de paraules lliures amb una representació de longitud fixa. Vam ampliar l’ús d’una representació exitosa per a la recuperació gratuïta de segmentacions. En la segona part de la tesi, explorem funcions basades en seqüències i, finalment, proposem una solució unificada on el mateix marc pot generar ambdós tipus de representacions. El texto es la forma más común de compartir información desde edades. Con el reciente desarrollo de bases de datos de imágenes de manuscritos históricos manuscritos, la demanda de algoritmos para hacer accesibles estas bases de datos para la navegación y la indexación están en aumento. El aumento exponencial de las bases de datos de imágenes disponibles al público y las colecciones personales de imágenes, este interés ahora también abarca la comprensión de texto en imágenes naturales. La habilitación de la búsqueda o la comprensión de una gran colección de manuscritos o bases de datos de imágenes necesita un método rápido y sólido. Los investigadores han encontrado diferentes maneras de representar la palabra recortada para la comprensi ón y la coincidencia, que funciona bien cuando las palabras ya están segmentadas. Sin embargo, no hay una forma trivial de ampliar estos para documentos no segmentados. En esta tesis, exploramos diferentes métodos para la recuperación y el reconocimiento de texto a partir de documentos no segmentados e imégenes de escena. Existen dos formas diferentes de representación en la literatura, una usa una representaci ón de longitud fija aprendida de palabras recortadas y otra una secuencia de características de longitud variable. A lo largo de esta tesis, hemos estudiado estas dos representaciones por su idoneidad en la segmentación, la comprensión libre del texto. En la primera parte, nos centramos en la detección de palabras sin segmentación utilizando una representación de longitud fija. Extendimos el uso de una representación exitosa para la recuperación libre de segmentación. En la segunda parte de la tesis, exploramos las características basadas en secuencia y finalmente proponemos una soluci´on unificada donde el mismo marco puede generar ambos tipos de representaciones. Text is the most common way of information sharing from ages. With recent development of images databases of handwritten historic manuscripts the demand for algorithms to make these databases accessible for browsing and indexing are in rise. Exponential increase of publicly available image databases and personal collections of pictures, this interest now also embraces text understanding on natural images. Enabling search or understanding large collection of manuscripts or image databases need fast and robust method. Researchers have found different ways to represent cropped word for understanding and matching, which works well in when words are already segmented. However there is no trivial way to extend these for non-segmented documents. In this thesis we explore different methods for text retrieval and recognition from unsegmented document and scene images. Two different ways of representation exists in literature, one uses a fixed length representation learned from cropped words and another a sequence of features of variable length. Throughout this thesis, we have studied both these representation for their suitability in segmentation free understanding of text. In the first part we are focused on segmentation free word spotting using a fixed length representation. We extended the use of one successful representation for segmentation free retrieval. In the second part of the thesis, we explore sequence based features and finally propose a unified solution where same framework can generate both kind of representations.
- Published
- 2018
33. Aula interactiva para el aprendizaje de la programación
- Author
-
Díaz Guardabrazos, Urko, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Pàgina web ,Moodle ,Website ,Compilador ,Compiler ,Web application ,Interactive classroom ,Aplicació web ,Página web ,Aplicación web ,Aula interactiva ,Feedback ,Plugin - Abstract
El proyecto de Aula interactiva para el aprendizaje de la programación consiste en el desarrollo de una aplicación web interactiva que facilite la docencia de diversas asignaturas de programación. Esta aplicación web permitirá que el profesor de una asignatura de programación pueda proponer ejercicios, para que los alumnos de la asignatura puedan resolverlos directamente a través de la interfaz web mediante un editor de texto y un compilador con el fin de ejecutar todo en un mismo entorno. El proyecto también debe permitir la interacción entre profesores y alumnos a tiempo real para que el profesor pueda ver cómo están trabajando los alumnos y poder mostrarlo a los demás alumnos en caso de necesitarlo. Para ello, es necesario que los alumnos puedan acceder a los ejercicios propuestos por el profesor directamente desde el aplicativo web sin necesidad de descargar ningún programa o archivos. Los alumnos podrán de este modo ver los ejercicios propuestos por el profesor, editar el código, guardarlo, corregir los ejercicios y subirlos al servidor comprimidos en formato zip o rar. El profesor, de esta manera, podrá ofrecer su feedback a los alumnos y ayudarles de una manera más sencilla a aprender a programar. The Interactive classroom for learning programming project consists in the development of an interactive web application that helps the teaching of various programming subjects. This web application will allow the teacher of a programming subject to propose exercises so that the students of the subject can solve them directly through the web interface through a text editor and a compiler in order to execute everything in the same environment . The project must also allow interaction between teachers and students in real time so that the teacher can see how students are working and show it to other students if needed. For this, it's necessary that students can access the exercises proposed by the teacher directly from the web application without having to download any program or files. Students can see the exercises proposed by the teacher, edit the code, save it, correct the exercises and upload them to the server compressed in zip or rar format. The teacher, in this way, can offer their feedback to students and help them in a simpler way to learn to program. El projecte d'Aula interactiva per l'aprenentatge de la programació consisteix en el desenvolupament d'una aplicació web interactiva que faciliti la docència de diverses assignatures de programació. Aquesta aplicació web permetrà que el professor d'una assignatura de programació pugui proposar exercicis, perquè els alumnes de l'assignatura puguin resoldre'ls directament a través de la interfície web mitjançant un editor de text i un compilador per tal d'executar tot en un mateix entorn . El projecte també ha de permetre la interacció entre professors i alumnes a temps real perquè el professor pugui veure com estan treballant els alumnes i poder mostrar-ho als altres alumnes en cas de necessitar-ho. Per a això, cal que els alumnes puguin accedir als exercicis proposats pel professor directament des de l'aplicatiu web sense necessitat de descarregar cap programa o arxius. Els alumnes podran d'aquesta manera veure els exercicis proposats pel professor, editar el codi, guardar-lo, corregir els exercicis i pujar-los al servidor comprimits en format zip o rar. El professor, d'aquesta manera, podrà oferir el seu feedback als alumnes i ajudar-los d'una manera més senzilla a aprendre a programar.
- Published
- 2018
34. Application for the search of text in handwritten notes for mobile devices
- Author
-
del Caño Masip, Jose Miguel, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación ,Manuscritas ,Application ,Search ,TFG ,Cerca ,Visión por computación ,Búsqueda ,Manuscrites ,Notas ,Notes ,Computer vision ,Handwritten ,App ,Aplicació ,Visió per computació - Abstract
In this document you will find information about the creation of the handwritten search application. This project's main objective is developing an application for searching words from a document filled with pen strokes. Nowadays there are applications allowing users to load handwritten notes, save and edit drawings, and much more. However, none of them implement the much-needed functionality of searching text from handwritten notes. It is right here where my application comes in handy offering a unique solution. This project will cover many aspects such as the basics of developing an application, learning how the Samsung Pen SDK works and explaining all the background process that is needed to create the search functionality. In addition, it will describe the difficulties that I have found during the process of developing the application. En este documento encontrará información sobre la creación de la aplicación de búsqueda manuscrita. El objetivo principal de este proyecto es desarrollar una aplicación para buscar palabras de un documento lleno de trazos de lápiz. Hoy en día existen aplicaciones que permiten a los usuarios cargar notas manuscritas, guardar y editar dibujos, y mucho más. Sin embargo, ninguno de ellos implementa la tan necesaria funcionalidad de buscar texto en notas manuscritas. Es aquí donde mi aplicación es útil y ofrece una solución única. Este proyecto cubrirá muchos aspectos, como los aspectos básicos del desarrollo de una aplicación, cómo funciona Samsung Pen SDK y explica todo el proceso de fondo que se necesita para crear la funcionalidad de búsqueda. Además, describirá las dificultades que encontré durante el proceso de desarrollo de la aplicación. En aquest document trobareu informació sobre la creació de l'aplicació de cerca manuscrita. L'objectiu principal d'aquest projecte és desenvolupar una aplicació per buscar paraules d'un document ple de traços de ploma. Actualment hi ha aplicacions que permeten als usuaris carregar notes manuscrites, guardar i editar dibuixos, i molt més. Tanmateix, cap d'ells implementa la funcionalitat tan necessària de cercar text a partir de notes escrites a mà. És aquí on la meva aplicació és útil i ofereix una solució única. Aquest projecte abastarà molts aspectes com ara els fonaments del desenvolupament d'una aplicació, l'aprenentatge del funcionament del Samsung Pen SDK i explicant tot el procés de fons necessari per crear la funcionalitat de cerca. A més, descriurà les dificultats que he trobat durant el procés de desenvolupament de l'aplicació.
- Published
- 2017
35. Creació d'una aplicació per l'aprenentatge en la programació
- Author
-
Acedo Casellas, Pau, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Smarthphone application ,Joc ,TIC ,Aplicació mòbil ,Android ,Null ,Learning through smarthphone ,Aprenentatge a través del mòbil ,Game - Abstract
El treball proposat tracta de la creació d'una aplicació senzilla per a mòbil, per acostar i facilitar l'aprenentatge de la programació o d'altres aspectes relacionats amb la informàtica (història, diferència en els llenguatges de programació, etc) als estudiants de secundària. Els objectius, entre d'altres, són transmetre als usuaris de l'aplicació, novells en aquest camp, una visió amplia sobre els llenguatges de programació mitjançant una eina tan quotidiana com és el telèfon mòbil. Per això es desenvolupa una aplicació basada en android de preguntes i respostes que interactuï amb els usuaris i els motivi a aprendre més sobre les TIC i tot el món que les envolta, fomentant l'educació a l'hora que juguen i s'ho passen bé. The aim of this project is to create a simple mobile application to approach and facilitate the learning of programming or other aspects related to computer science (history, difference of programming languages, etc.) to secondary school students. The objectives, among others, are to transmit to users, newcomers in this field, a broad vision of the programming languages through a daily tool like the mobile phone. This is why I developed an Android-based application of questions and answers that interact with them and motivate to learn more about ICT and the whole world that surrounds them, encouraging education at the time they play and they have fun. El trabajo propuesto trata de la creación de una aplicación sencilla para móvil, para acercar y facilitar el aprendizaje de la programación o de otros aspectos relacionados con la informática (historia, diferencia en los lenguajes de programación, etc) a los estudiantes de secundaria. Los objetivos, entre otros, son transmitir a los usuarios de la aplicación, noveles en este campo, una visión amplia sobre los lenguajes de programación mediante una herramienta tan cotidiana como es el teléfono móvil. Para ello se desarrolla una aplicación basada en android de preguntas y respuestas que interactúe con los usuarios y los motive a aprender más acerca de las TIC y todo el mundo que las rodea, fomentando la educación a la vez que juegan y se lo pasan bien.
- Published
- 2017
36. Creación de una herramienta de soporte a la autoevaluación de ejercicios de programación
- Author
-
Torrell Amado, Nicolás, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Eina ,Evaluación ,Code ,Codi ,Herramienta ,Tool ,Avaluació ,Evaluation ,Código - Abstract
El proyecto busca crear una herramienta que permita ayudar a la corrección de código, esta herramienta se encargará de analizar el código y devolver al usuario los datos que ha solicitado, como el número de funciones totales, cuantas líneas ocupa cierta función, o cuantas y que instrucciones contiene, para ayudar en la parte del estilo y la estructura de la evaluación del código ya que aunque el código dé el resultado correcto al ser ejecutado, puede tener fallos en como ha sido realizado. The project seeks to create a tool to help in correcting code, this tool will analyze the code and return the user the data requested, such as the number of total functions, how many lines a certain function occupies, or how many and what kind of instructions it contains, to assist in the style and structure part of the evaluation of the code since although the code may have the correct result when executed, it may have mistakes in how it has been developed. El projecte busca crear una eina que permeti ajudar a la correcció de codi, aquesta eina s'encarregués d'analitzar el codi i tornar a l'usuari les dades que ha sol·licitat, com el nombre de funcions totals, totes les línies ocupa certa funció, o quantes i que instruccions conté, per ajudar en la part de l'estil i l'estructura de l'avaluació del codi ja que encara que el codi de l'resultat correcte en ser executat, pot tenir fallades en com ha estat realitzat.
- Published
- 2017
37. AdoptaUnGos APP
- Author
-
García Hinojosa, Javier, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Localización ,Gossos ,Características ,Location ,Informació ,Localització ,Centralizada ,Ayuda ,Collaborative help ,Perdidos ,Database ,Base de dades ,Dogs ,Imatges ,Ajuda ,Information ,Adoption ,Centralized ,Animals ,Mapa ,Abandonados ,Centralitzada ,Perros ,Features ,Col·laboració ,Adopción ,Filtre ,Filter ,Protectores ,Abandoned ,Search ,Cerca ,Característiques ,Protectoras ,Búsqueda ,Base de datos ,Imágenes ,Protective ,Abandonats ,Filtro ,Animales ,Perduts ,Images ,Map ,Lost ,Adopció ,Información ,Colaboración - Abstract
Adopta un Gos nace de la necesidad de un sistema especializado y gratuito que facilite la búsqueda y adopción de perros perdidos y/o abandonados. Esta aplicación web, recoge automáticamente los datos e imágenes de perros, a partir de las webs de protectoras de animales, y les suministra una interfaz de usuario amigable, y una base de datos centralizada a todas las protectoras que deseen insertar a sus animales. Por otra parte otorga al usuario la posibilidad de buscar y filtrar la búsqueda del perro que desea, directamente desde un buscador centralizado de protectoras de animales. Es una herramienta de ayuda mutua entre usuarios al permitir la creación de perfiles con datos de sus mascotas y posibilita la alerta de un animal perdido para en su caso poder mostrar a los demás usuarios información rápida y detallada de la descripción del animal y su ultima ubicación dentro de un mapa el mismo momento de la perdida.. Permite a usuarios de a pie mostrar la ubicación en un mapa y una descripción e imagen, de animales encontrados en la calle, garantizando una rápida difusión y conocimiento de dicho animal por los demás usuarios del sistema. Adopta un Gos was born from the needing of a specialized and free system to facilitates search and adoption of stray dogs and / or abandoned. This web application automatically collects data and images of dogs, from the websites of animal protection, and subminister them a user-friendly interface and a centralized database for all protective wishing to insert their animals. Moreover it gives the user the ability to search and filter search dog you want, directly from a centralized search of animal protection. It is a tool of mutual aid between users by enabling the creation of profiles with data from your pets and possible warning of a lost animal to where appropriate to show to other users quick and detailed information on the description of the animal and his last location within a map the moment of lost .. Allows users walk show the location on a map and a description and image of animals found in the street, ensuring rapid dissemination and knowledge of the animal by other users of the system. Adopta un Gos neix de la necessitat d'un sistema especialitzat i gratuït que faciliti la recerca i adopció de gossos perduts i / o abandonats. Aquesta aplicació web, recull automàticament les dades i imatges de gossos, a partir de les webs de protectores d'animals, i els subministra una interfície d'usuari amigable, i una base de dades centralitzada a totes les protectores que desitgin inserir als seus animals. D'altra banda atorga a l'usuari la possibilitat de cercar i filtrar la recerca del gos que desitja, directament des d'un cercador centralitzat de protectores d'animals. És una eina d'ajuda mútua entre usuaris en permetre la creació de perfils amb dades de les seves mascotes i possibilita l'alerta d'un animal perdut per si escau poder mostrar als altres usuaris informació ràpida i detallada de la descripció de l'animal i la seva ultima ubicació dins d'un mapa del mateix moment de la pèrdua .. Permet a usuaris del carrer mostrar la ubicació en un mapa i una descripció i imatge, d'animals trobats al carrer, garantint una ràpida difusió i coneixement d'aquest animal pels altres usuaris del sistema.
- Published
- 2016
38. MyJob : aplicación móvil para ofrecer, contratar y valorar servicios
- Author
-
Pizarro Thomas, Francisco, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Proximidad ,Proximitat ,Appraisement ,Servicios ,Proximity ,Valoració ,Services ,Job ,Valoración ,Android ,Trabajo ,App ,Serveis ,Treball - Abstract
MyJob es una idea de negocio que consiste en desarrollar una aplicación informática para facilitar la publicación y contratación de servicios. En un momento en el que gran parte de la población no tiene un trabajo estable, el objetivo de esta aplicación es que los usuarios puedan recurrir a nuestra plataforma para ofrecer distintos tipos de servicio que pueden realizar y en la otros usuarios pueden estar interesados. De la misma forma, personas que no saben dónde contratar un tipo de servicio determinado, podrán conectarse y ver si hay algún usuario que ofrezca los servicios que se adaptan a sus necesidades y podrá comprobar su profesionalidad mediante la puntuación y comentarios que este profesional ha recibido. Es cierto que en los últimos tiempos están surgiendo muchas aplicaciones para facilitar la búsqueda de trabajo y la contratación por parte de empresas, pero estas se rigen en un ámbito más profesional. Nuestra idea va dirigida a un ámbito más personal que permite una mayor confianza, flexibilidad y diversidad a la hora de contratar servicios. La idea de desarrollarla en Android ha sido precisamente la de llegar a cuentos más usuarios mejor ya que es la plataforma más utilizada actualmente. MyJob is a business idea that consist about developing an informatic application to facilitate the service application and contract. At a time, when much of the population hasn't got a steady job, the goal of this application is that users can use our platform to offer different types of services they can perform an in which other users may be interested. In the same way people who do not know where to hire a particular type of service, they can connect and see if there is any user who offer services to suit your needs and can prove their professionalism by the score and comments that this candidate has received. It is true that in recent times many applications are emerging to facilitate job search and hiring by companies, but these are foverned in a more professional environment. Our idea is aimed at a more personal level that allowa greater confidence, flexibility and diversity when hiring services. The idea of developing it in Android platform has been precisely to reach more users because it is the most used platform. MyJob és una idea de negoci que consisteix a desenvolupar una aplicació informàtica per facilitar la publicació i contractació de serveis. En un moment en què gran part de la població no té una feina estable, l'objectiu d'aquesta aplicació és que els usuaris puguin recórrer a la nostra plataforma per oferir diferents tipus de servei que poden fer i en la altres usuaris poden estar interessats. De la mateixa manera, persones que no saben on contractar un tipus de servei determinat, podran connectar-se i veure si hi ha algun usuari que ofereixi els serveis que s'adapten a les seves necessitats i podrà comprovar la seva professionalitat mitjançant la puntuació i comentaris que aquest professional ha rebut . És cert que en els últims temps estan sorgint moltes aplicacions per facilitar la recerca de treball i la contractació per part d'empreses, però aquestes es regeixen en un àmbit més professional. La nostra idea va dirigida a un àmbit més personal que permet una major confiança, flexibilitat i diversitat a l'hora de contractar serveis. La idea de desenvolupar-la en Android ha estat precisament la d'arribar a contes més usuaris millor ja que és la plataforma més utilitzada actualment.
- Published
- 2016
39. Desenvolupament d'una eina d'ajuda a correcció de pràctiques de programació
- Author
-
Piqueras Arguisuelas, Esther, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación ,Application ,Corrección Prácticas ,Projects Correction ,Correcció Pràctiques ,Java ,Aplicació - Abstract
Actualment existeixen al nostre voltant milers d'eines per gestionar diferents aspectes quotidians que ens permeten estalviar temps i ser més productius. No obstant això, observem que falten aplicacions per ajudar al professorat en la realització de correccions de diferents treballs universitaris de programació, el que comporta als estudiants a una pèrdua de coneixements per manca de temps. Generalment el professorat realitza la correcció manual dels diferents treballs i dedica temps que podria emprar a pensar en una sèrie d'activitats que poden fomentar l'aprenentatge dels seus alumnes. Donat el problema que podem observar s'ha decidit desenvolupar una aplicació d'escriptori en Java, que permeti al professorat realitzar la correcció d'una manera més automàtica, reduint així el temps emprat en aquesta. Dita aplicació pretén ser eficaç i corregir treballs (programats en C++) el més ràpid possible. At the present time, there are thousand of tools in our environment to manage several everyday aspects which allow us to save time and be more productive. However, we realize that there are missing applications to assist professors in making corrections of university works programs, which means a loss of knowledge because of a lack of time. Generally, professors make manual rectifications of these several projects and spend time which could be used in preparing activities for promoting learning of their students. Given observed problem, we decide develop Java desktop applications which allow professors make corrections automatically, reducing time spent on it. This application is intended to be effective and correct projects (programmed in C++) as quick as possible. Actualmente existen a nuestro alrededor miles de herramientas para gestionar diferentes aspectos cotidianos que nos permiten ahorrar tiempo y ser más productivos. Sin embargo, observamos que faltan aplicaciones para ayudar al profesorado en la realización de correcciones de diferentes trabajos universitarios de programación, lo que conlleva a los estudiantes a una pérdida de conocimientos por falta de tiempo. Generalmente el profesorado realiza la corrección manual de los diferentes trabajos y dedica tiempo que podría emplear en pensar en una serie de actividades que pueden fomentar el aprendizaje de sus alumnos. Dado el problema que podemos observar se ha decidido desarrollar una aplicación de escritorio en Java, que permita al profesorado realizar la corrección de una manera más automática, reduciendo así el tiempo empleado en la misma. Dicha aplicación pretende ser eficaz y corregir trabajos (programados en C ++) lo más rápido posible.
- Published
- 2015
40. Validació automàtica d'imatges de comptadors de gas
- Author
-
Lagunas Fernández, Aitor, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
HOG (Histogram of Oriented Gradients) ,Imatges reals ,Test ,Threshold ,Imatges sintètiques ,Synthetic images ,Imágenes sintéticas ,Train ,Imágenes reales ,SVM (Support Vector Machine) ,And real images ,Matlab ,Model - Abstract
Aquest projecte consisteix en la validació dels números basada en el reconeixement d'imatges, en concret, imatges de comptadors de gas on poden haver-hi diferents models. S'utilitzen uns descriptors de contorn HOG per les imatges, de manera que s'aconsegueix, mitjançant un entrenament, un model. Aquest model l'obtenim gràcies a una representació no supervisada de les imatges on es pot distingir el número de sèrie de cada comptador. Aquest projecte consisteix en la validació dels números basada en el reconeixement d'imatges, en concret, imatges de comptadors de gas on poden haver-hi diferents models. S'utilitzen uns descriptors de contorn HOG per les imatges, de manera que s'aconsegueix, mitjançant un entrenament, un model. Aquest model l'obtenim gràcies a una representació no supervisada de les imatges on es pot distingir el número de sèrie de cada comptador. Aquest projecte consisteix en la validació dels números basada en el reconeixement d'imatges, en concret, imatges de comptadors de gas on poden haver-hi diferents models. S'utilitzen uns descriptors de contorn HOG per les imatges, de manera que s'aconsegueix, mitjançant un entrenament, un model. Aquest model l'obtenim gràcies a una representació no supervisada de les imatges on es pot distingir el número de sèrie de cada comptador. This project involves the validation of numbers based on image recognition, namely gas meters where images can have different models. HOG descriptors are used for images. A model is achieved through training. This model we get thanks to unsupervised images where you can distinguish the serial number of each gas meter. With the SVM method we obtain a classification passing test images which tell us whether or not images are correct. This project involves the validation of numbers based on image recognition, namely gas meters where images can have different models. HOG descriptors are used for images. A model is achieved through training. This model we get thanks to unsupervised images where you can distinguish the serial number of each gas meter. With the SVM method we obtain a classification passing test images which tell us whether or not images are correct. Este proyecto consiste en la validación de números basada en el reconocimiento de imágenes, en concreto, imágenes de contadores de gas donde pueden haber diferentes modelos. Se utilizan unos descriptores de contorno HOG por las imágenes, por lo que se consigue, mediante un entrenamiento, un modelo. Este modelo lo obtenemos gracias a una representación no supervisada de las imágenes donde se puede distinguir el número de serie de cada contador. Este proyecto consiste en la validación de números basada en el reconocimiento de imágenes, en concreto, imágenes de contadores de gas donde pueden haber diferentes modelos. Se utilizan unos descriptores de contorno HOG por las imágenes, por lo que se consigue, mediante un entrenamiento, un modelo. Este modelo lo obtenemos gracias a una representación no supervisada de las imágenes donde se puede distinguir el número de serie de cada contador. Este proyecto consiste en la validación de números basada en el reconocimiento de imágenes, en concreto, imágenes de contadores de gas donde pueden haber diferentes modelos. Se utilizan unos descriptores de contorno HOG por las imágenes, por lo que se consigue, mediante un entrenamiento, un modelo. Este modelo lo obtenemos gracias a una representación no supervisada de las imágenes donde se puede distinguir el número de serie de cada contador.
- Published
- 2015
41. App móvil para reconocer texto en imágenes
- Author
-
Montes Llorente, Víctor Manuel, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Nucli ,Aplicación ,Dispositiu ,L-OCR ,Translator ,Apache ,Dispositivo ,OCR ,Traductor ,Nucleo ,Android ,Device ,Core ,Aplication ,C++ ,Aplicació - Abstract
Los lectores OCR son una herramienta muy útil para poder escanear imágenes que disponen de texto y poder obtener posteriormente este texto. Esta es la idea principal de este proyecto, pero con el añadido de que este integrado en una aplicación Android que permita a cualquier usuario, a través de una imagen obtenida a partir de la cámara o el almacenamiento interno del dispositivo, que pueda obtener el texto de la imagen. Para realizar esta tarea, ha sido proporcionado el núcleo de procesamiento del OCR en el lenguaje C++, este núcleo se procesa en dos partes, la primera parte es procesada dentro del dispositivo Android, y la segunda es procesada a través de un servidor Apache, que posteriormente será el encargado de devolver el resultado al dispositivo, esto permitirá al usuario poder utilizar un traductor también integrado en la propia aplicación. OCR readers are really a useful tool for scanning text-containing images and retrieve the text within them. That's the main target of this project, but adding an Android integration that allow the users to take a picture, either from the camera or internal storage, and get the text contained in it. To achieve that, an OCR core code developed in C++ has been provided. This core runs in two parts: the first one is handled by the Android device itself, and the other one is processed through an Apache server that will later provide the result to the device. That will allow the user to have, indeed, a real-time translator built-in in the app itself. Els lectors OCR són una eina molt útil per a poder escanejar imatges que disposen de text i poder obtenir posteriorment aquest text. Aquesta és la idea principal d'aquest projecte, però amb l'afegit de què esta integrat tot dins una app Android que permeti a qualsevol usuari, a través d'una imatge obtinguda a partir de la càmera o el emmagatzemament intern del dispositiu, que pugui obtenir el text de la imatge. Per realitzar aquesta tasca, ha sigut proporcionat el nucli de processament del OCR en el llenguatge C++. Aquest nucli es processa en dues parts, la primera part és processada dins el dispositiu Android, i la segona és processada a través d'un servidor Apache, que posteriorment serà l'encarregat de retornar el resultat al dispositiu, això permetrà a l'usuari poder utilitzar un traductor també integrat en la pròpia aplicació.
- Published
- 2015
42. Desarrollo de una aplicación móvil para la detección de texto en imágenes TDetect
- Author
-
Saura Lopez, Macari, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Text recognition ,Client/Server ,Aplicació mòbil ,REST ,Reconeixement de text ,Imatge ,Imagen ,OCR ,Aplicación móvil ,Android ,C ++ ,Mobile aplications ,Reconocimiento de texto ,Image ,Client / Servidor ,OpenCV ,Cliente/Servidor ,C++ - Abstract
En la actualidad existe gran diversidad de aplicaciones móviles para abastecer las distintas necesidades de los usuarios, entre ellas están las que nos ayudan a localizar lugares de interés, reconocer canciones en tiempo real con solo escucharla, traducir textos en múltiples idiomas o los típicos y más comunes como son los buscadores web entre otros. Dentro de esta gran variedad aparecen algunas que nos ayudan al reconocimiento de caracteres o texto en imágenes. Actualmente existen algunos ejemplos como los OCRs que, a partir de una imagen capturada, son capaces de detectar el texto dentro de una imagen y convertirlo a un formato en concreto, o otras más interesantes como la recién adquirida por Google, Word Lens la cual está integrada en su aplicación Google Translate capaz de traducir texto en tiempo real con solo enfocar la cámara a la imagen a tratar. Este proyecto no es tan sofisticado como la de Google pero se podría decir que esta dentro de este grupo, el de reconocimiento de texto o caracteres a partir de una imagen, la finalidad es realizar una aplicación en Adroid que mediante unas librerías OpenCV sea capaz de detectar texto dentro de las imágenes. Actualment hi ha gran diversitat d'aplicacions mòbils per a proveir les diferents necessitats dels usuaris, entre elles hi ha les que ens ajuden a localitzar llocs d'interès, reconèixer cançons en temps real amb només escoltar-la, traduir textos en múltiples idiomes o els típics i més comuns com són els cercadors web entre d'altres. Dins d'aquesta gran varietat apareixen algunes que ens ajuden al reconeixement de caràcters o text en imatges. Actualment existeixen alguns exemples com els OCRs que, a partir d'una imatge capturada, són capaços de detectar el text dins d'una imatge i convertir-lo a un format en concret, o altres més interessants com la recentment adquirida per Google, Word Lens la qual està integrada en la seva aplicació Google Translate capaç de traduir text en temps real amb només enfocar la càmera a la imatge a tractar. Aquest projecte no és tan sofisticat com la de Google però es podria dir que aquesta dins d'aquest grup, el de reconeixement de text o caràcters a partir d'una imatge, la finalitat és un fer una aplicació en Adroid que mitjançant unes llibreries OpenCV sigui capaç de detectar text dins de les imatges. At present it exists a great variety of mobile applications to supply the different users' needs, among them are those that help us to locate places of interest, recognize songs in-real time just listening to them, translate texts in different languages or the typical and the most common web browsers among others. Within this range it appears some applications to help us to recognise the characters or text in images. Nowadays it exists as well some examples like the OCRs that, from a captured image, are able to detect text within an image and convert it to a particular format or others more interesting ones like the recently acquired by Google, Word Lens which is integrated in their application Google Translate and that is able to translate text in real-time by focusing the camera to the image to process. This project isn't as sophisticated as Google but it can be said that it is within that group, the text recognition or characters from an image. The aim is to carry out a full application to the Android through openCV libraries to allow to detect text within the pages.
- Published
- 2015
43. Cerca i reconeixement de paraules en imatges
- Author
-
Rodríguez Sabater, Xavier, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Pàgines web -- Desenvolupament ,004 - Informàtica ,Reconeixement d'imatges ,Aplicacions web ,Reconeixement de formes (Informàtica) - Published
- 2015
44. Learning to represent handwritten shapes and words for matching and recognition
- Author
-
Almazán, Jon, Valveny Llobet, Ernest, Fornés Bisquerra, Alicia, and Universitat Autònoma de Barcelona. Departament d'Informàtica
- Subjects
Ciències Experimentals - Abstract
La escritura es una de las formas más importantes de comunicación y durante siglos ha sido el método ma ́s fiable para preservar conocimiento. Sin embargo, a pesar del reciente desarrollo de las imprentas y dispositivos, la escritura manuscrita todavía se utiliza ampliamente para tomar notas, hacer anotaciones, o dibujar bocetos. Con el fin de hacerlos fácilmente accesibles, hay una enorme cantidad de documentos escritos a mano, algunos de ellos con un valor cultural incalculable, que han sido recientemente digitalizados. Esto ha hecho necesario el desarrollo de métodos capaces de extraer información de este tipo de imágenes. Transferir a los ordenadores la capacidad de comprender y reconocer texto y formas escritas a mano ha sido el objetivo de muchos investigadores debido a su gran importancia para muchos campos diferentes. Sin embargo, el diseño de buenas representaciones para lidiar con formas manuscritas es un problema muy difícil debido a la gran variabilidad en este tipo de formas. Una de las consecuencias de trabajar con formas escritas a mano es que necesitamos representaciones que sean robustas, es decir, capaces de adaptarse a la gran variabilidad interna de la clase. Necesitamos representaciones que sean discriminativas, es decir, capaces de aprender cuáles son las diferencias entre las clases. Y necesitamos representaciones que sean eficientes, es decir, capaces de ser calculadas y comparadas con rapidez. Desafortunadamente, las técnicas actuales de representación de formas manuscritas para la recuperación y el reconocimiento no cumplen todos o algunos de estos requisitos. En esta tesis nos centramos en el problema de aprender a representar formas manuscritas dirigido a tareas de recuperación y reconocimiento. En concreto, en la primera parte de la tesis, nos centramos en el problema general de la representación de formas manuscritas para clasificación y reconocimiento. Primero presentamos un descriptor de forma basado en una rejilla deformable que se adapta a grandes deformaciones y donde las celdas de la cuadrícula se utilizan para extraer diferentes características. Seguidamente, proponemos utilizar este descriptor para aprender modelos estadísticos basados en el Active Appearance Model, que aprende de forma conjunta la variabilidad en la estructura y la textura de una determinada clase. En la segunda parte nos centramos en una aplicación concreta, el problema de word spotting, donde el objetivo es encontrar todas las instancias de una palabra dada en un conjunto de imágenes. En primer lugar, abordamos el problema sin segmentación previa y proponemos un enfoque no supervisado, basado en ventana deslizante que supera el estado del arte en dos datasets públicos. En segundo lugar, se aborda el problema de word spotting con varios escritores, donde la variabilidad de palabras aumenta exponencialmente. Se describe un método en el que las imágenes de texto y cadenas de texto se proyectan en un subespacio vectorial común, y donde aquellos vectores que representan la misma palabra están más próximos. Esto se logra gracias a una combinación de label embedding y aprendizaje de atributos, y una regresión a subespacio común. Evaluamos nuestro método en bases de datos públicas de documentos manuscritos e imágenes naturales que muestran resultados comparables o mejores que el estado del arte en tareas de búsqueda y reconocimiento., Writing is one of the most important forms of communication and for centuries, handwriting had been the most reliable way to preserve knowledge. However, despite the recent development of printing houses and electronic devices, handwriting is still broadly used for taking notes, doing annotations, or sketching ideas. In order to be easily accessed, there is a huge amount of handwritten documents, some of them with uncountable cultural value, that have been recently digitized. This has made necessary the development of methods able to extract information from these document images. Transferring the ability of understanding handwritten text or recognizing handwritten shapes to computers has been the goal of many researches due to its huge importance for many different fields. However, designing good representations to deal with handwritten shapes, e.g. symbols or words, is a very challenging problem due to the large variability of these kinds of shapes. One of the consequences of working with handwritten shapes is that we need representations to be robust, i.e., able to adapt to large intra-class variability. We need representations to be discriminative, i.e., able to learn what are the differences between classes. And, we need representations to be efficient, i.e., able to be rapidly computed and compared. Unfortunately, current techniques of handwritten shape representation for matching and recognition do not fulfill some or all of these requirements. Through this thesis we focus on the problem of learning to represent handwritten shapes aimed at retrieval and recognition tasks. Specifically, on the first part of the thesis, we focus on the general problem of representing handwritten shapes for classification and matching. We first present a novel shape descriptor based on a deformable grid that deals with large deformations by adapting to the shape and where the cells of the grid can be used to ex- tract different features. Then, we propose to use this descriptor to learn statistical models, based on the Active Appearance Model, that jointly learns the variability in structure and texture of a given shape class. Then, on the second part, we focus on a concrete application, the problem of word spotting, where the goal is to find all instances of a query word in a dataset of images. First, we address the segmentation-free problem and propose an unsupervised, sliding-window-based approach that achieves state-of-the-art results in two public datasets. Second, we address the more challenging multi-writer problem, where the variability in words exponentially increases. We describe an approach in which both word images and text strings are embedded in a common vectorial subspace, and where those that represent the same word are close together. This is achieved by a combination of label embedding and attributes learning, and a common subspace regression. This leads to a low- dimensional, unified representation of word images and strings, resulting in a method that allows one to perform either image and text searches, as well as image transcription, in a unified framework. We test our approach on four public datasets of both handwritten documents and natural images showing results comparable or better than the state-of-the-art on spotting and recognition tasks
- Published
- 2014
45. Aplicació per a mòbils Android per a poder cercar text en imatges
- Author
-
Vila Tudela, Eloi, Universitat Autònoma de Barcelona. Escola d'Enginyeria, and Valveny Llobet, Ernest
- Subjects
Aplicación ,Android ,Texto ,Application ,Image ,Imatge ,Imagen ,Aplicació ,Text - Abstract
Les imatges s'usen cada vegada més en àmbits molt diversos. Aquestes imatges solen contenir colors, objectes i/o textos i les bases de dades poden contenir infinitat d'imatges. Existint tantes imatges apareix la necessitat de classificar-les, d'ordenar-les i de poder-ne buscar alguna en concret i trobar-la amb relativa facilitat (que una persona hagi de repassar totes les imatges d'una base de dades pot ser una tasca molt poc productiva i ineficient). El resultat d'aquest treball és la classificació d'imatges segons les lletres o text que contenen i la seva posterior recuperació. S'ha desenvolupat una aplicació per a dispositius mòbils amb sistema Android que envia el text que l'usuari vol buscar al servidor on estan allotjades les imatges. Aquest servidor busca entre les imatges que disposa les cinc que contenen un text i que aquest s'assembla més al text rebut. Aquestes imatges són retornades a l'aplicació i mostrades a l'usuari. Un exemple d'ús podrien ser les imatges del sistema Street View de Google. Las imágenes se usan cada vez más en ámbitos muy diversos. Estas imágenes acostumbran a contener colores, objetos y/o textos y las bases de datos pueden contener infinidad de imágenes. Existiendo tantas imágenes surge la necesidad de clasificarlas, de ordenarlas y de querer buscar alguna en concreto y encontrarla con relativa facilidad (que una persona tenga que repasar todas las imágenes de una base de datos puede ser una tarea muy poco productiva e ineficiente). El resultado de este trabajo es la clasificación de imágenes según las letras o texto que contienen y su posterior recuperación. Se ha desarrollado una aplicación para dispositivos móviles con sistema Android que envía el texto que el usuario quiere buscar al servidor dónde están alojadas las imágenes. Este servidor busca entre las imágenes que dispone las cinco que contienen un texto y que este se parece más al texto recibido. Estas imágenes son devueltas a la aplicación y mostradas al usuario. Un ejemplo de uso podrían ser las imágenes del sistema Street View de Google. The images are used more and more in many different scopes. These images usually contain colors, objects and/or texts and the databases can contain countless images. With this growing number of images it appears the necessity to classify them, order them and be able to look for one in particular and find it with relative ease (if a person has to go through all the images of a database can become an unproductive and inefficient task). The outcome of this project is the classification of images according the letters or text containing and the subsequent recovery. We have developed an application for mobile devices with Android system which sends the text the user wants to search to the server where the images are hosted. This server searches through the five available images containing text and this text looks more like the received text. These images are returned to the application and displayed to the user. An example of use could be the images of the Google Street View system.
- Published
- 2014
46. Document Image Representation, Classification and Retrieval in Large-Scale Domains
- Author
-
Gordo, Albert, Valveny Llobet, Ernest, Perronnin, Florent, and Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
- Subjects
Tecnologies ,Large-scale ,Document ,Classification - Abstract
A pesar del ideal de “oficina sin papeles” nacida en la década de los setenta, la mayoría de empresas siguen todavía luchando contra una ingente cantidad de documentación en papel. Aunque muchas empresas están haciendo un esfuerzo en la transformación de parte de su documentación interna a un formato digital sin necesidad de pasar por el papel, la comunicación con otras empresas y clientes en un formato puramente digital es un problema mucho más complejo debido a la escasa adopción de estándares. Las empresas reciben una gran cantidad de documentación en papel que necesita ser analizada y procesada, en su mayoría de forma manual. Una solución para esta tarea consiste en, en primer lugar, el escaneo automático de los documentos entrantes. A continuación, las imágenes de los documentos puede ser analizadas y la información puede ser extraida a partir de los datos. Los documentos también pueden ser automáticamente enviados a los flujos de trabajo adecuados, usados para buscar documentos similares en bases de datos para transferir información, etc. Debido a la naturaleza de esta “sala de correo” digital, es necesario que los métodos de representación de documentos sean generales, es decir, adecuados para representar correctamente tipos muy diferentes de documentos. Es necesario que los métodos sean robustos, es decir, capaces de representar nuevos tipos de documentos, imágenes con ruido, etc. Y, por último, es necesario que los métodos sean escalables, es decir, capaces de funcionar cuando miles o millones de documentos necesitan ser tratados, almacenados y consultados. Desafortunadamente, las técnicas actuales de representación, clasificación y búsqueda de documentos no son aptos para esta sala de correo digital, ya que no cumplen con algunos o ninguno de estos requisitos. En esta tesis nos centramos en el problema de la representación de documentos enfocada a la clasificación y búsqueda en el marco de la sala de correo digital. En particular, en la primera parte de esta tesis primero presentamos un descriptor de documentos basado en un histograma de “runlengths” a múltiples escalas. Este descriptor supera en resultados a otros métodos del estado-del-arte en bases de datos públicas y propias de diferente naturaleza y condición en tareas de clasificación y búsqueda de documentos. Más tarde modificamos esta representación para hacer frente a documentos más complejos, tales como documentos de varias páginas o documentos que contienen más fuentes de información como texto extraído por OCR. En la segunda parte de esta tesis nos centramos en el requisito de escalabilidad, sobre todo para las tareas de búsqueda, en el que todos los documentos deben estar disponibles en la memoria RAM para que la búsqueda pueda ser eficiente. Proponemos un nuevo método de binarización que llamamos PCAE, así como dos distancias asimétricas generales para descriptores binarios que pueden mejorar significativamente los resultados de la búsqueda con un mínimo coste computacional adicional. Por último, señalamos la importancia del aprendizaje supervisado cuando se realizan búsquedas en grandes bases de datos y estudiamos varios enfoques que pueden aumentar significativamente la precisión de los resultados sin coste adicional en tiempo de consulta., Despite the “paperless office” ideal that started in the decade of the seventies, businesses still strive against an increasing amount of paper documentation. Although many businesses are making an effort in transforming some of the internal documentation into a digital form with no intrinsic need for paper, the communication with other businesses and clients in a pure digital form is a much more complex problem due to the lack of adopted standards. Companies receive huge amounts of paper documentation that need to be analyzed and processed, mostly in a manual way. A solution for this task consists in, first, automatically scanning the incoming documents. Then, document images can be analyzed and information can be extracted from the data. Documents can also be automatically dispatched to the appropriate workflows, used to retrieve similar documents in the dataset to transfer information, etc. Due to the nature of this “digital mailroom”, we need document representation methods to be general, i.e., able to cope with very different types of documents. We need the methods to be sound, i.e., able to cope with unexpected types of documents, noise, etc. And, we need to methods to be scalable, i.e., able to cope with thousands or millions of documents that need to be processed, stored, and consulted. Unfortunately, current techniques of document representation, classification and retrieval are not apt for this digital mailroom framework, since they do not fulfill some or all of these requirements. Through this thesis we focus on the problem of document representation aimed at classification and retrieval tasks under this digital mailroom framework. Specifically, on the first part of this thesis, we first present a novel document representation based on runlength histograms that achieves state-of-the-art results on public and in-house datasets of different nature and quality on classification and retrieval tasks. This representation is later modified to cope with more complex documents such as multiple-page documents, or documents that contain more sources of information such as extracted OCR text. Then, on the second part of this thesis, we focus on the scalability requirements, particularly for retrieval tasks, where all the documents need to be available in RAM memory for the retrieval to be efficient. We propose a novel binarization method which we dubbed PCAE, as well as two general asymmetric distances between binary embeddings that can significantly improve the retrieval results at a minimal extra computational cost. Finally, we note the importance of supervised learning when performing large-scale retrieval, and study several approaches that can significantly boost the results at no extra cost at query time.
- Published
- 2013
47. Illumination and Object Reflectance Modeling
- Author
-
Beigpour, Shida, Weijer, Joost van de, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius
- Subjects
Tecnologies ,Reblectance model ,Computer vision ,color constancy - Abstract
El modelado de la reflectancia de las superficies es una clave importante para la comprensión de escenas. Un modelo de reflectancia preciso, basado en las leyes de la física, nos permite alcanzar resultados realísticos y físicamente plausibles. Además, el uso de tal modelo nos permite establecer un conocimiento más profundo acerca de la interacción de la luz con las superficies de los objetos, y resulta crucial para una variedad de aplicaciones de visión por computador. Debido a la alta complejidad de los modelos de reflectancia, la gran mayoría de las aplicaciones existentes de visión por computador basan sus métodos en suposiciones simplificadoras, tales como la reflectancia lambertiana o la iluminación uniforme para ser capaz de resolver sus problemas. Sin embargo, en escenas del mundo real, los objetos tienden a exhibir reflexiones más complejas (difusas y especulares), y además se ven afectados por las características y la cromaticidad de los iluminantes. En esta tesis, se incorpora un modelo de reflexión más realista para aplicaciones de visión por computador. Para abordar tal fenómeno físico complejo, extendemos los modelos de reflectancia de los objetos del estado-del-arte mediante la introducción de un Modelo de Reflexión Dicromático Multi-Iluminante (MIDR). Usando MIDR somos capaces de modelar y descomponer la reflectancia de un objeto con especularidades complejas bajo múltiples iluminantes que presentan sombras e interreflexiones. Se demuestra que este modelo nos permite realizar una recolorización realista de los objetos iluminados por luces de colores y múltiples iluminantes. Además se propone un método "local" de estimación del iluminante para modelar las escenas con iluminación no uniforme (por ejemplo, una escena al aire libre con un cielo azul y un sol amarillo, una escena interior con iluminación combinada con la iluminación al aire libre a través de una ventana, o cualquier otro caso en el que dos o más luces con diferentes colores iluminan diferentes partes de la escena). El método propuesto aprovecha un modelo probabilístico basado en grafos y resuelve el problema rededefiniendo la estimación como un problema de minimización de energía. Este método nos proporciona estimaciones locales del iluminante que mejoran en gran medida a los métodos del estado-del-arte en constancia de color. Por otra parte, hemos capturado nuestro propia base de datos multi-iluminante, que consiste de escenas complejas y condiciones de iluminación al aire libre o de laboratorio. Con ésta se demuestra la mejora lograda usando nuestro método con respecto a los métodos del estado-del-arte para la estimación automática del iluminante local. Se demuestra que tener un modelo más realista y preciso de la iluminación de la escena y la reflectancia de los objetos, mejora en gran medida la calidad en muchas tareas de visión por ordenador y gráficos por computador. Mostramos ejemplos de mejora en el balance automático de blanco, reiluminación de escenas y en la recolorización de objetos. La teoría propuesta se puede emplear también para mejorar la denominación automática de colores, la detección de objetos, el reconocimiento y la segmentación, que están entre las tendencias más populares de la visión por computador., Surface reflectance modeling is an important key to scene understanding. An accurate reflectance model which is based on the laws of physics allows us to achieve realistic and physically plausible results. Using such model, a more profound knowledge about the interaction of light with objects surfaces can be established which proves crucial to variety of computer vision application. Due to high complexity of the reflectance model, the vast majority of the existing computer vision applications base their methods on simplifying assumptions such as Lambertian reflectance or uniform illumination to be able to solve their problem. However, in real world scenes, objects tend to exhibit more complex reflections (diffuse and specular) and are furthermore affected by the characteristics and chromaticity of the illuminants. In this thesis, we incorporate a more realistic reflection model in computer vision applications. To address such complex physical phenomenon, we extend the state-of-the-art object reflectance models by introducing a Multi-Illuminant Dichromatic Reflection model (MIDR). Using MIDR we are able to model and decompose the reflectance of an object with complex specularities under multiple illuminants presenting shadows and inter-reflections. We show that this permits us to perform realistic re-coloring of objects lit by colored lights, and multiple illuminants. Furthermore, we propose a “local” illuminant estimation method in order to model the scenes with non-uniform illumination (e.g., an outdoor scene with a blue sky and a yellow sun, a scene with indoor lighting combined with outdoor lighting through a window, or any other case in which two or more lights with distinct colors illuminating different parts of the scene). The proposed method takes advantage of a probabilistic and graph-based model and solves the problem by re-defining the estimation problem as an energy minimization. This method provides us with local illuminant estimations which improve greatly over state-of-the-art color constancy methods. Moreover, we captured our own multi-illuminant dataset which consists of complex scenes and illumination conditions both outdoor and in laboratory conditions. We show improvement achieved using our method over state-of-the-art methods for local illuminant estimation. We demonstrate that having a more realistic and accurate model of the scene illumination and object reflectance greatly improves the quality of many computer vision and computer graphics tasks. We show examples of improved automatic white balance, scene relighting, and object re-coloring. The proposed theory can be employed in order to improve color naming, object detection, recognition, and segmentation which are among the most popular computer vision trends.
- Published
- 2013
48. Vector Space Embedding of Graphs via Statistics of Labelling Information
- Author
-
Gibert Domingo, Jaume, Valveny Llobet, Ernest, and Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius
- Subjects
Graph-based representations ,Graph embedding ,Tecnologies ,Structural pattern recognition - Abstract
El reconeixement de patrons és la tasca que pretén distingir objectes entre diferents classes. Quan aquesta tasca es vol solucionar de forma automàtica un pas crucial és el com representar formalment els patrons a l'ordinador. En funció d'aquests formalismes, podem distingir entre el reconeixement estadístic i l'estructural. El primer descriu objectes com un conjunt de mesures col·locats en forma del que s'anomena un vector de característiques. El segon assumeix que hi ha relacions entre parts dels objectes que han de quedar explícitament representades i per tant fa servir estructures relacionals com els grafs per codificar la seva informació inherent. Els espais vectorials són una estructura matemàtica molt flexible que ha permès definir diverses maneres eficients d'analitzar patrons sota la forma de vectors de característiques. De totes maneres, la representació vectorial no és capaç d'expressar explícitament relacions binàries entre parts dels objectes i està restrigida a mesurar sempre, independentment de la complexitat dels patrons, el mateix nombre de característiques per cadascun d'ells. Les representacions en forma de graf presenten la situació contrària. Poden adaptar-se fàcilment a la complexitat inherent dels patrons però introdueixen un problema d'alta complexitat computational, dificultant el disseny d'eines eficients per al procés i l'anàlisis de patrons. Resoldre aquesta paradoxa és el principal objectiu d'aquesta tesi. La situació ideal per resoldre problemes de reconeixement de patrons seria el representar-los fent servir estructures relacionals com els grafs, i a l'hora, poder fer ús del ric repositori d'eines pel processament de dades del reconeixement estadístic. Una solució elegant a aquest problema és la de transformar el domini dels grafs en el domini dels vectors, on podem aplicar qualsevol algorisme de processament de dades. En altres paraules, assignant a cada graf un punt en un espai vectorial, automàticament tenim accés al conjunt d'algorismes del món estadístic per aplicar-los al domini dels grafs. Aquesta metodologia s'anomena graph embedding. En aquesta tesi proposem de fer una associació de grafs a vectors de característiques de forma simple i eficient fixant l'atenció en la informació d'etiquetatge dels grafs. En particular, comptem les freqüències de les etiquetes dels nodes així com de les aretes entre etiquetes determinades. Tot i la seva localitat, aquestes característiques donen una representació prou robusta de les propietats globals dels grafs. Primer tractem el cas de grafs amb etiquetes discretes, on les característiques són sencilles de calcular. El cas continu és abordat com una generalització del cas discret, on enlloc de comptar freqüències d'etiquetes, ho fem de representants d'aquestes. Ens trobem que les representacions vectorials que proposem pateixen d'alta dimensionalitat i correlació entre components, i tractem aquests problems mitjançant algorismes de selecció de característiques. També estudiem com la diversitat de diferents representacions pot ser explotada per tal de millorar el rendiment de classificadors base en el marc d'un sistema de múltiples classificadors. Finalment, amb una extensa evaluació experimental mostrem com la metodologia proposada pot ser calculada de forma eficient i com aquesta pot competir amb altres metodologies per a la comparació de grafs., Pattern recognition is the task that aims at distinguishing objects among different classes. When such a task wants to be solved in an automatic way a crucial step is how to formally represent such patterns to the computer. Based on the different representational formalisms, we may distinguish between statistical and structural pattern recognition. The former describes objects as a set of measurements arranged in the form of what is called a feature vector. The latter assumes that relations between parts of the underlying objects need to be explicitly represented and thus it uses relational structures such as graphs for encoding their inherent information. Vector spaces are a very flexible mathematical structure that has allowed to come up with several efficient ways for the analysis of patterns under the form of feature vectors. Nevertheless, such a representation cannot explicitly cope with binary relations between parts of the objects and it is restricted to measure the exact same number of features for each pattern under study regardless of their complexity. Graph-based representations present the contrary situation. They can easily adapt to the inherent complexity of the patterns but introduce a problem of high computational complexity, hindering the design of efficient tools to process and analyze patterns. Solving this paradox is the main goal of this thesis. The ideal situation for solving pattern recognition problems would be to represent the patterns using relational structures such as graphs, and to be able to use the wealthy repository of data processing tools from the statistical pattern recognition domain. An elegant solution to this problem is to transform the graph domain into a vector domain where any processing algorithm can be applied. In other words, by mapping each graph to a point in a vector space we automatically get access to the rich set of algorithms from the statistical domain to be applied in the graph domain. Such methodology is called graph embedding. In this thesis we propose to associate feature vectors to graphs in a simple and very efficient way by just putting attention on the labelling information that graphs store. In particular, we count frequencies of node labels and of edges between labels. Although their locality, these features are able to robustly represent structurally global properties of graphs, when considered together in the form of a vector. We initially deal with the case of discrete attributed graphs, where features are easy to compute. The continuous case is tackled as a natural generalization of the discrete one, where rather than counting node and edge labelling instances, we count statistics of some representatives of them. We encounter how the proposed vectorial representations of graphs suffer from high dimensionality and correlation among components and we face these problems by feature selection algorithms. We also explore how the diversity of different embedding representations can be exploited in order to boost the performance of base classifiers in a multiple classifier systems framework. An extensive experimental evaluation finally shows how the methodology we propose can be efficiently computed and compete with other graph matching and embedding methodologies.
- Published
- 2012
49. Theory and Algorithms on the Median Graph. Application to Graph-based Classification and Clustering
- Author
-
Ferrer Sumsi, Miquel, Valveny Llobet, Ernest, Serratosa i Casanelles, Francesc, and Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
- Subjects
Tecnologies ,Graph Matching ,Median Graph ,519.1 ,Structural Pattern Recognition - Abstract
Donat un conjunt d'objectes, el concepte genèric de mediana està definit com l'objecte amb la suma de distàncies a tot el conjunt, més petita. Sovint, aquest concepte és usat per a obtenir el representant del conjunt. En el reconeixement estructural de patrons, els grafs han estat usats normalment per a representar objectes complexos. En el domini dels grafs, el concepte de mediana és conegut com median graph. Potencialment, té les mateixes aplicacions que el concepte de mediana per poder ser usat com a representant d'un conjunt de grafs. Tot i la seva simple definició i les potencials aplicacions, s'ha demostrat que el seu càlcul és una tasca extremadament complexa. Tots els algorismes existents només han estat capaços de treballar amb conjunts petits de grafs, i per tant, la seva aplicació ha estat limitada en molts casos a usar dades sintètiques sense significat real. Així, tot i el seu potencial, ha restat com un concepte eminentment teòric. L'objectiu principal d'aquesta tesi doctoral és el d'investigar a fons la teoria i l'algorísmica relacionada amb el concepte de medinan graph, amb l'objectiu final d'extendre la seva aplicabilitat i lliurar tot el seu potencial al món de les aplicacions reals. Per això, presentem nous resultats teòrics i també nous algorismes per al seu càlcul. Des d'un punt de vista teòric aquesta tesi fa dues aportacions fonamentals. Per una banda, s'introdueix el nou concepte d'spectral median graph. Per altra banda es mostra que certes de les propietats teòriques del median graph poden ser millorades sota determinades condicions. Més enllà de les aportacioncs teòriques, proposem cinc noves alternatives per al seu càlcul. La primera d'elles és una conseqüència directa del concepte d'spectral median graph. Després, basats en les millores de les propietats teòriques, presentem dues alternatives més per a la seva obtenció. Finalment, s'introdueix una nova tècnica per al càlcul del median basat en el mapeig de grafs en espais de vectors, i es proposen dos nous algorismes més. L'avaluació experimental dels mètodes proposats utilitzant una base de dades semi-artificial (símbols gràfics) i dues amb dades reals (mollècules i pàgines web), mostra que aquests mètodes són molt més eficients que els existents. A més, per primera vegada, hem demostrat que el median graph pot ser un bon representant d'un conjunt d'objectes utilitzant grans quantitats de dades. Hem dut a terme experiments de classificació i clustering que validen aquesta hipòtesi i permeten preveure una pròspera aplicació del median graph a un bon nombre d'algorismes d'aprenentatge., Given a set of objects, the generic concept of median is defined as the object with the smallest sum of distances to all the objects in the set. It has been often used as a good alternative to obtain a representative of the set. In structural pattern recognition, graphs are normally used to represent structured objects. In the graph domain, the concept analogous to the median is known as the median graph. By extension, it has the same potential applications as the generic median in order to be used as the representative of a set of graphs. Despite its simple definition and potential applications, its computation has been shown as an extremely complex task. All the existing algorithms can only deal with small sets of graphs, and its application has been constrained in most cases to the use of synthetic data with no real meaning. Thus, it has mainly remained in the box of the theoretical concepts. The main objective of this work is to further investigate both the theory and the algorithmic underlying the concept of the median graph with the final objective to extend its applicability and bring all its potential to the world of real applications. To this end, new theory and new algorithms for its computation are reported. From a theoretical point of view, this thesis makes two main contributions. On one hand, the new concept of spectral median graph. On the other hand, we show that some of the existing theoretical properties of the median graph can be improved under some specific conditions. In addition to these theoretical contributions, we propose five new ways to compute the median graph. One of them is a direct consequence of the spectral median graph concept. In addition, we provide two new algorithms based on the new theoretical properties. Finally, we present a novel technique for the median graph computation based on graph embedding into vector spaces. With this technique two more new algorithms are presented. The experimental evaluation of the proposed methods on one semi-artificial and two real-world datasets, representing graphical symbols, molecules and webpages, shows that these methods are much more ecient than the existing ones. In addition, we have been able to proof for the first time that the median graph can be a good representative of a class in large datasets. We have performed some classification and clustering experiments that validate this hypothesis and permit to foresee a successful application of the median graph to a variety of machine learning algorithms.
- Published
- 2008
50. Linear Combination of multiresolution descriptors: Application to Graphics Recognition
- Author
-
Ramos Terrades, Oriol, Human-machine dialogue with a significant language component (LANGUE ET DIALOGUE), INRIA Lorraine, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS)-Université Henri Poincaré - Nancy 1 (UHP)-Université Nancy 2-Institut National Polytechnique de Lorraine (INPL)-Centre National de la Recherche Scientifique (CNRS), Université Nancy II, (en France) Dr. Salvatore Antoine Tabbone(Antoine.Tabbone at loria.fr), Valveny Llobet, Ernest, Tabbone, Salvatore Antoine, Universitat Autònoma de Barcelona. Departament d'Arquitectura de Computadors i Sistemes Operatius, and Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique de Lorraine (INPL)-Université Nancy 2-Université Henri Poincaré - Nancy 1 (UHP)
- Subjects
Transformée de ridgelets ,Tecnologies ,Descriptors de forma ,multi-resolution descriptors ,opérateurs linéaires d'agrégation ,Fusió de classificador ,classifier fusion ,Descripteurs de forme ,linear aggregation operators ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,shape descriptors ,descripteurs multiresolution ,Transformada crestetos ,ridgelets transform ,fusion de classificateurs - Abstract
En el camp de l'Anàlisi de Documents voldríem ser capaços de processar automàticament qualsevol tipus de document digital i d'extreure la informació rellevant. és a dir, voldríem conËixer la configuració del document, identificar cadascuna de les seves parts i reconËixer els seus continguts; per a poder fer cerques entre les components del document, però també, per fer cerques entre documents diferents. Aquest és un problema difícil que ha motivat diferents línies de recerca a diferents nivells. S'ha desenvolupat tot una sèrie de tècniques destinades a pre-processar la imatge per augmentar la seva qualitat, reduint el soroll dels sistemes d'adquisició i minimitzant els efectes de la degradació dels documents. També trobem molts treballs en la segmentació destinats a separar les àrees d'interès de la resta del document. Finalment, des de finals dels anys 60 fins a l'actualitat s'han proposat molts tipus descriptors que pretenen representar i identificar aquestes àrees d'interès.En aquesta tesis ens hem centrat en el darrer d'aquests problemes, la descripció de formes però també en la fusió de classificadors per a aplicar-los a una de les apliacions de l'Anàlisi de Documents, el reconeixement de símbols gràfics. En el reconeixement de formes, moltes aplicacions han de fer front al problema de descriure un conjunt gran i complex de formes per a reconèixer-les, o per a recuperar-les de gran bases de dades. En alguns casos, a més del gran nombre de formes, podem trobar altres dificultats com són la semblança entre formes o la variabilitat de classes de símbols. En aquest casos, un punt clau en el procés de reconeixement de formes és la definició de descriptors de gran capacitat de discriminació. Malauradament, un sol tipus de descriptors no sol ser suficient per aconseguir resultats satisfactoris i per tant, hem de combinar la informació provinent de diferents fonts per a millorar el comportament global del sistema de reconeixement. Aquesta combinació de la informació la hem realitzat a travÈs de la fusió de classificadors.En relació a la descripció de formes, tradicionalment els símbols gràfics s'han representat mitjançant descriptors estructurals, construïts a partir d'una representació vectorial. Els mètodes de vectorització són sensibles al soroll i a les distorsions dels símbols esboçats. Podem intentar evitar aquest problema definint gramàtiques o construint models deformables dels símbols. Una altra possibilitat, la que hem seguit en aquest treball, és fer servir descriptors que no necessiten d'una representació vectorial. En el context de la descripció de formes hem proposat un descriptor basat en la transformada de crestetes -en anglès "ridgelets"- que, gràcies a que hem unificat la terminologia i hem introduït un vocabulari per explicar i classificar els descriptors, podem definir com: multiresolució, polar, 2D, que conserva la informació i invariant a les similituds. D'altre banda, la propietat de multiresolució de la transformada de crestetes fa que obtinguem una representació en diferents nivells de resolució que ens permet dividir-la en grups de coeficients de crestetes que es poden considerar com a descriptors. D'aquesta manera, hem entrenat un classificador per a cada descriptor, i hem proposat unes regles de combinació lineals, IN i DN, que minimitzen l'error de classificació per aquells classificadors que compleixin un conjunt de restriccions, relatives a la distribució i dependËncia dels classificadors.Aquests enfocs teòrics han estat avaluats a partir d'un conjunt d'experiments que ens han donat els següents resultats: Els descriptors de crestetes descriuen millor els símbols que altres descriptors més genèrics. Els mètodes IN i DN redueixen l'error de classificació en relació a d'altres mètodes de referència. Per últim, el mètode IN aplicat als descriptors de crestetes, en combinació amb classificadors de tipus "boosting" aconsegueix uns encerts de reconeixement propers als 100% en les proves definides per a la base de dades de símbols gràfics del GREC'03., In the field of Document Analysis we would like to be able to automatically process any kind of digital document. We mean extracting the document layout and identifying each of its parts, recognising its contents and organising them in order to make searches of its components, through the document itself, but also through different documents. This is a challenger problem that has motivated different lines of research in the field of Document Analysis at different levels: Pre-processing techniques have been developed to upgrade the quality of the document image, reducing noise from the input devices and minimizing the effects of the degradation of documents. A deep study in segmentation has been carried out in order to separate the regions of interest from the document background. Finally, many descriptors have been proposed for representing and identifying these regions of interest since the end of 60s until now.In this thesis, we have focused on, this last problem, the shape description description and also on classifier fusion, to apply them to one of the application fields in the Document Analysis: the graphics recognition. In shape recognition, many applications have to face the problem of describing a large number of complex shapes for recognition or retrieval in large databases. Besides the large number of shapes, we can find other challenges for shape description, such as the similarity among some of the shapes or the variability of the shape classes. In these cases, one of the key issues is the design of highly discriminant shape descriptors. Unfortunately, one kind of descriptor is not usually enough to achieve satisfactory results and hence, we have to combine the information from different sources to improve the global performance of the recognition system. We have carried out this combination of information using classifier fusion. Concerning shape description, traditionally graphics have been represented using structural descriptors, which are based on a vectorial representation of the shape. Vectorization is quite sensitive to noise and to distortions of sketched symbols. We can try to overcome this problem using grammar descriptors or deformable models of shapes. Another possibility, which is the followed in this dissertation, is to propose descriptors that do not need a vectorial representation of the symbol. Thereby, in the context of shape description, we have proposed a descriptor based on the ridgelets transform which, thanks to we have unified the terminology used in shape description and the introduced vocabulary, we can define as: 2D, polar and multi-resolution descriptor information preserving and invariant to similarities. On the other hand, although ridgelets descriptor can be considered as a single descriptor, it offers a shape representation divided into groups of coefficients, which permit us to consider them as single descriptors. Thus, for each descriptor, we have trained a classifier and we have proposed two linear combination rules, IN and DN, that minimize the classification error of classifiers verifying a set of constraints concerning the dependence and the distribtuion of classifers.These theoretical approaches have been evaluated through an experimental evaluation in ridgelets descriptors, classifier fusion and applying the classifier fusion methods to ridge lets descriptors, obtaining the following results: Ridgelets descriptors have proven to represent graphics symbols better than general purpose descriptors. IN and DN methods reduce the misclassification rates regarding other reference fusion methods. Finally, the IN method applied to ridgelets descriptor, in combination of boosting algorithms, has reached recognition rates near to 100% in the test defined for the GREC'03 database.
- Published
- 2006
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.