Aquesta tesi es centra en el problema de la localització de textos en imatges d'escenes naturals des de la perspectiva de l'eficiència. Amb aquesta finalitat, s'introdueix un mètode de localització de text multiorientat en imatges naturals adequat per al processament en temps real de vídeo d'alta definició en dispositius portàtils i mòbils. El mètode proposat es basa en components connectats (CCs): Primer, els CCs s'aïllen convolucionant la imatge a múltiples escales amb un filtre espacial lineal dissenyat específicament, seguit de binarització amb histèresi. A continuació, els CCs no textuals es filtren emprant una cascada de classificadors locals que operen sobre descriptors expandits incrementalment, on la propietat d'ample de traç s'estima eficientment calculant els quadrats màxims inscrits en els CCs. Els CCs candidats i els seus veïns es verifiquen posteriorment amb un classificador amb context que té en compte els CC de destinació i el seu entorn. Finalment, s'extreuen seqüències de text de totes les escales i després es fusionen utilitzant programació dinàmica. El mètode proposat és capaç de processar vídeo HD de 1080p a gairebé 30 quadres per segon en un ordinador portàtil estàndard sense requerir GPU. A més, en comparatives realitzades en les bases de dades de lectura robusta de ICDAR 2013 i de text d'escena incidental de ICDAR 2015, la solució proposada va rendir més del doble de ràpid que l'estat de la tècnica, a banda de demostrar resultats competitius en termes de precisió i exhaustivitat. A més, aquesta tesi introdueix una nova família d'aproximacions racionals de la funció arctangent vàlides en el rang [0, π / 2] que es pot ampliar fàcilment a dos i quatre quadrants, i una nova tècnica per a la localització de matrícules de vehicles en imatges naturals. Esta tesis se centra en el problema de la localización de textos en imágenes de escenas naturales desde la perspectiva de la eficiencia. Con este fin, se introduce un método de localización de texto multiorientado en imágenes naturales adecuado para el procesamiento en tiempo real de video de alta definición en dispositivos portátiles y móviles. El método propuesto se basa en el enfoque de componentes conectados (CCs): Primero, los CCs se aíslan convolucionando la imagen a múltiples escalas con un filtro espacial lineal diseñado específicamente, seguido de binarización con histéresis. A continuación, los CCs no textuales se filtran empleando una cascada de clasificadores locales que operan sobre descriptores expandidos incrementalmente, donde la propiedad de ancho de trazo se estima eficientemente calculando los cuadrados máximos inscritos en los CCs. Los CCs candidatos y sus vecinos se verifican posteriormente con un clasificador con contexto que tiene en cuenta los CC de destino y su entorno. Por último, se extraen secuencias de texto en todas las escalas y después se fusionan utilizando programación dinámica. El método propuesto es capaz de procesar video HD de 1080p a casi 30 cuadros por segundo en una computadora portátil estándar sin requerir una GPU. Además, en comparativas realizadas en las bases de datos de lectura robusta de ICDAR 2013 y de texto de escena incidental de ICDAR 2015, la solución propuesta desempeñó más del doble de rápido que el estado de la técnica, aparte de demostrar resultados competitivos en términos de precisión y exhaustividad. Además, esta tesis introduce una nueva familia de aproximaciones racionales de la función arcotangente válida en el rango [0, π / 2] que se puede ampliar fácilmente a dos y cuatro cuadrantes, y una nueva técnica para la localización de matrículas de vehículos en imágenes naturales. This thesis focuses on the problem of text localization in natural scene images from the perspective of time-efficiency. Towards this end, a multi-oriented text localization method in natural images suitable for real-time processing of high-definition video on portable and mobile devices is introduced. The proposed method is based on the connected component (CC) approach: First, CCs are isolated by convolving a multi-scale pyramid with a specifically designed linear spatial filter, followed by hysteresis thresholding. Next, non-textual CCs are pruned employing a cascade of local classifiers fed with increasingly extended feature vectors, where the stroke width feature is estimated in linear time complexity by computing the maximal inscribed squares in the CCs. Candidate CCs and their neighbors are subsequently checked with a context-aware classifier that takes into account the target CCs and their vicinity. Lastly, text sequences are extracted in all pyramid levels and fused using dynamic programming. The proposed method is capable of processing 1080p HD video at nearly 30 frames per second on a standard laptop without requiring a GPU. Furthermore, when benchmarked on the ICDAR 2013 Robust Reading and on the ICDAR 2015 Incidental Scene Text datasets, it performed more than twice faster than the state-of-the-art, while still delivering competitive results in terms of precision and recall. Additionally, this thesis introduces a new family or rational approximations of the arctangent function valid in the [0, π/2] range that can be easily extended to two and four quadrants, and a new technique for vehicle license plate localization in unconstrained environments is presented as a practical use case leveraging the text localization system described in this research.