El reconocimiento de caras, junto con la identificación de las acciones y gestos humanos, es en la actualidad una de las aplicaciones informáticas, más exitosas de análisis automatizado del comportamiento humano. Durante los últimos diez años aproximadamente, se ha convertido en un área muy popular de la investigación en computer vision y ha recibido mucha atención por parte de las organizaciones internacionales (Thumos, ChaLearn, etc). [1] El sistema de reconocimiento facial es una aplicación creada para identificar o verificar una persona a partir de una imagen digital o un fotograma de vídeo. Estos, Verificación e identificación son dos problemas muy distintos en el reconocimiento de los rostros. Los sistemas de verificación tratan de responder a la pregunta “¿Es esta persona la que dice de ser?” En este sistema, un individuo se presenta a sí mismo como una persona específica, y el problema de verificación se describe generalmente como un mapeo 1-a-1, donde el sistema intenta comparar la presencia de un individuo contra una información específica del mismo individuo ya presente en el sistema. Un sistema de identificación, por otro lado, tratan de responder a la pregunta “Quién es esta persona?”, Y su objetivo es identificar a una persona desconocida, comparando la información individual con la que ya están en el sistema de todos los demás. En otras palabras: la identificación es un problema de clasificación múltiple descrito como un mapeo 1-a-n (donde n es el número total de individuos en el sistema), mientras la verificación, es una tarea de clasificación binaria con par de ejemplos. En este proyecto se aborda el problema de la identificación facial mediante técnicas de aprendizaje profundo. El aprendizaje profundo es un área de estudio del aprendizaje automático, estrictamente relacionado con las redes neuronales artificiales, cuya aproximación al problema consiste en aprender representaciones de alto nivel de los datos mediante la parametrización de múltiples capas de procesamiento no lineal. Estas técnicas permiten la extracción automática de características en escenarios supervisados y no supervisados tanto para tareas de clasificación como de regresión [29] [?]. Diferentes arquitecturas de aprendizaje profundo han sido utilizadas con éxito en el reconocimiento de rostros [19, 26, 33, 50], en el reconocimiento de expresiones faciales [24, 53] y en la detección des las emociones [21, 23, 34]. Al igual que en muchas otras tareas de visión artificial, los datos de entrada para el reconocimiento facial pueden ser muy diferentes, incluyendo imágenes, vídeos, mapas de profundidad [49] [30], imágenes térmicas [48] [37], modelos 3D de la cara [5], entre otros. Por supuesto, el tipo de datos de entrada plantea diferentes limitaciones y oportunidades a nivel de modelación. En el caso en que los datos de entrada son videos, parece natural que la información temporal deba ser explotado para realizar tareas de reconocimiento. De hecho, trabajos recientes con- firman las ventajas de utilizar modelos temporales como Redes Neuronales Recurrentes (RNN) o Long-Short Term Memory (LSTM) para problemas de análisis de caras humanas, como la detección y seguimiento de los rostros [52], el reconocimiento de la expresión facial [3] y el reconocimiento de emociones [11] [7]. Sin embargo, después de una revisión exhaustiva de las fuentes bibliográficas, llegamos a la conclusión que muy pocos trabajos han abordado el problema del reconocimiento facial usando modelos neuronales temporales, y ninguno de ellos se ha ocupado de reconocimiento de caras en los videos. En nuestra opinión, esto representa una oportunidad interesante de investigación con espacio para contribuciones originales. En esta tesis, se propone de abordar el problema de diseñar modelos de aprendizaje profundos adaptados para explotar la información temporal contenida en los videos, para el reconocimiento de rostros. En concreto, nos proponemos estudiar una arquitectura basada en la CNN-LSTM, utilizada con éxito para otras tareas de análisis de vídeo como el reconocimiento y la descripción de objetos (image captioning) [10] [46], análisis de sentimiento [47] y clasificación del texto [54], y comparar los resultados obtenidos con otros métodos de reconocimiento facial en estado del arte [16] [50] [42] [6]. Este trabajo se organiza en diferentes etapas. En primer lugar, se llevará a cabo una revisión exhaustiva de los trabajos más recientes en el campo de computer vision en relación con los modelos de aprendizaje profundo, para el reconocimiento de caras en videos. En segundo lugar, queremos realizar un análisis preciso de los métodos más recientes y eficaces, junto con el estudio de los resultados observados hasta la fecha. Una vez reunida la información necesaria para estar informado sobre el estado de la arte, el siguiente paso importante será la definición de las arquitecturas implicadas, Red Neuronal Convolutivas y Long-Short Term Memory, junto con la elección de las bases de datos a utilizar para la validación experimental. La disponibilidad de datos para el reconocimiento facial en videos es grande. La más utilizada (y también la más difícil) es sin ninguna duda la colección Youtube Face (YTF). Sin embargo, en este trabajo se propone también construir una nueva base de datos a partir de la conocida Motion of Body database (MoBo). La colección MoBo DB está destinada a ser utilizada en tareas de detección y reconocimiento de movimientos. Por lo tanto, las imágenes de las que se compone son fotos de cuerpo entero de varios temas. En nuestro proyecto aplicamos técnicas de procesamiento de imágenes para detectar el rostro, recortar la región de la cara y almacenar la imagen resultante en un formato adecuado. La nueva base de datos sería una contribución adicional importante de este trabajo. Al diseño de la arquitectura y la elección de las bases de datos seguirá la aplicación y un conjunto de experimentos.