Cortés Achedad, Pablo Fabio, Muñuzuri, Jesús, Universidad de Sevilla. Departamento de Organización Industrial y Gestión de Empresas II, Robles-Velasco, Alicia, Cortés Achedad, Pablo Fabio, Muñuzuri, Jesús, Universidad de Sevilla. Departamento de Organización Industrial y Gestión de Empresas II, and Robles-Velasco, Alicia
This PhD thesis addresses the problem of the appearance of unexpected pipe failures in water distribution networks. Specifically, it seeks to predict such failures using machine learning based techniques. An in depth literature review on the subject informs that although there are studies that have tested certain machine learning techniques for the aforementioned purpose, this is a novel issue that has not been fully explored yet. Consequently, this work proposes several machine learning models, some of which have not been applied to this problem before and analyses the most significant aspects of data processing and evaluation of the results. The nature and characteristics of the data are key points on the design of a machine learning system. For the development of this thesis, the company that manages the water distribution network of Seville (Spain) called EMASESA has provided an extensive database. Concretely, the database consists of a seven year pipe failure history, from 2012 to 2018, and includes various factors related to each of the pipes that compose the more than 3800 kilometres network. The first strategy has been to forecast pipe failures one year in advance, since companies generally decide their maintenance and replacement plans annually. Therefore, and according to the characteristics of the problem and the available data, the following machine learning techniques are proposed: discriminant analysis, logistic regression, support vector machines, random forests, artificial neural networks and evolutionary fuzzy logic. All these models can work as classifiers, being the main part of a supervised classification machine learning system. In this case, the output of the system is defined as a binary variable that takes the value 1 when a pipe fails in the period of study, and 0 otherwise. Secondly, the initial focus of this thesis was extended to multi label classification, which allows predicting more than one output variable at the same time. The aim of, En esta Tesis se aborda el problema de la aparición de roturas o fallos inesperados en las tuberías que componen las redes de distribución de agua. Concretamente, se busca predecir dichas roturas utilizando técnicas basadas en el aprendizaje automático, del inglés machine learning. Tras un análisis exhaustivo de la literatura existente sobre el tema, se detecta que, aunque ya existen estudios que proponen ciertas técnicas de machine learning para el propósito anteriormente descrito, es una temática reciente que aún no ha sido desarrollada en su totalidad. Por ello, este trabajo propone distintos modelos de machine learning, algunos de los cuales no han sido aplicados a la problemática de estudio hasta la fecha, y analiza los aspectos más significativos del procesamiento de los datos y de la evaluación de los resultados. En el desarrollo de un sistema de machine learning tiene especial importancia la forma y características de los datos a utilizar. En este trabajo, se dispone de una extensa base de datos de la red de abastecimiento de agua de Sevilla, la cual ha sido cedida por la Empresa Metropolitana de Abastecimiento y Saneamiento de Aguas de Sevilla (EMASESA), compañía que gestiona dicha red. La base de datos consta de un histórico de roturas de siete años, de 2012 a 2018 inclusive, e incluye diversas variables relacionadas con cada una de las tuberías que forman sus más de 3800 kilómetros de red. Como primer enfoque, se decide explorar la predicción de fallos en las tuberías con un horizonte temporal de un año, dado que las compañías generalmente planifican las tareas de mantenimiento y reposición de la red a un año vista. Por ello, y de acuerdo a las características del problema y a los datos disponibles, se proponen las siguientes técnicas de machine learning: el análisis discriminante, la regresión logística, las máquinas de vector soporte, los bosques aleatorios, las redes neuronales y la lógica difusa evolutiva. Todas estas técnicas tienen la capacidad de a