Deep learning é uma técnica do ramo de aprendizado de máquina que tem obtido grandes resultados em diversas tarefas, quando comparada às demais técnicas da área. Dentre tais tarefas, detecção e classificação de objetos em imagens destacam-se como exemplos notáveis de sucesso. Normalmente, nesse tipo de aplicação, uma única rede neural convolucional realiza o processo de detecção das regiões de interesse, delimitando assim a área que contém o objeto a ser identificado, bem como a classificação dessa região em uma classe. A fim de melhorar os resultados na detecção e classificação de áreas de doenças em imagens de folhas de plantas, este projeto tem como objetivo investigar uma abordagem que utiliza redes neurais convolucionais compostas por dois estágios independentes, um para realizar a detecção e outro a classificação das referidas regiões de doenças, por meio de aprendizado supervisionado. Para validar a abordagem, foram realizados experimentos com três diferentes conjuntos de dados compostos por imagens de folhas de macieira, afetadas por doenças como ferrugem e sarna, com a tarefa de detectar e classificar as regiões de doenças. Os resultados indicam que a abordagem de dois estágios tende a melhorar a precisão média da detecção em imagens de diferentes conjuntos de dados, além de permitir uma melhor transferência de aprendizado quando conjuntos de dados não vistos são usados para teste. Esta abordagem também permite maior flexibilidade na escolha de redes de detecção e classificação para adequar o modelo a cenários específicos. Além disso, as visualizações dos mapas de características dos modelos indicam que as redes de dois estágios apresentam mapas com regiões de ativação mais acentuadas, facilitando a interpretação dos resultados. Por fim, este trabalho também mostrou ser possível a utilização de tais redes neurais por meio de um protótipo de aplicativo para dispositivos móveis (como smartphones e tablets), permitindo um diagnóstico instantâneo das doenças e a criação de uma base colaborativa de novas imagens, bem como difundindo o uso da tecnologia pela população em geral. Deep learning is a technique in the machine learning branch that has achieved great results in several tasks when compared to other techniques in the area. Among such tasks, object detection and classification of images stand out as notable examples of success. Normally, in this type of application, a single convolutional neural network performs the process of detecting regions of interest, thus delimiting the area that contains the object to be identified, as well as the classification of that region. In order to improve results in the detection and classification of disease areas in plant leaf images, this project aims to investigate an approach that employs convolutional neural networks composed of two independent stages, one to perform the detection and the other to perform the classification of regions of diseases, by using supervised learning. In order to validate the approach, experiments were carried out using different datasets composed of images of apple leaves, affected by diseases such as rust and scab, with the task of detecting and classifying disease regions. Results indicate that the two-stage approach tends to improve the mean average precision (mAP) of detection on images from different datasets, in addition to allowing better transfer of learning when unseen datasets are used for testing. This approach also allows greater flexibility in choosing the detection and classification networks to tailor the model to specific scenarios. In addition, the visualizations of the feature maps yielded by the models indicate that the two-stage networks have maps with more accentuated activation regions, facilitating the interpretation of the results. Finally, this work also showed that it is possible to use such neural networks through an application prototype for mobile devices (such as smartphones and tablets), allowing an instant diagnosis of plant diseases as well as the creation of a collaborative dataset of new images, spreading the use of technology by the general population.