Tese (doutorado)—Universidade de Brasília, Instituto de Psicologia, Departamento de Psicologia Social e do Trabalho, Programa de Pós-Graduação em Psicologia Social, do Trabalho e das Organizações, 2016. O objetivo desta tese foi contribuir para o desenvolvimento da avaliação educacional por meio de: (a) estudo de simulação visando a avaliar o desempenho de alguns métodos de tratamento e o efeito dos dados ausentes nos resultados, (b) comparação de técnicas estatísticas avançadas usadas para tratamento de dados ausentes nos estudos longitudinais, (c) apresentação de um novo método para tratamento de dados ausentes e (d) aplicação do novo método na identificação de fatores associados ao desempenho escolar, tendo como base os dados de uma avaliação longitudinal. Para isso, foram utilizados os dados da avaliação educacional realizada no estado do Ceará. A tese está dividida em três manuscritos. O primeiro apresenta uma introdução à teoria relacionada aos dados ausentes, as metodologias geralmente utilizadas pelos pesquisadores e os possíveis impactos desses dados nos resultados das pesquisas. Por meio de um estudo de simulação, quatro métodos de tratamentos de dados ausentes (imputação pela média, listwise deletion, máxima verossimilhança e imputação múltipla) foram comparados. A imputação pela média apresentou o pior desempenho em todos os cenários e os demais métodos apresentaram resultados semelhantes. Um outro resultado do estudo de simulação foi que o uso de variáveis auxiliares na estimação por máxima verossimilhança e na imputação múltipla reduziu o viés das estimativas quando a ausência simulada não é ao acaso. O segundo manuscrito discute a classificação proposta por Rubin com ênfase na ausência de dados em estudos longitudinais. Esse manuscrito apresenta uma nova metodologia para o tratamento de dados ausentes não ao acaso (MNAR) no contexto de avaliações educacionais. Um estudo de simulação comparou os procedimentos listwise deletion, imputação múltipla e a metodologia proposta. Tendo como base o modelo de crescimento linear, verificou-se que o procedimento listwise deletion superestimou a taxa média de aprendizado. A imputação múltipla e a metodologia proposta geraram maiores estimativas para os coeficientes das variáveis independentes, e ainda identificaram efeitos de interação. Os resultados evidenciaram a importância da escolha da abordagem a ser utilizada no tratamento de dados faltantes. No terceiro manuscrito, a metodologia proposta para tratamento de dados ausentes foi utilizada no estudo de fatores associados ao desempenho escolar. Em uma amostra composta por 8.681 estudantes do ensino médio, 25,7% estava ausente em pelo menos um momento da avaliação. Verificou-se que a ausência estava relacionada às características dos estudantes e ao desempenho escolar avaliado. A taxa média de aprendizado estimada foi de 8,96 pontos, mas essa taxa varia significativamente entre os estudantes. Com a utilização de dados longitudinais e técnicas de tratamento de dados ausentes, os resultados corroboram estudos transversais de fatores associados ao desempenho escolar. Além disso, demonstra que variáveis relacionadas à idade, número de reprovações e período noturno têm efeitos negativos tanto na proficiência inicial, quanto na taxa de aprendizado. The main objective of this thesis was to contribute to the development of educational assessment through: (a) simulation study to assess the performance of some treatment methods and the impact of missing data on results, (b) comparison of advanced statistical techniques for missing data treatment in longitudinal studies, (c) introducing a new method for missing data treatment and (d) application of the new method to identify factors associated with academic performance, based on a longitudinal assessment data. For this purpose, the data of an educational assessment carried out in Ceará State was used. The thesis is divided into three manuscripts. The first manuscript presents an introduction of missing data theory, methodologies generally used by researchers and the potential impacts of such data in research results. A simulation study was used to compare four missing data treatments (mean imputation, listwise deletion, maximum likelihood and multiple imputation). Mean imputation had the worst performance in all scenarios while the other three methods showed similar results. Additionally, the use of auxiliary variables with maximum likelihood estimation and multiple imputation reduced estimation bias when the simulated missingness is not at random. The second manuscript presents the classification proposed by Rubin emphasizing missing data in longitudinal studies. This manuscript proposes a new methodology for the treatment of missing not at random data in the educational assessment context. Listwise deletion, multiple imputation and the proposed methodology were compared in a simulation study. The linear growth model was used for data analysis and comparisons. The average learning rate in Mathematics was overestimated when listwise deletion was used. Multiple imputation and the proposed methodology estimated higher impacts of the independent variables and identified interaction effects. The results highlighted the importance of the method that is chosen to deal with missing data, which is directly related to the assumptions about missing data generating mechanism. In the third manuscript, the proposed methodology for missing data treatment was used to identify factors associated with academic performance. The sample was composed by 8,681 high school students, 25.7% of them were absent at least one moment of follow-up. It was found that the missingness was related to students’ characteristics and school performance. The linear growth model showed that the annual learning rate was 8.96 points on average, however it varies significantly among students. Using longitudinal data and missing data treatment techniques, the results corroborate those from cross-sectional studies of factors associated with school performance. Moreover, it shows that variables related to age, school repetition and evening classes have negative effects on both initial proficiency and learning rate.