Villarreal Torres, Henry O., Angeles Morales, Julio C., Marín Rodriguez, William J., Cano Mejía, Jenny E., Villarreal Torres, Henry O., Angeles Morales, Julio C., Marín Rodriguez, William J., and Cano Mejía, Jenny E.
Information and communication technologies play a relevant role in different fields of knowledge. Currently, there is a greater capacity to identify patterns and anomalies in an organization's data using artificial intelligence; The study aimed to develop a classification model for student dropout by applying machine learning with the autoML method of the H2O.ai framework, taking into account the dimensionality of socioeconomic and academic characteristics. The methodology used was predictive and non-experimental, observational and prospective in design; To this end, a 20-item questionnaire was applied to 237 students from the Graduate School enrolled in master's degree programs in education. The research resulted in a supervised machine learning model, gradient boosting machine, to classify student dropout, thus identifying the main associated factors that influence dropout, obtaining a Gini coefficient of 92.20%, AUC of 96.10% and a LogLoss of 24.24% representing a model with efficient performance. It is concluded that the model is appropriate for its performance metrics, offering advantages such as working with unbalanced data, cross validation and making predictions in real time., Las tecnologías de información y comunicación cumplen un rol relevante en los diferentes campos del conocimiento, actualmente existe mayor capacidad para identificar patrones y anomalías en los datos de una organización utilizando la inteligencia artificial; el estudio tuvo como objetivo desarrollar un modelo de clasificación para la deserción estudiantil aplicando aprendizaje automático con el método autoML del framework H2O.ai, se ha tenido en cuenta la dimensionalidad de las características socioeconómicas y académicas. La metodología empleada fue de tipo predictivo y diseño no experimental, observacional y prospectivo; para ello, se aplicó un cuestionario de 20 ítems a 237 estudiantes de la Escuela de Posgrado matriculados en los programas de maestrías en educación. La investigación tuvo como resultado un modelo de aprendizaje automático supervisado, máquina de refuerzo de gradiente, para clasificar la deserción estudiantil, logrando así identificar los principales factores asociados que influyen en la deserción, obteniendo un coeficiente Gini del 92.20%, AUC del 96.10% y un LogLoss del 24.24% representando un modelo con desempeño eficiente. Se concluye que el modelo es apropiado por sus métricas de rendimiento, ofreciendo ventajas como trabajar con datos desequilibrados, validación cruzada y realizar predicciones en tiempo real.