Introducción: La pandemia causada por la enfermedad por coronavirus 2019 (COVID-19) ha revelado la necesidad de optimizar los recursos en salud. Las herramientas que permiten diferenciar entre poblaciones con diferentes niveles de riesgo como las escalas o modelos de predicción, adquieren gran valor en este nuevo escenario. A la fecha se encuentran disponibles más de 50 escalas de pronóstico en COVID-19 pero la gran mayoría no han tenido procesos de validación externa y aún tienen un bajo potencial de generalización. Objetivo: Evaluar el desempeño de al menos tres escalas de predicción de mortalidad, en términos de su capacidad de discriminación, calibración y potencial generalización a la práctica clínica, al aplicarlas en una cohorte nacional de pacientes con infección por SARS-COV2 (RESCATE COVID-19). Metodología: A partir de una revisión sistemática viva de la literatura que contiene todas las escalas publicadas hasta mayo de 2020 y siguiendo un proceso estructurado, se eligieron las tres con mayor potencial de aplicación local. En cada una se realizó un proceso de caracterización de sus predictores (distribución, análisis bivariado y multivariado con regresión logística múltiple), evaluación de su capacidad de discriminación (área bajo las curvas ROC) y calibración (de manera gráfica y estadística: prueba de bondad de ajuste de Hosmer-Lemeshow, calibración en promedio “CITL”, pendiente de calibración). Además, se analizó el desempeño de los modelos utilizando sus puntajes o niveles de riesgo como variables independientes. Resultados: Tras el proceso de selección resultaron dos estudios orientales (Zhang-China, Xie-China) y uno latinoamericano (Bello-México) como candidatos para su validación local. Los predictores propuestos por los modelos son en su mayoría variables sociodemográficas, antecedentes de comorbilidades, laboratorios generales y algunas derivadas de la atención clínica. Los modelos fueron evaluados en 1342 pacientes con diagnóstico confirmado de COVID-19 que hacen parte de la cohorte RESCATE COVID-19 (mortalidad 12.7%). Esta incluye pacientes atendidos en seis hospitales ubicados 3 diferentes ciudades de Colombia. De los 7 predictores por la escala de Zhang-China solo 2 resultaron con OR significativo tras ser ajustados en un modelo de regresión logística multivariada (edad: OR 1.03; IC95% 1.01-1.06 y proteína C reactiva: OR: 1.07; IC95% 1.03 – 1.10). Su capacidad de discriminación resultó apenas aceptable (AUC: 0.78) y no demostró estar calibrada estadísticamente (HL p=0.002) ni en su evaluación gráfica. Al utilizar sus puntajes (calculados con una herramienta disponible en línea) y niveles de riesgo (según los puntos de corte propuestos) como variables predictoras, la escala tiene menor capacidad de discriminación (AUC: 0.73 y 0.67), persiste sin calibración estadística (HL p0.05). Tras la evaluación de los puntos de corte para su aplicación clínica se eligió el umbral de 4 puntos en la escala para dividir entre alto y bajo riesgo (VPN: 98%, Sensibilidad del 90%). Conclusiones: La escala de Bello-México resultó tener muy buen desempeño al aplicarse a los pacientes con diagnóstico de COVID-19 de la cohorte RESCATE-COVID19. Su sistema de puntuación sencillo, con buena capacidad de discriminación entre pacientes de alto y bajo riesgo, ofrece predicciones calibradas de las probabilidades de mortalidad intrahospitalaria. Teniendo en cuenta la naturaleza de sus predictores se considera útil en escenarios de atención temprana de pacientes con diagnóstico o sospecha de la enfermedad. Con un punto de corte de 4 puntos la escala resulta útil como estrategia de tamización del pronóstico ya que puntajes menores tienen muy baja tasa de falsos negativos. Su uso puede informar mejor (aunque no reemplazar) la decisión clínica y optimizar la utilización de recursos. Es necesario evaluar su desempeño en otras poblaciones antes de generalizar su uso. La escala de Zhang-China no logró un buen desempeño al aplicarse a la cohorte. El modelo de Xie-China, aunque prometedor por su desempeño, presenta una herramienta para cálculo de puntajes compleja, vulnerable de error de medición y demandante de recursos, que no la hace apta para su aplicación clínica local. 1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN ............................ 18 2. MARCO TEÓRICO Y ESTADO DEL ARTE ................................................... 22 2.1. Breve recuento histórico ............................................................................... 22 2.2. Situación actual de la epidemia por COVID-19 en Colombia ...................... 23 2.3. Diagnóstico, manifestaciones clínicas y curso de la COVID-19 ................. 24 2.4. Dificultades para el diagnóstico temprano de pacientes con COVID-19 en Colombia: ................................................................................................................... 27 2.5. Escalas de predicción de mortalidad o complicaciones por la COVID-19. 27 3. OBJETIVOS ................................................................................................... 29 3.1. Objetivo General ............................................................................................. 29 3.2. Objetivos específicos..................................................................................... 29 4. DESARROLLO METODOLÓGICO POR OBJETIVOS .................................. 30 4.1. Diseño general: .............................................................................................. 30 4.2. Para el desarrollo del primer objetivo: Proceso de selección estructurada de las escalas de predicción disponibles ................................................................ 30 4.3. Para el desarrollo del segundo objetivo: Caracterización de las escalas potencialmente aplicables ........................................................................................ 33 4.4. Para el desarrollo del tercer objetivo: Validación externa de las escalas. . 39 4.4.1. Metodología de la Cohorte RESCATE COVID-19: ................................................. 39 4.4.2. Calidad de los datos:............................................................................................... 40 4.4.3. Variables y unidades de medida: ............................................................................ 41 4.4.4. Manejo de los datos faltantes en la cohorte de validación: .................................... 44 4.4.5. Metodología para la evaluación del desempeño de las escalas en términos de su capacidad de discriminación y calibración en la cohorte local: ................................................ 46 4.4.6. Metodología para la evaluación del desempeño de las escalas en términos de su capacidad de discriminación y calibración en los pacientes sospechosos de la cohorte local: 49 5. CONSIDERACIONES ÉTICAS ...................................................................... 50 6. RESULTADOS ............................................................................................... 52 6.1. Proceso de evaluación del desempeño de la escala Zhang-China al aplicarlo a la cohorte RESCATE COVID-19: ............................................................. 52 6.1.1. Pasos 1-3 del proceso de evaluación del desempeño del modelo: Análisis univariado – bivariado y modelo de regresión logística múltiple: ............................................. 52 6.1.2. Paso 4 de la evaluación del desempeño del modelo: Capacidad de discriminación. 55 6.1.3. Paso 5 de la evaluación del desempeño del modelo: Calibración. ........................ 56 6.1.4. Evaluación del desempeño de la escala Zhang-China según probabilidades calculadas en plataforma digital: .............................................................................................. 57 6.1.5. Evaluación del desempeño de la escala Zhang-China según los niveles de riesgo obtenidos a partir de los puntajes: ........................................................................................... 59 6.1.6. Conclusiones del análisis del desempeño de la escala Zhang-China al aplicarla a la cohorte RESCATE COVID-19: ................................................................................................. 62 6.2. Proceso de evaluación del desempeño de la escala Xie-China al aplicarlo a la cohorte RESCATE COVID-19: ............................................................................... 62 6.2.1. Pasos 1-3 del proceso de evaluación del desempeño del modelo: Análisis univariado – bivariado y modelo de regresión logística múltiple: ............................................. 62 6.2.2. Paso 4 de la evaluación del desempeño del modelo: Capacidad de discriminación. 66 6.2.3. Paso 5 de la evaluación del desempeño del modelo: Calibración. ........................ 67 6.2.4. Evaluación del desempeño de la escala Xie-China según puntajes calculados: ... 68 6.2.5. Conclusiones del análisis del desempeño de la escala Xie-China al aplicarla a la cohorte RESCATE COVID-19: ................................................................................................. 68 6.3. Proceso de evaluación del desempeño de la escala Bello-México al aplicarlo a la cohorte RESCATE COVID-19 .............................................................. 69 6.3.1. Pasos 1-3 del proceso de evaluación del desempeño del modelo: Análisis univariado – bivariado y modelo de regresión logística múltiple: ............................................. 69 6.3.2. Paso 4 de la evaluación del desempeño del modelo: Capacidad de discriminación. 73 6.3.3. Paso 5 de la evaluación del desempeño del modelo: Calibración. ........................ 74 6.3.4. Evaluación del desempeño de la escala Bello-México según los puntajes calculados a cada paciente de la cohorte RESCATE COVID-19: ........................................... 75 6.3.5. Evaluación del desempeño de la escala Bello-México según los niveles de riesgo obtenidos a partir de los puntajes: ........................................................................................... 77 Tabla 8. Comparativo de áreas bajo la curva ROC con sus respectivos intervalos de confianza del 95% correspondientes a cada uno de los modelos, sus escalas y los niveles de riesgo. . 80 6.3.6. Conclusiones del análisis del desempeño de la escala Bello-México al aplicarla a la cohorte RESCATE COVID-19: ................................................................................................. 81 6.4. Proceso de evaluación de los modelos en la población de pacientes con RT-PCR para SARS-COV2 negativa de la cohorte rescate COVID-19. ................... 84 6.4.1. Evaluación del desempeño de la escala Zhang-China en pacientes con RT- PCR negativa para SARS-COV2 de la cohorte RESCATE COVID-19 ............................................ 84 6.4.2. Evaluación del desempeño de la escala Xie-China en pacientes con RT- PCR negativa para SARS-COV2 de la cohorte RESCATE COVID-19. ........................................... 86 6.4.3. Evaluación del desempeño de la escala Bello-México en pacientes con PCR negativa. 87 7. DISCUSIÓN .................................................................................................... 90 8. Conclusiones ................................................................................................ 93 9. CLASIFICACIÓN DE LOS RESULTADOS DEL ESTUDIO SEGÚN COLCIENCIAS: ..................................................................................................... 94 REFERENCIAS BIBLIOGRÁFICAS ..................................................................... 95 ANEXOS .............................................................................................................. 102 Maestría Introduction: The pandemic caused by COVID-19 has exposed the need to optimize healthcare resources. Tools that facilitate the distinction between populations with varying risk levels, such as risk assessment scales or predictive models are therefore of vital importance. To date, there are more than 50 prognostic scales available for COVID-19 but the vast majority of them lack proper external validation and overall potential to be generalizable. Objective: Evaluate the performance of at least three mortality prediction scales, their discriminatory ability, calibration and clinical generalizability by applying them to a Colombian national cohort of patients infected with SARS-CoV-2 (Project RESCATE COVID-19) Methods: After a systematic and comprehensive literature review of all mortality risk scales published before May 2020, followed by a structured selection process, the top three scales with the highest potential for applicability at the local level were chosen. For each one, all predictors were characterized by analyzing their distribution and performing bivariate and multivariate analysis, with multiple logistic regressions. The discriminating capacity of all models was evaluated by estimating area under ROC curves and their calibration was assessed both graphically and statistically using the Hosmer-Lemeshow test for goodness-of-fit, the calibration slope and the calibration in the large (CITL). Moreover, analyses of model performance were conducted for all three models using their risk levels as independent variables. Results: The selection process resulted in two Asian (Zhang-China, Xie-China) and one Latinoamerican (Bello-México) studies as the top candidates for evaluation at the local level. The vast majority of predictors proposed by these models were sociodemographic variables, history of comorbidities, general laboratory results and some variables derived from clinical care. All three models were evaluated in 1342 patients with confirmed diagnostic of COVID-19 from the patient cohort of the Colombian project RESCATE COVID-19, which has an overall mortality rate of 12.7%. This cohort includes patients distributed across six hospitals located in 3 different cities in Colombia. From the 7 predictors in the Zhang-China scale, only 2 resulted with a significant OR value after being adjusted by a multivariate logistic regression model (age with OR = 1.03; CI 95% 1.01-1.06 and C Reactive Protein with OR = 1.07; IC 95% 1.03 – 1.10). The discriminatory capacity of this scale proved to be only acceptable (AUC = 0.78), it showed insufficient calibration, both statistically (HL p=0.002) and graphically. When using scores calculated by an online tool and risk levels based on the proposed thresholds as predictive variables, the discriminatory capacity of this scale increases (AUC = 0.73 and 0.67), but it maintains poor statistical calibration (HL p < 0.05), and the graphical assessment of calibration worsens. On the other hand, all predictors proposed by the Xie-China scale proved to have a significant association with intrahospital mortality. Their discriminatory capacity proved to be high (AUC = 0.81) and its predictions match the empirical data from our cohort (HL p = 0.22). However, it was not possible to perform an analysis of this scale based on the scoring system proposed by the authors. The scoring system showed to be highly complex, extremely sensitive to small measuring errors, highly time-consuming and with very low likelihood of proving useful in a daily clinical setting. Finally, 4 out of 9 predictors in the Bello-México scale showed significant adjusted association metrics. Their discriminatory capacity was high (AUC = 0.80) and they showed proper statistical (HL p = 0.32) and graphical calibration assessments. The scoring system and the risk levels showed even better performance than the model (AUC = 0.87) and resulted in good calibration (HL p>0.05). After the evaluation of the thresholds for its clinical applicability, a threshold of 4 points in the scale was chosen to properly discriminate low and high-risk patients (VPN: 98%, 90% sensitivity) Conclusions: From the top three mortality risk scales, the Bello-México showed the highest potential, with high performance when applied to patients diagnosed with COVID-19 in the RESCATE COVID-19 cohort and a simple scoring system with good discriminatory capacity for high and low-risk patients, offering calibrated predictions of the intrahospital mortality probability. Considering the nature of its predictors, this scale is deemed useful for early assessment in patients with a diagnosis for COVID-19 or suspicion of the disease. When using a threshold of 4 points, this scale is considered to be useful for prognostics given that lower scores tend to be associated with very low rate of false negatives. Applying this scale could better inform, but not replace, the clinical decision-making process to optimize resources. The scale Zhang-China, on the other hand, did not show good performance when applied to the patient cohort of the project RESCATE COVID-19. Finally, the Xie-China model, however promising in its performance, showed a very complex scoring system that is not only demanding in resources but would also make this risk scale highly vulnerable to human error, making it overall less likely to be applicable at local hospitals.