1. Validation of resistome signatures through the application of a machine learning prediction algorithm on metagenomic data
- Author
-
Salgueiro, Helena Sofia Fernandes, Duarte, Ana Sofia Ribeiro, and Nunes, Telmo Renato Landeiro Raposo Pina (Tutor)
- Subjects
Metagenómica ,Machine learning ,Resistência aos antimicrobianos ,Metagenomics ,Antimicrobial resistance ,Random forest - Abstract
Dissertação de Mestrado Integrado em Medicina Veterinária, área científica de Sanidade Animal ABSTRACT- Metagenomic data has been increasingly used in antimicrobial resistance (AMR) studies, but there is still a need for accurate and reliable methods for predicting the relative attribution of AMR determinants to different animal reservoirs. AMR data availability has increased exponentially over the past few years, as has global awareness of the threat that AMR poses to public health, often known as the silent pandemic. This has led to an upsurge in interest in applying machine learning to AMR data. In this study, shot-gun sequences were used from fecal samples of pigs, broilers, turkeys, and veal calves, previously collected during national cross-sectional studies across Europe. The data used in this study corresponded to these samples and their associated relative abundance of AMR determinants. A random forest (RF) model was developed to investigate the relative attribution of AMR determinants to those different reservoirs. Additionally, a descriptive analysis was made to further investigate the 15 most important variables for the RF model. A principal component analysis (PCA) and all-subsets regression were performed to identify reservoir-specific AMR determinants. Ultimately, the reservoir-specific AMR determinants identified here were compared with the resistome signatures identified in a previous study. The results demonstrated that the RF model successfully classified resistomes into corresponding reservoir classes, with high accuracy and reliability. The RF model had more difficulty differentiating pig from veal and broiler from turkey, indicating the similarity of resistome composition between each of these two species. The analyses validated several AMR determinants as resistome signatures of specific animal reservoirs, such as tet(40) and sul2 of veal, tet(Q), mef(A) and cfxA2 of veal and pig, blaTEM-126 of broiler, and tet(A) of broiler and turkey. This study describes a reliable and accurate method for the relative attribution of AMR determinants to different animal reservoirs using metagenomic data. Such results are essential for effective surveillance and control of AMR in animal and human populations RESUMO - Validação de resistome-signatures através da aplicação de um algoritmo de previsão de machine learning em dados metagenómicos - Dados metagenómicos têm sido cada vez mais usados em estudos de resistência aos antimicrobianos, mas ainda há uma escassez de métodos precisos e fidedignos para prever a atribuição relativa de genes de resistência a diferentes espécies animais. A disponibilidade de dados de resistência aos antimicrobianos aumentou exponencialmente nos últimos anos, assim como a consciencialização global sobre a ameaça que as resistências representam para a saúde pública, geralmente conhecida como pandemia silenciosa. Isto levou a um aumento no interesse em aplicar métodos de machine learning a esses dados. Neste estudo, sequências shot-gun foram usadas a partir de amostras fecais de porcos, frangos, perús e vitelos, recolhidas anteriormente durante estudos nacionais por toda a Europa. Os dados utilizados neste estudo corresponderam a essas amostras e os seus valores FPKM associados. Um modelo de random forest (RF) foi desenvolvido para prever a atribuição relativa de gene de resistência para essas diferentes espécies. Além disso, uma análise descritiva foi feita para investigar melhor as 15 variáveis mais importantes para o modelo de RF. Uma análise de componentes principais (PCA) e regressão all-subsets foram realizadas para identificar genes de resistência específicos de certas espécies. Por fim, esses genes específicos aqui identificados foram comparados com os resistome-signatures identificados num estudo anterior. Os nossos resultados demonstraram que o modelo classificou com sucesso as amostras em classes de espécies correspondentes, com alta precisão e confiabilidade. O modelo teve mais dificuldade em diferenciar porco de vitela, e frango de perú, indicando uma semelhança da composição do resistoma entre cada uma dessas duas espécies. Esta análise validou vários genes como resistome-signatures de animais específicos, como tet(40) e sul2 de vitelos, tet(Q), mef(A) e cfxA2 de vitelos e porcos, blaTEM-126 de frangos, e tet(A) de frangos e perús. Este estudo descreve um método confiável e preciso para a atribuição relativa de genes de resistência a diferentes reservatórios animais usando dados metagenómicos. Estes resultados são essenciais para a vigilância e controlo das resistências aos antimicrobianos em populações animais e humanas N/A
- Published
- 2023