Back to Search Start Over

Predicció dels resultats d'edició genòmica amb CRISPR-Cas9 i base editors a partir de la seqüència de la regió modificada

Authors :
Expòsit Goy, Marc
Prados Carrasco, Ferran
Pla Planas, Albert
Source :
O2, repositorio institucional de la UOC, Universitat Oberta de Catalunya (UOC)
Publication Year :
2020
Publisher :
Universitat Oberta de Catalunya (UOC), 2020.

Abstract

The potential use of gene editing technologies as therapeutics is limited by the lack of control in the outcomes of gene editing. These outcomes are determined, in part, by the sequence of the edited region. In this work, a machine learning model is used to predict the outcomes of CRISPR-Cas9 gene editing from the sequence of the gRNA. This model could be used to improve gRNA design so that gene editing outcomes are controlled. While previous studies introduce mutations in synthetic target sequences, in this work insertions are done in 1785 unique regions of the genome. Hence, experimental data reflect more closely the conditions in which the techniques would be applied in the clinic. Analyzing the target genomic regions reveals that sequencing coverage is not enough to quantify gene editing outcomes. Hence, these are simulated using previously developed models. Simulated data is treated in the same was as it would be done with experimental data. The gRNA efficiency prediction model is developed as a binary classifier, and logistic regression is the algorithm with the higher accuracy. The predictions are similar between this model and the original model used to simulate the data. The model to predict gene editing outcomes is planned using two different approaches that require further development. In brief, this work defines the steps and develops all the processes needed to go from experimental genomic data to the training of a computational model that predicts gene editing outcomes from the gRNA sequence. L'ús de les tècniques d'edició genòmica com a teràpia està limitat per un control gairebé nul dels productes d'edició genètica. La seqüència de la regió editada determina en gran part les mutacions introduïdes. En aquest treball, s'utilitzen models d'aprenentatge automàtic per predir els productes d'edició genètica de CRISPR-Cas9 a partir de la seqüència del gRNA. Així, es podria fer un disseny intel·ligent de la regió a editar per controlar els productes d'edició genètica, acostant aquestes tècniques a la pràctica clínica. A diferència dels estudis previs, que introdueixen modificacions en seqüències sintètiques, en aquest estudi es realitzen edicions en 1785 regions úniques del genoma. Per tant, les dades experimentals reflecteixen de forma més realista les condicions clíniques. A través de l'anàlisi de les regions genòmiques d'interès per seqüenciació de nova generació es conclou que falta profunditat de seqüenciació per observar edicions genètiques en les dades experimentals. Per això, es simulen les dades a partir de models computacionals ja existents. El model de predicció de l'eficiència es planteja com un classificador binari, i l'algoritme que aconsegueix major exactitud és el logistic regression. Aquest model recrea les eficiències del model utilitzat per simular les dades de forma eficaç. El problema de predicció dels resultats d'edició es planteja en dues aproximacions diferents que cal seguir desenvolupant. En resum, aquest treball planteja l'aproximació que cal seguir i desenvolupa tots els processos necessaris per passar de les dades genòmiques experimentals a l'entrenament d'un model computacional per predir els resultats d'edició genètica a partir de la seqüència. El uso de las técnicas de edición genómica como terapia está limitado por un control casi nulo de los productos de edición genética. La secuencia de la región editada determina en gran parte las mutaciones introducidas. En este trabajo, se utilizan modelos de aprendizaje automático para predecir los productos de edición genética de CRISPR-Cas9 a partir de la secuencia del gRNA. Así, se podría hacer un diseño inteligente de la región a editar para controlar los productos de edición genética, acercando estas técnicas a la práctica clínica. A diferencia de los estudios previos, que introducen modificaciones en secuencias sintéticas, en este estudio se realizan ediciones en 1785 regiones únicas del genoma. Por lo tanto, los datos experimentales reflejan de forma más realista las condiciones clínicas. A través del análisis de las regiones genómicas de interés por secuenciación de nueva generación se concluye que falta profundidad de secuenciación para observar ediciones genéticas en los datos experimentales. Por eso, se simulan los datos a partir de modelos computacionales ya existentes. El modelo de predicción de la eficiencia se plantea como un clasificador binario, y el algoritmo que consigue mayor exactitud es lo logistic regression. Este modelo recrea las eficiencias del modelo utilizado para simular los datos de forma eficaz. El problema de predicción de los resultados de edición se plantea en dos aproximaciones diferentes que hay que seguir desarrollando. En resumen, este trabajo plantea la aproximación que hay que seguir y desarrolla todos los procesos necesarios para pasar de los datos genómicas experimentales al entrenamiento de un modelo computacional para predecir los resultados de edición genética a partir de la secuencia.

Details

Database :
OpenAIRE
Journal :
O2, repositorio institucional de la UOC, Universitat Oberta de Catalunya (UOC)
Accession number :
edsair.dedup.wf.001..0d6e830c81ffc5cfb5c79610cb8f6ebe