Back to Search Start Over

Advanced Strategies for Alignment-based Real-time Analysis and Data Protection in Next-Generation Sequencing

Authors :
Loka, Tobias Pascal
Publication Year :
2020
Publisher :
Freie Universität Berlin, 2020.

Abstract

Next-generation sequencing (NGS), in particular Illumina sequencing, is the current stateof- the-art DNA sequencing technology. However, when it comes to time-critical analysis, Illumina sequencing lacks sufficiently short turnaround times due to the sequential paradigm of data acquisition and analysis. For clinical application and infectious disease outbreaks, a significant reduction of time needed from sample arrival to analysis outcome is crucial to optimally treat patients and to prevent further spread of disease. At the same time, nucleotidelevel analysis is required to enable (sub-)species level classification and determination of organism-specific properties such as, for example, antimicrobial resistances. To accelerate the generation of NGS analysis results, the real-time read aligner HiLive was developed that performs read alignment while sequencing. Still, HiLive delivers results only at the end of the sequencing process and lacks sufficient resolution and scalability. In this thesis, a novel real-time alignment algorithm is introduced that was implemented in HiLive2. Unlike its predecessor, HiLive2 provides results at any desired stage of sequencing at full nucleotide-level resolution. The novel approach is based on an FM-index and is more scalable with respect to reference database size and sample size. HiLive2 enables high-quality downstream analysis as shown by performing variant calling based on realtime alignments of human sequencing data. Further, PathoLive is presented, a pipeline for real-time pathogen identification from metagenomic datasets. Based on the output of HiLive2, PathoLive performs a weighted ranking of identified species. Thereby, sequences that typically do not occur in samples from non-infected human individuals are assumed to be of high clinical significance and therefore highlighted in the results. PathoLive also provides an intuitive and interactive visualization that significantly facilitates the interpretation of results. In a case study of a real-world sample from Sudan, PathoLive enables the correct identification of Crimean–Congo hemorrhagic fever virus based on only a few dozen related reads. Besides analytical challenges, samples from human individuals are problematic with respect to data protection as reads from a human host can be used for the identification of the patient. To address this issue, PriLive was developed that enables the irrevocable removal of human sequences from Illumina sequencing data during the ongoing sequencing process. This enables a much higher level of data protection than conventional post hoc host removal approaches as the human sequences are at no time available in full length.<br />‘Next-Generation Sequencing’, im Speziellen die Illumina Sequenzierung, ist die derzeit meistgenutzte DNA-Sequenziertechnologie. Jedoch sind für zeitkritische Analysen aufgrund des sequentiellen Paradigmas der Datenerzeugung und -analyse die Durchlaufzeiten zu hoch. In der klinischen Anwendung und bei Ausbrüchen von Infektionskrankheiten ist es entscheidend, die Zeit vom Probeneingang zum Analyseergebnis zu verkürzen um Patienten optimal zu behandeln und einer weitere Krankheitsausbreitung zu verhindern. Gleichzeitig ist eine Analyse auf Nukleotidebene erforderlich um eine Spezies-Level-Klassifizierung und die Bestimmung spezifischer Eigenschaften, wie z.B. antimikrobiellen Resistenzen, zu ermöglichen. Um eine frühere Verfügbarkeit von Analyse-Ergebnissen zu erreichen wurde die Echtzeit-Alignierungssoftware HiLive entwickelt, welche DNA-Sequenzen während der Sequenzierung aligniert. Jedoch lieferte HiLive die Ergebnisse bislang nur am Ende eines Sequenzierlaufs und hatte keine ausreichende Auflösung und Skalierbarkeit. In dieser Arbeit präsentiere ich einen neuen Echtzeit-Alignierungsalgorithmus, der in HiLive2 implementiert wurde. HiLive2 basiert auf dem FM-index, kann zu jedem Zeitpunkt der Sequenzierung Ergebnisse liefern und erreicht eine höhere Skalierbarkeit der Größe von Referenzdatenbank und Datensatz. Durch die Detektion von Varianten basierend auf den Echtzeit-Alignierungen von humanen Sequenzierdaten zeige ich, dass HiLive2 qualitativ hochwertige Folgeanalysen ermöglicht. Außerdem stelle ich PathoLive vor, eine Pipeline zur Echtzeit-Identifizierung von Krankheitserregern aus metagenomischen Datensätzen. Basierend auf den Ergebnissen von HiLive2 führt PathoLive eine gewichtete Einstufung der identifizierten Organismen durch. Dabei werden Sequenzen, die auch in Proben von gesunden Menschen vorkommen, in den Ergebnissen weniger stark berücksichtigt. PathoLive bietet eine intuitive und interaktive Visualisierung, welche die Interpretation der Ergebnisse erleichtert. Ich zeige, dass PathoLive basierend auf nur wenigen Dutzend Sequenzen die Identifizierung des Krim-Kongo-Hämorrhagisches-Fieber-Virus in einer Probe aus dem Sudan ermöglicht. Neben den analytischen Herausforderungen sind Patientenproben im Hinblick auf den Datenschutz problematisch, da die Daten des humanen Wirts zur Identifizierung des Patienten verwendet werden könnten. Für diese Problematik präsentiere ich PriLive, welches noch während des Sequenzierlaufs das Entfernen humaner Sequenzen aus den Rohdaten ermöglicht. Hierdurch kann ein deutlich höheres Datenschutzniveau erreicht werden als mit herkömmlichen post hoc Ansätzen, da die humanen Sequenzen auch während des Sequenzierungsprozesses zu keinem Zeitpunkt in voller Länge vorliegen.

Details

Language :
English
Database :
OpenAIRE
Accession number :
edsair.doi.dedup.....fb12e8fc711dae5db67ea6e3052df374