Tese de mestrado em Biologia Humana e do Ambiente, apresentada à Faculdade de Ciências da Universidade de Lisboa, 2017. Orientador Dezso David - Departamento de Genética Humana do Instituto Nacional de Saúde Congenital malformation syndromes can be caused by genomic and/or chromosome rearrangements. It is difficult to establish the underlying causes of malformations because of their high level of complexity. Although balanced chromosome inversions are in most cases subclinical, those disrupting transcripts or affecting the genomic architecture at breakpoint regions may well be pathogenic. Currently, the lack of a fully annotated human genome hinders the predictability of the phonotypic consequences of such rearrangements. The aim of this study is the identification of potential candidate genes for a malformation syndrome in an individual with an apparently balanced maternally inherited pericentric chromosome inversion inv(2)(p16.1;q14.3)mat. The proband has severe congenital malformation with multiple psychomotor and developmental anomalies, dismorphism and autistic features. The parents are phenotypically normal. Classical cytogenetic methods are of low resolution, often in the magnitude of a 5 to 10 Mb. Whole-genome Next-Generation Sequencing (NGS) of large-insert sequencing library (liWGS) has the capability to detect structural rearrangements with incomparably higher resolution, including cryptic alterations. As consequence, it was applied for the identification of inv(2)(p16.1;q14.3) breakpoints in the proband. Familial segregation analysis and definition of the inversion breakpoints at a nucleotide resolution were performed by amplification of junction fragments and Sanger sequencing. Genome and transcriptome array analysis were also carried out, for detection of additional genomic alterations and for gene expression profiling, respectively. Additionally, a possibly polymorphic duplication at 2q21.1, inherited from his father, was found. No apparent pathogenic genomic imbalances were identified in the proband. The inversion breakpoints are located at chr2:55,935,064 and chr2:123,767,685 (GRCh37), respectively, in 2p16.1 and 2q14.3. The inv2p16.1 breakpoint is flanked 14 kb proximal by the gene polyribonucleotide nucleotidyltransferase 1 (PNPT1; chr2:55,861,198-55,921,045, GRCh37; OMIM *610316) and 172 kb distal by EGF containing fibulin-like extracellular matrix protein 1 (EFEMP1; chr2:56,093,097-56,151,298, GRCh37; OMIM *601548). PNPT1, highly expressed in mice cochlea, has been associated with deafness (OMIM #614934) and with combined oxidative phosphorylation deficiency (OMIM #614932), both autosomal recessive. Meanwhile, the autosomal dominant Doyne honeycomb retinal dystrophy (OMIM #126600) is reported to be associated with mutations in EFEMP1. This gene is essential for the formation of elastic fibers in connective tissue. The 2q14.3 breakpoint is in a gene-poor region. Located 1.2 Mb proximal to the breakpoint is translin (TSN; chr2:122,513,120-122,525,428, GRCh37; OMIM *600575). Involved in DNA damage repair and RNA trafficking in neurons, TSN codes for a protein that specifically binds to breakpoint junctions of translocations in acute leukemia. The gene contactin-associated protein-like 5 (CNTNAP5; chr2:124,782,863-125,672,953, GRCh37; OMIM *610519) is localized 1 Mb, distal. CNTNAP5 is involved in cell adhesion and intercellular communication. Susceptibility to autistic syndromes has been suspected. The above described breakpoints at nucleotide resolution are the same in the proband’s mother, and did not directly disrupt any gene. Publicly available clinical information on alterations affecting the inversion flanking genes revealed no major similarity with the proband’s phenotype. Furthermore, no significant alteration in their expression level was observed. In-depth analysis of genome-wide expression data is in progress. Based on these findings, the causal relationship between clinical phenotype and the inv(2)(p16.1;q14.3) is most likely excluded, since the inversion is most likely non-pathogenic. Therefore it is not yet possible to identity the underlying genetic cause of the malformation syndrome reported in this subject. Whole-exome sequencing is proposed as a future task to detect the disease causing alteration. This study highlights the application of NGS-based methodology, with its capability in mapping chromosome inversion breakpoints at a very high resolution. Large scale application of this approach will represent a hallmark in the characterization of congenital malformations associated with structural chromosomal abnormalities. As síndromes de malformação congénitas são um dos principais grupos de patologias que afetam neonatos e crianças em países desenvolvidos. Muitos destes casos têm como base genética os arranjos genómicos ou cromossómicos. No entanto, por norma, devido à complexidade inerente às síndromes de malformação, é difícil e laborioso identificar com exatidão a alteração molecular que lhes deu origem. Aliado à inexistência atual de um genoma humano completamente anotado, torna-se complicado a compreensão e a previsão das consequências fenotípicas dos rearranjos cromossómicos. As inversões cromossómicas são rearranjos que ocorrem quando dois pontos de quebra ocorrem num mesmo cromossoma e são reinseridos invertidos, sem alteração de número de cópia. Normalmente as inversões são subclínicas, sem um fenótipo clínico associado. Se estes forem transmitidos a mais de 1% de uma dada população, tratam-se de polimorfismos. Se um rearranjo afectar transcritos ou a arquitetura genética junto dos pontos de quebra, perturbando assim o normal funcionamento dos genes, sobretudo os de expressão indispensável, este estará envolvido na etiologia de uma patologia potencialmente grave. Comparado com outros rearranjos cromossómicos, são poucas as inversões atualmente detalhadamente caracterizadas, frequentemente devido a dificuldades técnicas relacionadas com regiões repetitivas, frequentes nos pontos de quebra das inversões. Metodologias clássicas de citogenética são de baixa resolução e por vezes incapazes de identificar determinadas anomalias estruturais. As tecnologias atualmente mais avançadas para o estudo de rearranjos incluem microarrays genómicos, ideal na análise de variações no número de cópias, e a sequenciação de próxima geração (NGS), mais concretamente sequenciação pangenómica, para a generalidade dos rearranjos cromossómicos. Esta última tem a particularidade de ser eficiente na identificação de alterações crípticas, de oferecer uma potencial resolução bastante elevada (em certos casos nucleotídica) e de gerar grande quantidade de dados rapidamente. Das plataformas NGS existentes, as mais aptas para a análise de inversões envolvem a construção de bibliotecas mate-pair de grandes insertos, cuja distância entre pares de leitura é de 2 a 6 kb, permitindo superar dificuldades técnicas com zonas repetitivas e pequenas alterações junto aos pontos de quebra. Esta tese pretende identificar as alterações moleculares responsáveis pela síndrome de malformação congénita num indivíduo portador de uma inversão cromossómica pericêntrica aparentemente equilibrada de origem materna. O caso índex, portador da síndrome de malformação, apresenta acentuado atraso de desenvolvimento mental e psicomotor, dismorfia facial e perturbações do espectro do autismo. Ele tem muito baixo peso e altura para a idade. Foram também diagnosticadas cardiopatias, criptorquidia, escoliose e hipotonia generalizada. Estudos citogenéticos detetaram a existência de uma inversão pericêntrica no cromossoma 2, também encontrada na mãe. Os pais têm fenótipo aparentemente normal. Primeiramente, procedeu-se à identificação de alterações estruturais desequilibradas no indivíduo índex. Foram detetaram várias alterações de número de cópia, na maioria pequenas (< 100kb) e sem envolver genes OMIM, com a exceção da duplicação de 590 kb em 2q21.1. Os genes na duplicação não aparentam estar relacionados com o fenótipo observado. Ademais, foi detetado uma duplicação de 610 kb no pai nesta mesma região genómica, sugerindo que se trata de uma alteração de origem paterna, muito provavelmente não-patogénica e possivelmente de natureza polimórfica. Sequenciação pangenómica de grandes insertos (large-insert whole-genome sequencing) usando ácido desoxirribonucleico (ADN) do caso índex foi realizada para a identificação dos pontos de quebra da inversão no cromossoma 2. Uma vez delimitado a região dos pontos de quebra por NGS, foram desenhados oligonucleotídeos específicos para a amplificação dos fragmentos de junção e, seguidamente, procedeu-se à análise de segregação familiar e determinação nucleotídica dos pontos de quebra através de sequenciação Sanger. O estudo do perfil de expressão genética foi feito com Human Transcriptome Assay (HTA 2.0) da Affymetrix, utilizando ácido desoxirribonucleico (ARN) da linha celular linfoblastóide do indivíduo índex. Os dados obtidos por NGS permitiram a redefinição da localização genómica da inversão. O cariótipo do caso índex foi assim redefinido como 46, XY, inv(2)(p16.1q14.3)mat. Os pontos de quebra da inversão no cromossoma 2, no caso índex e na sua mãe, foram determinados. Estes localizam-se na posição chr2:55,935,064 e chr2:123,767,685 (GRCh37), respetivamente, nas bandas p16.1 e q14.3. Na sequência invertida ocorreu a deleção de 5 bases. Os pontos de quebra da inversão são iguais em ambos os indivíduos, sem quaisquer alterações detetadas nos fragmentos de junção. Segundo a nomenclatura baseada em citogenética de próxima geração, esta inversão é descrita como seq[GRCh37] inv(2)(pter→2p16.1(55,935,06{1-3})::2q14.3(123,767,68{3-1})→2p16.1 (55,935,06{5-4})::2q14.3(123,767,68{4-5})→qter). Os pontos de quebra não interrompem diretamente genes conhecidos. Em inv2p16.1, este é flanqueado a 5’ pelo gene polirribonucleotídeo nucleotidiltransferase 1 (PNPT1; chr2:55,861,198-55,921,045, GRCh37; OMIM *610316), e a 3’ pelo gene proteína 1 da matriz extracelular tipo-fibulina contendo EGF (EFEMP1; chr2:56,093,097-56,151,298, GRCh37; OMIM *601548) a 158 kb. O PNPT1 está envolvido na cadeia respiratória mitocondrial. Mutações em homozigotia foram associadas com deficiência na fosforilação oxidativa (OMIM #614932), originando nomeadamente encefalopatias, e com a surdez hereditária autossómica recessiva 70 (OMIM #614934). Em murganhos, tem expressão acentuada na cóclea. EFEMP1 é essencial para a correta formação de fibras elásticas em tecido conjuntivo, tendo elevada expressão nos pulmões e esófago em murganhos, e baixa no cérebro e coração. Mutações neste gene estão descritas como causa genética da distrofia da retina de Doyne (OMIM #126600), patologia autossómica dominante com início na segunda década de vida, causando perda progressiva de visão. O ponto de quebra em inv2q14.3 situa-se numa região pobre em genes. O gene translina (TSN; chr2:122,513,120-122,525,428, GRCh37; OMIM *600575) franqueia o ponto de quebra proximamente a 1240 kb, enquanto o gene tipo-proteína associada à contatina 5 (CNTNAP5; chr2:124,782,863-125,672,953, GRCh37; OMIM *610519) localiza-se 1020 kb distal do ponto de quebra. TSN codifica uma proteína que reconhece sequências-alvo em junções de pontos de quebra de translocações em doentes com leucemia, e está envolvido no mecanismo de reparação de ADN e transporte de ARN em neurónios. Em murganhos, expressa-se preferencialmente no tecido adiposo. O CNTNAP5 produz uma proteína que atua no sistema nervoso como moléculas de adesão celular e de recetor na comunicação intercelular. Em murganhos, expressa-se predominantemente no sistema nervoso. Existe suspeita de que mutações pontuais possam conferir suscetibilidade a comportamentos do espectro do autismo. Quanto à expressão genética, os resultados mostraram que os genes que flanqueiam a inversão não aparentam ter nível de expressão significativamente alterada comparativamente com os controlos. O estudo aprofundado de expressão a nível genómico está a decorrer. Os restantes genes próximos dos pontos de quebra da inversão relevaram baixa probabilidade de serem as alterações causadoras do fenótipo, nomeadamente a nível das doenças associadas. Tendo em conta os resultados obtidos, especialmente a confirmação da origem materna da inversão, esta alteração não aparenta ser a principal e única causa molecular do fenótipo. Ademais, esta conclusão é suportada pela pouca sobreposição clínica dos genes flanqueadores com a síndrome de malformação congénita, e da expressão génica aparentemente não alterada. Assim, atualmente, a relação causal entre o fenótipo observado e a inversão no cromossoma 2 foi excluída. Esta inversão é muito provavelmente não-patogénica por si só. Até ao momento e com os dados disponíveis, não foi possível identificar genes candidatos nem as alterações moleculares por detrás da síndrome de malformação congénita no caso índex. Informação médica disponível exclui influência de fatores ambientais na embriogénese. Futuramente, sugere-se recorrer à sequenciação do exoma, visto que tem uma sensibilidade muito superior para a deteção de pequenas em exões, potencialmente não detestáveis pelas abordagens até ao momento utilizadas. Adicionalmente, o estudo nos restantes membros da família permitirão obter uma melhor visão sobre a segregação familiar. Este trabalho é financiado por fundos nacionais através da FCT – Fundação para a Ciência e a Tecnologia, I.P., no âmbito do projeto HMSP-ICT/0016/2013. N/A