Veroneze, R., Guimarães, Simone Eliza Facioni, Silva, Fabyano Fonseca e, Lopes, Paulo Sávio, Wageningen University, Johan van Arendonk, S.E.F. Guimarães, and John Bastiaansen
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior A seleção genômica (SG) e associação genômica ampla (GWAS) são métodos que exploram o desequilíbrio de ligação (LD) entre marcadores e loci de características quantitativas (QTL). Um dos fatores limitantes para a implementação da SG é a necessidade de um grande número de animais genotipados e fenotipados para obtenção de valores genéticos com alta acurácia. Essa limitação pode ser superada combinando dados de múltiplas populações ou utilizando dados de animais cruzados. O objetivo geral desta tese foi caracterizar os padrões de LD de diferentes populações de suínos. Além disso, avaliar em que medida as diferenças de LD se refletem na acurácia da seleção genômica quando utilizadas diferentes metodologias e arranjos para população de referência e validação. Os arranjos testados foram: utilização de subconjuntos da mesma população como referência e validação (within), populações diferentes nos conjuntos de referência e validação (across) e combinação de duas populações na referência (multi). Nessa tese foram utilizados dados de suínos de linhas puras e de animais cruzados, genotipados com o PorcineSNP60 BeadChip. A regressão Loess proporcionou melhor ajuste aos dados de LD, bem como em predições mais acuradas em comparação a regressão não linear. Mostrou-se também, que a regressão Loess pode ser utilizada para realizar uma comparação estatística do LD decay de diferentes populações. A persistência de fase do LD entre animais cruzados e as linhas puras parentais foi alta, o que nos leva a hipotetizar que associações marcador-QTL similares poderiam ser encontradas em animais cruzados e as linhas parentais e, portanto, esperava-se encontrar altas acurácias de predição genômica entre essas populações. Entre as linhas puras a persistência de fase foi baixa, logo painéis de SNPs de maior densidade deveriam ser utilizados para manter a mesma associação marcador-QTL entre essas linhas. Acurácias obtidas na predição genômica utilizando animais cruzados assim como os arranjos across e multi, não seguiram as expectativas baseadas em LD. Portanto, a consistência de fase de ligação entre populações pode não ser tão importante para a acurácia da seleção genômica como se pensava, mas sim a ação combinada de LD, arquitetura genética e frequências alélicas. Portanto, foi desenvolvida uma metodologia que leva em consideração differenças nas frequências alélicas, bem como informações dos GWAS para comtemplar a arquitetura genética da característica. Esta estratégia trouxe alguns benefícios para a predição genônima para os arranjos within e multi. Ponderações obtidas por meio de GWAS em diferentes conjuntos de dados (uma única população e combinando múltiplas populações) nem sempre resultou em aumento da acurácia, sendo dependente da linha que estava sob seleção. O uso de pesos advindos do GWAS ao se utilizar uma população combinada resultou nas melhores acurácias tanto para os arranjos within quanto multi. A avaliação e o entendimento de como diferenças de LD, frequências alélicas e arquitetura genética afetam a acurácia da predição genômica é fundamental para otimizar a inserção da seleção genômica no melhoramento de suínos. Genomic selection and genomic wide association studies (GWAS) are widely used methods that aim to exploit the linkage disequilibrium (LD) between markers and quantitative trait loci (QTL). Securing a sufficiently large set of genotypes and phenotypes can be a limiting factor when implementing genomic selection that may be overcome by combining data from multiple populations or using crossbred information. The overall objective of this thesis was to characterize LD patterns in different pig populations and to evaluate whether the differences in LD determine the accuracy of genomic predictions when using different reference sets (within-, across- and multi- population) and methodologies. In this thesis I used data from pure lines and crossbred pig populations genotyped with PorcineSNP60 BeadChip. Loess regression provided a better fit to the real LD data, and more accurate LD predictions could be made, compared to nonlinear regression. It was also shown that Loess regression can be used to statistically compare the LD decay of different populations. The persistence of LD phase between crosses and the parental pig lines was found to be high, from which it was hypothesized that similar marker-QTL associations would be found in a cross and in their purebred parent populations and therefore accuracies of genomic prediction across these populations should be high. Between the pure lines the persistence of phase was low, thus higher density panels should be used to have the same marker-QTL associations across these lines. Accuracies obtained from across- and multi-population genomic prediction and from using crossbred data did however not follow the expectations based on LD. Having the same LD phase may therefore not be as important for genomic prediction accuracy as previously thought but rather the interplay between LD, genetic architecture and allele frequencies also plays a major role. Differences in allele frequencies between lines and information from GWAS on the genetic architecture of traits for the different lines were taken into account in analyses developed in the later chapters. The use of weights, based on GWAS results, was expected to lead the GBLUP model towards the real genetic architecture of the traits. This strategy was shown to have some benefit for the genomic predictions with single- and multi-population data sets. Weights obtained from GWAS in different data sets (within and combining populations) did not always lead to increased accuracies of prediction, depending on which lines the weights are applied to. Using weights from GWAS in a combined population was the best approach, resulting in higher accuracy of GBLUP predictions within single- as well as in multi-population analysis. Understanding and evaluating how the accuracy of within-, across- and multi-population genomic prediction is affected by differences in LD, in genetic architecture and in allele frequencies is key to optimize the accuracy of genomic prediction in pig breeding.