15 results on '"Cytochrome c oxidase subunit i"'
Search Results
2. DNA Barcoding and geographical scale effect : The problems of undersampling genetic diversity hotspots
- Author
-
Gaytán, Álvaro, Bergsten, Johannes, Canelo, Tara, Pérez-Izquierdo, Carlos, Santoro, Maria, Bonal, Raul, Gaytán, Álvaro, Bergsten, Johannes, Canelo, Tara, Pérez-Izquierdo, Carlos, Santoro, Maria, and Bonal, Raul
- Abstract
DNA barcoding identification needs a good characterization of intraspecific genetic divergence to establish the limits between species. Yet, the number of barcodes per species is many times low and geographically restricted. A poor coverage of the species distribution range may hamper identification, especially when undersampled areas host genetically distinct lineages. If so, the genetic distance between some query sequences and reference barcodes may exceed the maximum intraspecific threshold for unequivocal species assignation. Taking a group ofQuercusherbivores (moths) in Europe as model system, we found that the number of DNA barcodes from southern Europe is proportionally very low in the Barcoding of Life Data Systems. This geographical bias complicates the identification of southern query sequences, due to their high intraspecific genetic distance with respect to barcodes from higher latitudes. Pairwise intraspecific genetic divergence increased along with spatial distance, but was higher when at least one of the sampling sites was in southern Europe. Accordingly, GMYC (General Mixed Yule Coalescent) single-threshold model retrieved clusters constituted exclusively by Iberian haplotypes, some of which could correspond to cryptic species. The number of putative species retrieved was more reliable than that of multiple-threshold GMYC but very similar to results from ABGD and jMOTU. Our results support GMYC as a key resource for species delimitation within poorly inventoried biogeographic regions in Europe, where historical factors (e.g., glaciations) have promoted genetic diversity and singularity. Future European DNA barcoding initiatives should be preferentially performed along latitudinal gradients, with special focus on southern peninsulas.
- Published
- 2020
- Full Text
- View/download PDF
3. DNA-based phylogeny of the marine genus Heterodrilus (Annelida, Clitellata, Naididae)
- Author
-
Mejlon, Erica, De Wit, Pierre, Matamoros, Lisa, Erseus, Christer, Mejlon, Erica, De Wit, Pierre, Matamoros, Lisa, and Erseus, Christer
- Abstract
Heterodrilus is a group of marine Naididae, common worldwide in subtropical and tropical areas, and unique among the oligochaetes by their tridentate chaetae. The phylogenetic relationships within the group are assessed from the nuclear 18S rDNA gene, and the mitochondrial cytochrome c oxidase subunit I (COI) and 16S rDNA genes. Sequence data were obtained from 16 Heterodrilus species and 13 out-group taxa; 48 sequences are new for this study. The data were analysed by Bayesian inference. Monophyly of the genus is corroborated by the resulting tree, with Heterodrilus ersei (a taxon representing a small group of species with aberrant male genitalia) proposed to be outside all other sampled species. Although earlier regarded as a member of the subfamily Rhyacodrilinae, both molecular and morphological data seem to support that Heterodrilus is closely related to Phallodrilinae. However, the results are not conclusive as to whether the genus is the sister group of, or a group nested inside, or separate from this latter subfamily. The studied sample of species suggests at least two major clades in Heterodrilus with different geographical distributions, in one of the clades, most species are from the Indo-West Pacific Ocean, while in the other, the majority are from the Western Atlantic Ocean. Morphological characters traditionally used in Heterodrilus taxonomy are optimized on the phylogenetic tree, revealing a high degree of homoplasy., Funding: Helge Ax:son Johnson Stiftelse
- Published
- 2015
- Full Text
- View/download PDF
4. Phylogeny and phylogeography of Atlantic oyster species: evolutionary history, limited genetic connectivity and isolation by distance
- Author
-
Lazoski, C., Gusmao, J., Boudry, Pierre, Sole-cava, A. M., Lazoski, C., Gusmao, J., Boudry, Pierre, and Sole-cava, A. M.
- Abstract
The phylogenetic relationships between naturally occurring Atlantic Crassostrea oyster species were inferred through analyses of mitochondrial (cytochrome oxidase subunit I and 16S) and nuclear (second internal transcribed spacer) sequences. We also scored 15 allozyme loci on 422 oysters to study population structuring of C. rhizophorae and C. brasiliana along 9000 km of the Western Atlantic coastline. Despite morphological similarities, C. virginica was genetically more closely related to C. rhizophorae than to C. brasiliana. In contrast, C. paraibanensis was genetically indistinguishable from C. brasiliana, which is probably a junior synonym of the African C. gasar. Significant genetic differentiation between populations of C. rhizophorae and C. gasar were found along the Western Atlantic coast, supporting an isolation-by-distance pattern.
- Published
- 2011
- Full Text
- View/download PDF
5. Stirred, not shaken: genetic structure of the intermediate snail host Oncomelania hupensis robertsoni in an historically endemic schistosomiasis area.
- Author
-
Hauswald, Anne-Kathrin, Hauswald, Anne-Kathrin, Remais, Justin V, Xiao, Ning, Davis, George M, Lu, Ding, Bale, Margaret J, Wilke, Thomas, Hauswald, Anne-Kathrin, Hauswald, Anne-Kathrin, Remais, Justin V, Xiao, Ning, Davis, George M, Lu, Ding, Bale, Margaret J, and Wilke, Thomas
- Abstract
BackgroundOncomelania hupensis robertsoni is the sole intermediate host for Schistosoma japonicum in western China. Given the close co-evolutionary relationships between snail host and parasite, there is interest in understanding the distribution of distinct snail phylogroups as well as regional population structures. Therefore, this study focuses on these aspects in a re-emergent schistosomiasis area known to harbour representatives of two phylogroups - the Deyang-Mianyang area in Sichuan Province, China. Based on a combination of mitochondrial and nuclear DNA, the following questions were addressed: 1) the phylogeography of the two O. h. robertsoni phylogroups, 2) regional and local population structure in space and time, and 3) patterns of local dispersal under different isolation-by-distance scenarios.ResultsThe phylogenetic analyses confirmed the existence of two distinct phylogroups within O. h. robertsoni. In the study area, phylogroups appear to be separated by a mountain range. Local specimens belonging to the respective phylogroups form monophyletic clades, indicating a high degree of lineage endemicity. Molecular clock estimations reveal that local lineages are at least 0.69-1.58 million years (My) old and phylogeographical analyses demonstrate that local, watershed and regional effects contribute to population structure. For example, Analyses of Molecular Variances (AMOVAs) show that medium-scale watersheds are well reflected in population structures and Mantel tests indicate isolation-by-distance effects along waterways.ConclusionsThe analyses revealed a deep, complex and hierarchical structure in O. h. robertsoni, likely reflecting a long and diverse evolutionary history. The findings have implications for understanding disease transmission. From a co-evolutionary standpoint, the divergence of the two phylogroups raises species level questions in O. h. robertsoni and also argues for future studies relative to the distinctness of the respective parasite
- Published
- 2011
6. Phylogeny and phylogeography of Atlantic oyster species: evolutionary history, limited genetic connectivity and isolation by distance
- Author
-
Lazoski, C., Gusmao, J., Boudry, Pierre, Sole-cava, A. M., Lazoski, C., Gusmao, J., Boudry, Pierre, and Sole-cava, A. M.
- Abstract
The phylogenetic relationships between naturally occurring Atlantic Crassostrea oyster species were inferred through analyses of mitochondrial (cytochrome oxidase subunit I and 16S) and nuclear (second internal transcribed spacer) sequences. We also scored 15 allozyme loci on 422 oysters to study population structuring of C. rhizophorae and C. brasiliana along 9000 km of the Western Atlantic coastline. Despite morphological similarities, C. virginica was genetically more closely related to C. rhizophorae than to C. brasiliana. In contrast, C. paraibanensis was genetically indistinguishable from C. brasiliana, which is probably a junior synonym of the African C. gasar. Significant genetic differentiation between populations of C. rhizophorae and C. gasar were found along the Western Atlantic coast, supporting an isolation-by-distance pattern.
- Published
- 2011
- Full Text
- View/download PDF
7. Stirred, not shaken: genetic structure of the intermediate snail host Oncomelania hupensis robertsoni in an historically endemic schistosomiasis area.
- Author
-
Hauswald, Anne-Kathrin, Hauswald, Anne-Kathrin, Remais, Justin V, Xiao, Ning, Davis, George M, Lu, Ding, Bale, Margaret J, Wilke, Thomas, Hauswald, Anne-Kathrin, Hauswald, Anne-Kathrin, Remais, Justin V, Xiao, Ning, Davis, George M, Lu, Ding, Bale, Margaret J, and Wilke, Thomas
- Abstract
BackgroundOncomelania hupensis robertsoni is the sole intermediate host for Schistosoma japonicum in western China. Given the close co-evolutionary relationships between snail host and parasite, there is interest in understanding the distribution of distinct snail phylogroups as well as regional population structures. Therefore, this study focuses on these aspects in a re-emergent schistosomiasis area known to harbour representatives of two phylogroups - the Deyang-Mianyang area in Sichuan Province, China. Based on a combination of mitochondrial and nuclear DNA, the following questions were addressed: 1) the phylogeography of the two O. h. robertsoni phylogroups, 2) regional and local population structure in space and time, and 3) patterns of local dispersal under different isolation-by-distance scenarios.ResultsThe phylogenetic analyses confirmed the existence of two distinct phylogroups within O. h. robertsoni. In the study area, phylogroups appear to be separated by a mountain range. Local specimens belonging to the respective phylogroups form monophyletic clades, indicating a high degree of lineage endemicity. Molecular clock estimations reveal that local lineages are at least 0.69-1.58 million years (My) old and phylogeographical analyses demonstrate that local, watershed and regional effects contribute to population structure. For example, Analyses of Molecular Variances (AMOVAs) show that medium-scale watersheds are well reflected in population structures and Mantel tests indicate isolation-by-distance effects along waterways.ConclusionsThe analyses revealed a deep, complex and hierarchical structure in O. h. robertsoni, likely reflecting a long and diverse evolutionary history. The findings have implications for understanding disease transmission. From a co-evolutionary standpoint, the divergence of the two phylogroups raises species level questions in O. h. robertsoni and also argues for future studies relative to the distinctness of the respective parasite
- Published
- 2011
8. Phylogeny and phylogeography of Atlantic oyster species: evolutionary history, limited genetic connectivity and isolation by distance
- Author
-
Lazoski, C., Gusmao, J., Boudry, Pierre, Sole-cava, A. M., Lazoski, C., Gusmao, J., Boudry, Pierre, and Sole-cava, A. M.
- Abstract
The phylogenetic relationships between naturally occurring Atlantic Crassostrea oyster species were inferred through analyses of mitochondrial (cytochrome oxidase subunit I and 16S) and nuclear (second internal transcribed spacer) sequences. We also scored 15 allozyme loci on 422 oysters to study population structuring of C. rhizophorae and C. brasiliana along 9000 km of the Western Atlantic coastline. Despite morphological similarities, C. virginica was genetically more closely related to C. rhizophorae than to C. brasiliana. In contrast, C. paraibanensis was genetically indistinguishable from C. brasiliana, which is probably a junior synonym of the African C. gasar. Significant genetic differentiation between populations of C. rhizophorae and C. gasar were found along the Western Atlantic coast, supporting an isolation-by-distance pattern.
- Published
- 2011
- Full Text
- View/download PDF
9. Molecular phylogeny of the rotifers with two Indonesian Brachionus lineages
- Author
-
Yoshinaga, Tatsuki, Minegishi, Yuki, Rumengan, Inneke F. M., Kaneko, Gen, Furukawa, Satoshi, Yanagawa, Yoshiko, Tsukamoto, Katsumi, Watabe, Shugo, Yoshinaga, Tatsuki, Minegishi, Yuki, Rumengan, Inneke F. M., Kaneko, Gen, Furukawa, Satoshi, Yanagawa, Yoshiko, Tsukamoto, Katsumi, and Watabe, Shugo
- Abstract
application/pdf
- Published
- 2004
10. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Pešek, David, Jirsík, Václav, Bilík, Šimon, and Pešek, David
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
11. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Pešek, David, Jirsík, Václav, Bilík, Šimon, and Pešek, David
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
12. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Jirsík, Václav, and Bilík, Šimon
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
13. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Jirsík, Václav, and Bilík, Šimon
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
14. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Jirsík, Václav, and Bilík, Šimon
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
15. Umělá neuronová síť pro rekonstruování vymřelých druhů
- Author
-
Jirsík, Václav, Bilík, Šimon, Pešek, David, Jirsík, Václav, Bilík, Šimon, and Pešek, David
- Abstract
Tato práce se zabývala navrhnutím, naučením a zhodnocením umělé neuronové sítě pro rekonstrukci vymřelých živočišných druhů. Nejprve byl vybrán hlavní prvek navrhované UNS, tedy generativní model. Vzhledem k jejich výborným výsledkům v poli generování obrázků se odůvodněně jevila třída difúzních modelů jako správná volba. Konkrétně byl vybrán difúzí model Stable diffusion. Jeden z počátečních kroků práce bylo také vytvořit trénovací množinu pro navrhovaný model. K obrázkům živočichů bylo potřeba napárovat nějaké popisky, podle kterých by se dal živočich identifikovat. K tomuto účelu byly využity geny cyklooxygenázy-1 daných živočichů. Dále byl použit sekvenční transformátorový model GPT-2, který je naučen na trénovací množině lidského přirozeného jazyka. Tento model byl použitý pro zakódování DNA sekvencí do vektorové podoby, ve které byla zachycena sémantika a kontext mezi jednotlivými částmi DNA sekvence. Modely by bylo velmi složité učit od začátku kvůli velké potřebné velikosti trénovací množiny a výpočetní a časové náročnosti. GPT-2 model byl tedy pouze doučen na trénovací množině DNA sekvencí řádu pěvců a samotný difúzní model byl naučen na párech obrázků těchto živočichů a DNA sekvencí zakódovaných pomocí GPT-2 modelu. Pro generování obrázků byly pomocí GPT-2 generovány originální DNA sekvence, které se podobaly sekvencím z trénovací množiny. Následně bylo zakódování těchto sekvencí předáno difúznímu modelu, který vytvořil samotné obrázky. Metoda generování nových DNA sekvencí pomocí GPT-2 modelu stojí na myšlence, že vygenerovaná DNA sekvence se částečně podobá DNA sekvencím z trénovací množiny. Takto experimentálně vygenerované DNA sekvence se mohou podobat DNA sekvencím vymřelých předků nebo příbuzných řádu pěvců. Model byl schopný v části případů vygenerovat takové obrázky, které lze na pohled považovat za živočišný druh, ale je nutno konstatovat, že vygenerované obrázky často nešlo považovat za rekonstrukce živočichů. Úspěšnost vygenerování obstojného ob, This work was focused on designing, learning and evaluating an artificial neural network for reconstructing extinct species. First, the main element of the proposed artificial neural network, i.e., the generative model, was selected. Given their excellent performance in the field of image generation, the class of diffusion models reasonably seemed to be the right choice. Specifically, the Stable diffusion model was chosen. One of the initial steps of the work was to create a training set for the proposed model. The animal images needed to be paired with some labels that could be used to identify the animal. For this purpose, the cytochrome c oxidase subunit I genes of the given animals were used. Furthermore, the sequential transformer model GPT-2, which is learned on the training set of human natural language, was used. This model was used to encode the DNA sequences into a vector form in which the semantics and context between the different parts of the DNA sequence were captured. The models would be very difficult to learn from scratch due to the large training set size required and the computational and time requirements. Thus, the GPT-2 model was only learned on the training set of DNA sequences of the passeriformes order, and the diffusion model itself was learned on pairs of images of these animals and DNA sequences encoded by the GPT-2 model. To generate the images, the original DNA sequences that resembled the sequences from the training set were generated using GPT-2. The encoding of these sequences was then passed to the diffusion model, which generated the images itself. The method of generating new DNA sequences using the GPT-2 model is based on the idea that the generated DNA sequence partially resembles the DNA sequences from the training set. Such experimentally generated DNA sequences may resemble DNA sequences of extinct ancestors or relatives of the passeriformes order. The model was in some cases able to generate images that could be considered a
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.