6 results on '"Parla"'
Search Results
2. The heritability of vocal tract structures estimated from structural MRI in a large cohort of Dutch twins
- Author
-
Dan Dediu, Emily M. Jennings, Dennis van’t Ent, Scott R. Moisik, Grazia Di Pisa, Janna Schulze, Eco J. C. de Geus, Anouk den Braber, Conor V. Dolan, Dorret I. Boomsma, Neurology, Amsterdam Neuroscience - Neurodegeneration, Biological Psychology, APH - Methodology, and APH - Mental Health
- Subjects
Fonologia ,Mouth ,Boca ,Nose ,Phonology ,Magnetic Resonance Imaging ,Parla ,Cohort Studies ,Magnetic resonance imaging ,Nas ,Imatges per ressonància magnètica ,Phonetics ,Human beings ,Genetics ,Humans ,Fonètica ,Speech ,ddc:400 ,Home ,Genetics (clinical) ,Language - Abstract
While language is expressed in multiple modalities, including sign, writing, or whistles, speech is arguably the most common. The human vocal tract is capable of producing the bewildering diversity of the 7000 or so currently spoken languages, but relatively little is known about its genetic bases, especially in what concerns normal variation. Here, we capitalize on five cohorts totaling 632 Dutch twins with structural magnetic resonance imaging (MRI) data. Two raters placed clearly defined (semi)landmarks on each MRI scan, from which we derived 146 measures capturing the dimensions and shape of various vocal tract structures, but also aspects of the head and face. We used Genetic Covariance Structure Modeling to estimate the additive genetic, common environmental or non-additive genetic, and unique environmental components, while controlling for various confounds and for any systematic differences between the two raters. We found high heritability, h2, for aspects of the skull and face, the mandible, the anteroposterior (horizontal) dimension of the vocal tract, and the position of the hyoid bone. These findings extend the existing literature, and open new perspectives for understanding the complex interplay between genetics, environment, and culture that shape our vocal tracts, and which may help explain cross-linguistic differences in phonetics and phonology.
- Published
- 2022
- Full Text
- View/download PDF
3. Validació i classificació d'àudio del projecte 'Common Voice'
- Author
-
Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, Ramírez Martí, Carla, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi, and Ramírez Martí, Carla
- Abstract
Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes., Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas., Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
- Published
- 2022
4. Validació i classificació d'àudio del projecte 'Common Voice'
- Author
-
Ramírez Martí, Carla, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, and Esquerra Llucià, Ignasi
- Subjects
Forced alignment ,Català ,Automatic speech recognition ,Alineament forçat ,Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] ,Speech ,Processament de la parla ,Reconeixement automàtic de la parla ,Speech recognition ,Parla - Abstract
Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes. Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas. Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
- Published
- 2022
5. Temporal overlap between gestures and speech in poststroke aphasia: is there a compensatory effect?
- Author
-
Han Zhang and Wolfram Hinzen
- Subjects
Language Disorders ,Speech and Hearing ,Linguistics and Language ,Gestures ,Communication Disorders ,Aphasia ,Humans ,Speech ,Linguistics ,Gest ,Language and Linguistics ,Afàsia ,Parla - Abstract
Purpose: If language production is impaired, will gestures compensate? Evidence in favor of this prediction has often been argued to come from aphasia, but it remains contested. Here, we tested whether thought content not present in speech due to language impairment is manifested in gestures, in 20 people with dysfluent (Broca’s) aphasia, 20 people with fluent (Wernicke’s) aphasia, and 20 matched neurotypical controls. Method: A new annotation scheme was created distinguishing types of gestures and whether they co-occurred with fluent or dysfluent/absent speech and were temporally aligned in content with coproduced speech. Results: Across both aphasia types, noncontent (beat) gestures, which by their nature cannot compensate for lost speech content, constituted the greatest proportion of all types of gestures produced. Content (i.e., descriptive, referential, and metaphorical) gestures were largely coproduced with fluent rather than dysfluent speech and tended to be aligned with the content conveyed in speech. They also did not differ in quantity depending on whether the dysfluencies were eventually resolved or not. Neither aphasia severity nor comprehension ability had an impact on the total amount of content gesture produced in people with aphasia, which was instead positively correlated with speech fluency. Conclusions: Together, these results suggest that gestures are unlikely to have a role in compensating for linguistic deficits and to serve as a representational system conveying thought content independent of language. Surprisingly, aphasia rather is a model of how gesture and language are inherently integrated and aligned: Even when language is impaired, it remains the essential provider of content.
- Published
- 2022
6. Differential activation of a frontoparietal network explains population-level differences in statistical learning from speech
- Author
-
Joan Orpella, M. Florencia Assaneo, Pablo Ripollés, Laura Noejovich, Diana López-Barroso, Ruth de Diego-Balaguer, and David Poeppel
- Subjects
Diferències individuals ,Brain Mapping ,General Immunology and Microbiology ,General Neuroscience ,Magnetic Resonance Imaging ,Parla ,General Biochemistry, Genetics and Molecular Biology ,Aprenentatge ,Xarxes neuronals (Neurobiologia) ,Individual differences ,Speech Perception ,Learning ,Humans ,Speech ,Neural networks (Neurobiology) ,General Agricultural and Biological Sciences - Abstract
People of all ages display the ability to detect and learn from patterns in seemingly random stimuli. Referred to as statistical learning (SL), this process is particularly critical when learning a spoken language, helping in the identification of discrete words within a spoken phrase. Here, by considering individual differences in speech auditory–motor synchronization, we demonstrate that recruitment of a specific neural network supports behavioral differences in SL from speech. While independent component analysis (ICA) of fMRI data revealed that a network of auditory and superior pre/motor regions is universally activated in the process of learning, a frontoparietal network is additionally and selectively engaged by only some individuals (high auditory–motor synchronizers). Importantly, activation of this frontoparietal network is related to a boost in learning performance, and interference with this network via articulatory suppression (AS; i.e., producing irrelevant speech during learning) normalizes performance across the entire sample. Our work provides novel insights on SL from speech and reconciles previous contrasting findings. These findings also highlight a more general need to factor in fundamental individual differences for a precise characterization of cognitive phenomena.
- Published
- 2022
- Full Text
- View/download PDF
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.