70 results on '"parole spontanée"'
Search Results
2. Exploration de systèmes end-to-end pour la reconnaissance automatique de la parole spontanée
- Author
-
Solène Evain, Solange Rossato, Benjamin Lecouteux, François Portet, Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Laboratoire d'Informatique de Grenoble (LIG), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), and ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
- Subjects
parole spontanée ,système end-to-end ,automatic speech recognition ,end-to-end system ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
International audience; Ces dernières années, les systèmes de Reconnaissance Automatique de la Parole (RAP) ont donné de très bons résultats sur les benchmarks de la communauté. Si ces résultats sont très bons sur la parole lue ou médiatique, les performances baissent considérablement pour la Reconnaissance de la Parole Spontanée (RAPS), notamment à cause de la faible disponibilité des corpus et de la difficulté de définir et de modéliser ce type de parole. Dans ce travail, nous souhaitons explorer l’utilisation d’un modèle neuronal pour la RAPS. En effet, l’optimisation end-to-end (de bout en bout) de cesmodèles – sans modèle de langue a priori et en partie sans corpus annoté – offre non seulement des performances intéressantes, mais également l’opportunité d’étudier la modélisation de la parole spontanée uniquement à partir de données.
- Published
- 2021
3. Variación del fonema /s/ en contextos de juntura de palabra en el español caleño: una mirada sociolingüística.
- Author
-
Ramírez, Alexánder and Almira, Alina
- Published
- 2016
- Full Text
- View/download PDF
4. Segmental reduction in spontaneous French: Contributions of large corpora and automatic speech processing
- Author
-
Yaru Wu, Martine Adda-Decker, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), and Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS)
- Subjects
parole spontanée ,large speech corpora ,Philosophy ,forced alignment ,05 social sciences ,alignement forcé ,segments courts ,reduction ,spontaneous speech ,01 natural sciences ,050105 experimental psychology ,[SHS]Humanities and Social Sciences ,grands corpus oraux ,élision ,0103 physical sciences ,General Earth and Planetary Sciences ,réduction ,0501 psychology and cognitive sciences ,short segments ,010301 acoustics ,Humanities ,ComputingMilieux_MISCELLANEOUS ,elision ,General Environmental Science ,Spontaneous speech - Abstract
Ce travail sur la réduction segmentale (c.-à-d. la suppression ou réduction temporelle de segments) en français spontané nous a permis de proposer une méthode de recherche pour les études en linguistique, ainsi que d’apporter des connaissances sur la propension à la réduction des segments à l’oral. Cette méthode, appelée méthode ascendante, nous permet de travailler sans hypothèse spécifique sur la réduction. Les résultats suggèrent que les liquides, les glides et la fricative voisée /v/ sont plus facilement réduites que les autres consonnes et que les voyelles nasales résistent mieux à la réduction que les voyelles orales. Parmi les voyelles orales, les voyelles orales arrondies ont tendance à être plus souvent réduites que les autres voyelles orales. This study on segmental reduction (i.e. deletion or temporal reduction of segments) in spontaneous French allows us to propose a research method for linguistic studies on large corpora and to bring new insights on the propensity of segmental reduction. We applied the so-called bottom-up method while we do not have specific hypotheses. Results suggest that liquids, glides and /v/ fricative tend to be more often reduced than other consonants whereas nasal vowels are less prone to reduction than oral vowels. Among the latter ones, rounded oral vowels tend to be reduced more often than other oral vowels.
- Published
- 2021
5. Does vocal tract use depend on language characteristics in spontaneous speech?
- Author
-
Christine Meunier, Morgane Peirolo, Brigitte Bigi, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Institute of Language, Communication and the Brain (ILCB), Benzitoun, Christophe, Braud, Chloé, Huber, Laurine, Langlois, David, Ouni, Slim, Pogodalla, Sylvain, Schneider, Stéphane, and Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)
- Subjects
Articulatory position ,languages ,fréquences phonétiques ,parole spontanée ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,phoneme frequencies ,Position articulatoire ,corpus ,spontaneous speech ,langues ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
The aim of this work is to quantify the theoretical articulatory positions during the production of spontaneous speech for three languages. Each language has a specific phonological inventory. However, these specificities are not represented as such in spontaneous speech in which phonemesdo not have the same relative frequency. We compared three languages (Polish, French and American English) with notable differences in their phonological inventory. Articulatory positions were calculated according to phoneme frequencies in the three languages through spontaneous speech corpora. Surprisingly, the results tend to show that preferred articulatory positions are very similar in the three languages. Thus it seems that spontaneous speech production, and therefore phonemes distribution in languages, erases the disparities of phonological systems in order to provide similar articulation. Further investigation should verify this observation., L’objectif de ce travail est de quantifier les positions articulatoires théoriques lors de la production de la parole spontanée dans trois langues. Chaque langue dispose d’un inventaire phonologique spécifique. Mais ces spécificités ne sont pas représentées telles quelles en parole spontanée dans laquelle les phonèmes n’ont pas tous la même fréquence d’apparition. Nous avons comparé trois langues (polonais, français et anglais américain) présentant des différences notables dans leur inventaire phonologique. Des positions articulatoires ont été calculées sur la base des fréquences des phonèmes dans chacune des trois langues dans des corpus de parole spontanée. Etonnamment, les résultats tendent à montrer que les positions articulatoires majoritaires sont très similaires dans les trois langues. Il semble ainsi que l’usage de la parole spontanée, et donc la distribution des phonèmes dans les langues, gomme les disparités des systèmes phonologiques pour tendre vers une mobilisation articulatoire commune. Des investigations plus approfondies devront vérifier cette observation.
- Published
- 2020
6. Estudio de la focalización prosódica en el habla de Maracay.
- Author
-
DELGADO YUSTE, DAMELYS CAROLINA and INCIARTE ASUAJE, YURBITAY DEL VALLE
- Subjects
- *
INTONATION (Phonetics) , *ACOUSTIC localization , *STRESS (Linguistics) , *PERSPECTIVE (Linguistics) - Abstract
This research article is a study on intonation, concentrating on the analysis of tonal accents in the focalization of statements from the sociolinguistic corpus of the city of Maracay. The sample includes 162 statements, 135 containing new information and 27 containing existing information. Currently, the former have been processed, which represent 83-3% of the total sample. In this percentage, three types of tonal accents were identified: H*, L+H* and H+L*. H* was the predominant accent; present in 133 statements. Based on those results shows that high mono-tonal accent (H*) is a marker of focus in new information. Pragmatically, this means that, for the speaker, the most relevant information is found in what is introduced in the locutionary act for the first time. [ABSTRACT FROM AUTHOR]
- Published
- 2013
- Full Text
- View/download PDF
7. Intonation du français: parole spontanée et parole lue
- Subjects
intonation ,syntaxe ,macrosyntaxe ,structure prosodique ,parole spontanée ,Language. Linguistic theory. Comparative grammar ,P101-410 - Abstract
On présente les caractéristiques principales d'une théorie phonosyntaxique de l'intonation du français. Cette théorie, élaborée à partir de données de phrases lues, est ensuite étendue à la description de l'intonation de la parole spontanée décrite selon une approche macrosyntaxique. L'énoncé apparaît alors comme une séquence de macrosegments (préfixes, noyau, incises, postfixes et suffixes) syntaxiquement bien formés mais liés entre eux par la structure prosodique dont les marques fonctionnent selon les mêmes règles que pour les énoncés lus.
- Published
- 2006
8. Définition du « mot » et de la « phrase »
- Author
-
Alan H. Gardiner
- Subjects
organon ,parole spontanée ,apostrophe ,théorie contextuelle du sens ,logique et grammaire ,spontaneous speech ,mot ,what is spoken of ,auditeur ,intentionality ,contextual theory of meaning ,breath group ,grammaire thétique ,deixis ,theory of the phoneme ,Philosophy ,groupe de souffle ,logic and grammar ,intentionnalité ,romique large ,prosodic markers ,manipulation des données ,relations of dependency ,Phrase ,parce que and puisque ,parce que et puisque ,vocative ,micro-/macro syntaxe ,speaker ,vocatif ,Pronominal Approach ,the organon ,contraste de pente ,locuteur ,sentence ,Approche Pronominale ,broad romic ,ce dont il est parlé ,word ,manipulation of corpus ,théorie du phonème ,phrase ,hearer ,thetical grammar ,Intentionality ,marqueur prosodique ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection ,Humanities - Abstract
Les définitions de la phrase proposées par Hermann Paul et Wilhelm Wundt ignorent le fait que nous savons tous faire la différence entre un mot, un groupe de mots et une phrase. Après avoir rappelé que les quatre constituants obligés de tout acte de langage dans un contexte social sont : (i) le locuteur, (ii) l’auditeur, (iii) ce dont il est parlé, (iv) les signes verbaux utilisés, alias les « mots », le mot est défini comme « un signe-son articulé dont la fonction est de dénoter quelque chose dont il est parlé », et la phrase « un signe-son articulé dont la fonction est de représenter l’intentionnalité du locuteur face à l’auditeur », et le sens de la phrase, « ce que le locuteur a l’intention de faire comprendre à l’auditeur ». Le compte rendu d’un article de Karl Bühler (1918) offre la première présentation en anglais de l’organon. The definitions of the sentence proposed by Hermann Paul and William Wundt fail to take into account that we all know instinctively the difference between a word and a sentence. It must not be forgotten that the 4 obligatory constituents of all speech acts in a social context are (i) the speaker, (ii) the hearer , (iii) the thing spoken of (iv) the verbal symbols or words used. The word is then defined as “an articulate sound-symbol in its aspect of denoting something which is spoken about” and a sentence “an articulate sound-symbol in its aspect of embodying some volitional attitude of the speaker towards the listener”. In a postscript Karl Bühler’s organon is presented as a viable model.
- Published
- 2016
9. Micro- et macro-syntaxe : sur deux principes de catégorisation cognitive en langue orale spontanée
- Author
-
Alexander Haselow
- Subjects
organon ,parole spontanée ,apostrophe ,grammaire ,théorie contextuelle du sens ,logique et grammaire ,Pharmaceutical Science ,spontaneous speech ,what is spoken of ,intentionality ,contextual theory of meaning ,breath group ,Pharmacology (medical) ,syntax ,final field ,grammaire thétique ,deixis ,theory of the phoneme ,Philosophy ,05 social sciences ,06 humanities and the arts ,groupe de souffle ,logic and grammar ,intentionnalité ,romique large ,prosodic markers ,0602 languages and literature ,manipulation des données ,grammar ,linéarité du discours ,linearity of discourse ,relations of dependency ,champ final ,syntaxe ,parce que and puisque ,projection ,parce que et puisque ,vocative ,micro-/macro syntaxe ,vocatif ,050105 experimental psychology ,Pronominal Approach ,contraste de pente ,Approche Pronominale ,broad romic ,0501 psychology and cognitive sciences ,ce dont il est parlé ,manipulation of corpus ,Spontaneous speech ,060201 languages & linguistics ,théorie du phonème ,Syntax ,Complementary and alternative medicine ,thetical grammar ,marqueur prosodique ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection ,Humanities - Abstract
Cet article oppose deux façons d’approcher la grammaire, celle de la « micro-grammaire » et celle de la « macro-grammaire ». La micro-grammaire renvoie à des principes combinatoires fondés sur la hiérarchisation, l’insertion et les relations de dépendance morphosyntaxiques. La macro-grammaire renvoie à des principes combinatoires fondés sur des activités cognitives de prévoyance (par ex. l’économie du temps opératif) et renvoie à des fonctions qui ont trait au système de communication en général, comme la structuration discursive et l’interaction entre locuteur et allocutaire. La macrosyntaxe est au service de la structuration du langage, c’est-à-dire qu’elle rend compte de la structure au-delà d’une unité morphosyntaxique cohérente This article discusses a dualistic approach to grammar, distinguishing two domains labelled “microgrammar” and “macrogrammar”. Microgrammar refers to combinatory principles based on hierarchization, embedding and morphosyntactic dependency relations and thus to functions relevant for the construction of morphosyntactically integrated units expressing propositional content. Macrogrammar refers to combinatory principles based on cognitive speech planning activities (e.g. gaining planning time) and refers to functions relevant on the communicative system in general, such as discourse structure and speaker-listener interaction. Macrogrammar serves the macro-structuring of language, that is, it establishes structure beyond a single morphosyntactically coherent unit
- Published
- 2016
10. Caractériser la distinctivité du système vocalique des locuteurs
- Author
-
Christine Meunier, Alain Ghio, Laboratoire Parole et Langage (LPL), and Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
parole spontanée ,Philosophy ,distinctiveness ,spontaneous speech ,vowels ,parole ,distinctivité ,voyelles ,Speech ,acoustique ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,acoustics ,Humanities ,Phonetique ,Spontaneous speech - Abstract
International audience; The characterization of the distinctivity in speakers' vowel production. The objective of our study is to characterize the French speakers thanks to a cue of distinctiveness in the production of vowel in spontaneous speech. Distinctiveness is most often derived from the dispersion of vowel space. Previous work (Huet & Harmegnies, 2000) has proposed a more dynamic cue taking into account the relationship between the dispersion of the whole vowels of the system and the average dispersion of each vowel in its category. To go on with this view we propose a cue of distinctiveness (ID) in order to provide speakers' profiles. Our first results confirm differences between speakers. The cue itself is not always related to the overall dispersion of the system but highlights a more precise interaction between the vowel and the system. Following this first step, we plan to evaluate this ID according to different factors (language, type of speech, pathological populations).; L'objectif de notre étude est de caractériser les locuteurs du français grâce à un indice de distinctivité lors de la production de voyelles en parole spontanée. Cette distinctivité est le plus souvent établie selon la dispersion de l'espace vocalique. Des travaux précédents (Huet & Harmegnies, 2000) ont proposé un indice plus dynamique prenant en compte le rapport entre la dispersion de l'ensemble des voyelles du système et la dispersion moyenne de chaque voyelle dans sa catégorie. Nous nous inspirons de ces travaux pour proposer un indice de distinctivité (ID) en vue d'établir des profils de locuteurs. Nos premiers résultats confirment des différences interlocuteurs. L'indice lui-même n'est pas toujours en lien avec la dispersion globale du système et permet de mettre en évidence une interaction plus fine entre voyelle et système. Suite à cette première étape nous envisageons d'évaluer cet ID selon différents facteurs (langue, type de parole, populations pathologiques).
- Published
- 2018
11. Filled pause, laughter and noise in spontaneous speech: application to forced-alignment
- Author
-
Brigitte Bigi, Christine Meunier, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), ANR-08-BLAN-0239,OTIM,Outils de traitement d'information multimodale(2008), Meunier, Christine, and Blanc - Outils de traitement d'information multimodale - - OTIM2008 - ANR-08-BLAN-0239 - BLANC - VALID
- Subjects
noise ,parole spontanée ,forced-alignment ,alignement forcé ,spontaneous speech ,euh ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,bruit ,[SHS]Humanities and Social Sciences ,rire ,laughter ,[SHS] Humanities and Social Sciences ,filled pause ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
Contrariwise to controlled speech, for which speaker's intention are very limited, spontaneous speech refers to a freer but also richer activity that is characteristic of language interaction.,. Many phenomena appear like hesitations, truncated words, phonetic reductions, etc. In this paper, we first propose a frequency survey of 3 paralinguistic events ("uh", laughter, noise), in different spontaneous corpora: political debate, interviews, task-oriented dialog, informal dialog with instructions and informal dialog without instructions. Even if these events are frequently produced by the speakers, we observe significant differences according to the corpora. For illustrative purposes, we finally show that the results of forced-alignment are significantly improved when the acoustic model of the system includes these events., Contrairement à la parole contrôlée, dans laquelle les intentions du locuteur sont très restreintes, la parole spontanée fait référence à une activité plus libre mais aussi plus riche de facteurs caractéristiques de l'interaction langagière. A ce titre, de nombreux phénomènes apparaissent comme les hésitations, les mots tronqués, les réductions phonétiques, etc. Nous proposons dans un premier temps un recensement de 3 événements paralinguistiques ("euh", rire, bruit), dans différents corpus spontanés : débat politique, narration, dialogue orienté tâche, dialogue informel avec consigne et dialogue informel sans consigne. Bien que ces événements soient fréquemment produits par les locuteurs, nous observons des différences significatives selon les corpus. A titre applicatif, nous montrons que les résultats de l'alignement forcé peuvent être nettement améliorés lorsque le système dispose d'un modèle acoustique qui inclut ces événements.
- Published
- 2018
12. The characterization of the distinctivity in speakers’ vowel production
- Author
-
Meunier, Christine, Ghio, Alain, Laboratoire Parole et Langage (LPL), and Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
vowels ,parole spontanée ,parole ,distinctivité ,voyelles ,Speech ,acoustique ,distinctiveness ,spontaneous speech ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,acoustics ,Phonetique - Abstract
International audience; The characterization of the distinctivity in speakers' vowel production. The objective of our study is to characterize the French speakers thanks to a cue of distinctiveness in the production of vowel in spontaneous speech. Distinctiveness is most often derived from the dispersion of vowel space. Previous work (Huet & Harmegnies, 2000) has proposed a more dynamic cue taking into account the relationship between the dispersion of the whole vowels of the system and the average dispersion of each vowel in its category. To go on with this view we propose a cue of distinctiveness (ID) in order to provide speakers' profiles. Our first results confirm differences between speakers. The cue itself is not always related to the overall dispersion of the system but highlights a more precise interaction between the vowel and the system. Following this first step, we plan to evaluate this ID according to different factors (language, type of speech, pathological populations).; L'objectif de notre étude est de caractériser les locuteurs du français grâce à un indice de distinctivité lors de la production de voyelles en parole spontanée. Cette distinctivité est le plus souvent établie selon la dispersion de l'espace vocalique. Des travaux précédents (Huet & Harmegnies, 2000) ont proposé un indice plus dynamique prenant en compte le rapport entre la dispersion de l'ensemble des voyelles du système et la dispersion moyenne de chaque voyelle dans sa catégorie. Nous nous inspirons de ces travaux pour proposer un indice de distinctivité (ID) en vue d'établir des profils de locuteurs. Nos premiers résultats confirment des différences interlocuteurs. L'indice lui-même n'est pas toujours en lien avec la dispersion globale du système et permet de mettre en évidence une interaction plus fine entre voyelle et système. Suite à cette première étape nous envisageons d'évaluer cet ID selon différents facteurs (langue, type de parole, populations pathologiques).
- Published
- 2018
13. Elément de macro-syntaxe : comment catégoriser une classe insaississable ?
- Author
-
Gunther Kaltenböck
- Subjects
organon ,postfixe ,parole spontanée ,apostrophe ,théorie contextuelle du sens ,micro-syntaxe ,logique et grammaire ,Pharmaceutical Science ,grammaire fonctionnelle ,spontaneous speech ,what is spoken of ,intentionality ,contextual theory of meaning ,macro-syntaxe ,breath group ,Pharmacology (medical) ,grammaire thétique ,deixis ,theory of the phoneme ,06 humanities and the arts ,groupe de souffle ,logic and grammar ,intentionnalité ,0602 languages and literature ,romique large ,prosodic markers ,manipulation des données ,préfixe ,relations of dependency ,parce que and puisque ,parce que et puisque ,vocative ,micro-/macro syntaxe ,vocatif ,Pronominal Approach ,noyau ,contraste de pente ,grammaire de discours ,constituants extra-prédicatifs ,Approche Pronominale ,broad romic ,ce dont il est parlé ,manipulation of corpus ,060201 languages & linguistics ,théorie du phonème ,Complementary and alternative medicine ,thetical grammar ,marqueur prosodique ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection - Abstract
Cet article part du principe que la plupart des modèles d'analyse linguistique s'intéressent, soit à la structure du mot, soit à celle de la phrase, autrement dit, à la micro-syntaxe. Elles mettent ainsi entre parenthèses tous les éléments qui ne sont pas directement régis par le noyau prédicatif. Cet article présente une vue synthétique des autres approches – celles qui sont plutôt préoccupées par les constituants extra-prédicatifs. Ce modèle « macro-syntaxique » met en valeur le rôle crucial joué par les constituants périphériques dans la structuration du discours. Deux domaines sont ainsi opposés, celui de la grammaire de la phrase et celui de la grammaire « thétique » ; la structure interne de chacun de ces domaines est régie par des règles syntactiques, prosodiques et sémantiques distinctes The author of this article asserts that most models of linguistic analysis tend to focus on sentence and word structure (a domain he identifies as microsyntax), to the detriment of other aspects that are generally regarded as external to syntactic structure (defined here as macrosyntax). This paper provides a brief overview of the different approaches to such extra-clausal elements and argues that they play an important role in the organization of linguistic discourse, which can be seen as operating in at least two different domains, viz. sentence grammar and “thetical” grammar. Each of the two domains have their own internal structure, and the two tend to be separated from one another by syntactic , prosodic, and semantic traits macro-syntax, microsyntax, kernal, prefix, postfix, extra-predicative constituents, functional grammar, discourse grammar, thetical grammar
- Published
- 2017
14. Analyse macroprosodique et macrosyntaxique d’un exemple en français
- Author
-
Philippe Martin
- Subjects
organon ,parole spontanée ,apostrophe ,parce que and puisque ,théorie contextuelle du sens ,logique et grammaire ,Pharmaceutical Science ,parce que et puisque ,vocative ,spontaneous speech ,micro-/macro syntaxe ,vocatif ,what is spoken of ,intentionality ,contextual theory of meaning ,Pronominal Approach ,intonation ,contraste de pente ,breath group ,Pharmacology (medical) ,Approche Pronominale ,broad romic ,contraste de pentes ,ce dont il est parlé ,manipulation of corpus ,grammaire thétique ,deixis ,melodic contours ,theory of the phoneme ,théorie du phonème ,Philosophy ,groupe de souffle ,contours mélodiques ,logic and grammar ,Complementary and alternative medicine ,intentionnalité ,thetical grammar ,romique large ,marqueur prosodique ,prosodic markers ,incidence ,manipulation des données ,micro-/macro syntax ,marqueurs prosodiques ,contrasting slopes ,relation de rection ,Humanities ,relations de dépendance ,relations of dependency - Abstract
Les principales articulations de l’organisation syntaxique de la phrase sont structurées par l’intonation. Un modèle français fondé sur les relations de dépendance existant entre les groupes accentuels s’avère être la méthode d’analyse la plus performante. Ces relations de dépendance sont indiquées par des marqueurs prosodiques instanciés par les contours mélodiques alignés sur les syllabes toniques des groupes accentuels, opérant selon le principe de l’inversion des pentes mélodiques. Une pente descendante indique une relation de dépendance à l’égard de la pente montante qui suit, et inversement, une pente montante signale une relation de dépendance à l’égard de la pente descendante qui fait suite. Ces relations de dépendance déterminent la disposition des groupes accentuels dans le but de former une structure prosodique selon la linéarité du discours en temps réel. Cet instrument d’analyse compense les déficiences de la macro-syntaxe. The main articulations of the syntactic organization of the sentence are structured by intonation. A French model based on dependency relations existing between stress groups (aka accent phrases), has proved to be the most efficient method of analysis. The relations of dependency are indicated by prosodic markers instantiated by melodic contours aligned on the accented syllables of stress groups, which operate according to a principle of inversion of melodic slope. A falling contour indicates a dependency relation to a following rising contour and a rising contour indicates a dependency relation to a following falling contour. These relations of dependency determine the successive groupings of the accent clusters so as to form progressively a prosodic structure as the utterance unfolds in real time. This analytical tool compensates for the shortcomings of macro-syntax.
- Published
- 2017
15. Les Argonautes de la linguistique, de Michel Bréal à Gustave Guillaume
- Author
-
Dairine O’Kelly
- Subjects
Subjectivity ,John Henderson Gardiner ,organon ,parole spontanée ,apostrophe ,grammaire ,théorie contextuelle du sens ,logique et grammaire ,subjectivité ,Karl Bühler ,Bron Malinowski ,spontaneous speech ,mot ,what is spoken of ,intentionality ,contextual theory of meaning ,prédication ,breath group ,subjectivity ,Bronislaw Malinowski ,parties du discours ,grammaire thétique ,deixis ,groupe de soufflé ,theory of the phoneme ,Philosophy ,predication ,logique ,groupe de souffle ,logic and grammar ,intentionnalité ,romique large ,prosodic markers ,manipulation des données ,grammar ,relations of dependency ,parce que and puisque ,langue parlée Henry Sweet ,parce que et puisque ,vocative ,micro-/macro syntaxe ,vocatif ,Pronominal Approach ,spoken language. Henry Sweet ,contraste de pente ,Approche Pronominale ,broad romic ,ce dont il est parlé ,word ,manipulation of corpus ,parts of speech ,logic ,théorie du phonème ,phrase ,Gustave Guillaume ,phonology ,thetical grammar ,Intentionality ,marqueur prosodique ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection ,Michel Bréal ,Humanities - Abstract
L’année 1875 est une année clef dans l’histoire de la linguistique : c’est l’année de la parution dans la prestigieuse “International Scientific Series” de The Life and Growth of Language (La vie du langage) de William Dwight Whitney, l’année de l’élection de Michel Bréal à l’Académie des Inscriptions et Belles-Lettres et l’année où Henry Sweet présente l’embryon du structuralisme aux membres de la Philological Society de Londres. La version écrite de cet exposé “Word, Logic and Grammar” paraît dans les Transactions of the Philological Society de 1875-1876. L’année qui suit la publication de cette monographie paraissent deux publications également importantes : dans le Bulletin of Kazan University, le rapport sur les travaux de Jan Baudouin de Courtenay traitant des liens entre les sons et le sens et le Handbook of Phonetics de Sweet. L’objectif du présent article est, non seulement de montrer que les bases de la linguistique du xxe siècle étaient posées une quarantaine d’années avant la parution du Cours de linguistique générale de Saussure (1916), mais aussi de rendre hommage aux grands linguistes novateurs qu’ont été Michel Bréal, Karl Bühler, Alan Henderson Gardiner, Bronislaw Malinowski et Gustave Guillaume. The year 1875 was a key year in the history of linguistics – the year when the prestigious International Scientific Series published Whitney's Life and Growth of Language, the year when Michel Bréal entered the “Académie des Inscriptions et Belles-Lettres” and the year when, in a paper read at the London Philological Society, Henry Sweet presented the embryonic version of structuralism. The written version of this lecture can be consulted in the Transactions of the Philological Society of 1875-76. The year following the publication of this monograph, two equally important works were published : the report in the Bulletin of Kazan University of Jan Baudouin de Courtenay's research on the link between sound and sense and Sweet's Handbook of Phonetics. The aim of this article is not only to show that the foundation stones of modern linguistics were laid some forty years before the publication of Saussure's Cours de linguistique générale, but to render homage to some of the most remarkable pioneers of modern linguistics.
- Published
- 2017
16. Une application de la macro-syntaxe…
- Author
-
Christophe Bruno
- Subjects
organon ,parole spontanée ,apostrophe ,parce que and puisque ,théorie contextuelle du sens ,logique et grammaire ,Pharmaceutical Science ,parce que et puisque ,vocative ,corpus ,spontaneous speech ,micro-/macro syntaxe ,vocatif ,prosodie ,what is spoken of ,intentionality ,contextual theory of meaning ,Pronominal Approach ,macro-syntaxe ,contraste de pente ,prédication ,breath group ,Pharmacology (medical) ,Approche Pronominale ,broad romic ,ce dont il est parlé ,manipulation of corpus ,deixis ,grammaire thétique ,060201 languages & linguistics ,theory of the phoneme ,théorie du phonème ,06 humanities and the arts ,groupe de souffle ,logic and grammar ,Complementary and alternative medicine ,intentionnalité ,thetical grammar ,0602 languages and literature ,romique large ,marqueur prosodique ,prosodic markers ,manipulation des données ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection ,relations of dependency - Abstract
Alors que les approches macro-syntaxiques se multiplient, affirmant toujours plus de typologies distinctes et toujours plus de dissensions, les travaux qui se réclament de telle ou telle "macro-syntaxe" sont finalement peu nombreux. Cette étude présente un cas de macro-syntaxe appliquée à un corpus d'enregistrements personnels, et vise à résoudre un problème encore posé par la grammaire : la distinction de l'apostrophe référentielle (madame, monsieur, ma chérie, maman, mec, gros, [prénom de l'allocutaire], etc.) de l'apostrophe prédicative (menteur, traître, salaud, enfoiré, espèce de truc, machin de mes deux, etc.). Cette étude menée, elle permettra notamment de mettre en évidence les rapports entre prosodie et macro-syntaxe. Despite the growing interest in discourse analysis (macro-syntactics) and the proliferation of schools, terminologies and conflicts, the field work illustrating each separate school is surprisingly rare. Based on a personal recorded corpus of spontaneous speech, this study attempts to use the macro-syntactc model to solve a traditional grammatical problem: the difference between what is defined as the "referential apostrophy" (Sir, Madame, darling, Mummy, fatty, Sarah etc.) and the predicative apostrophy (liar, traitor, bastard, arsehole, wanker). The object of this study is to highlight the link between intonation and Macro-syntax.
- Published
- 2017
17. Evaluation of deviant zones in pathological speech : contribution of the automatic speech processing against the Human expertise
- Author
-
Laaridh, Imed, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Université d'Avignon, Jean-François Bonastre, Corinne Fredouille, and STAR, ABES
- Subjects
Speech disorders ,Dysarthrie ,Traitement Automatique de la Parole ,Dysarthria ,Parole spontanée ,Automatic speech processing ,Spontaneous speech ,Anomaly detection ,Alignement automatique de la parole ,Parole lue ,Read speech ,[INFO.EIAH] Computer Science [cs]/Technology for Human Learning ,Automatic phone alignment ,Détection d’anomalies ,[INFO.EIAH]Computer Science [cs]/Technology for Human Learning ,Troubles de parole - Abstract
Dysarthria is a speech disorder resulting from neurological impairments of the speechmotor control. It can be caused by different pathologies (Parkinson’s disease, AmyotrophicLateral Sclerosis - ALS, etc.) and affects different levels of speech production (respiratory,laryngeal and supra-laryngeal). The majority of research work dedicated tothe study of dysarthric speech relies on perceptual analyses. The most known study, byF. L. Darley in 1969, led to the organization and the classification of dysarthria within 6classes (completed with 2 additional classes in 2005).Nowadays, perceptual evaluation is still the most used method in clinical practicefor the diagnosis and the therapeutic monitoring of patients. However, this method isknown to be subjective, non reproductive and time-consuming. These limitations makeit inadequate for the evaluation of large corpora (in case of phonetic studies) or forthe follow-up of the progression of the condition of dysarthric patients. In order toovercome these limitations, professionals have been expressing their need of objectivemethods for the evaluation of disordered speech and automatic speech processing hasbeen early seen as a potential solution.The work presented in this document falls within this framework and studies thecontributions that these tools can have in the evaluation of dysarthric, and more generallypathological speech.In this work, an automatic approach for the detection of abnormal phones in dysarthricspeech is proposed and its behavior is analyzed on different speech corpora containingdifferent pathologies, dysarthric classes, dysarthria severity levels and speechstyles (read and spontaneous speech). Unlike the majority of the automatic methodsproposed in the literature that provide a global evaluation of the speech on generalitems such as dysarthria severity, intelligibility, etc., our proposed method focuses onthe phone level aiming to achieve a better characterization of dysarthria effects and toprovide a precise and useful feedback to the potential users (clinicians, phoneticians,patients). This method consists on two essential phases : (1) an automatic phone alignmentof the speech (2) an automatic classification of the resulting phones in two classes :normal and abnormal phones.When compared to an annotation of phone anomalies provided by a human expertconsidered to be the ”gold standard“, the approach showed encouraging results andproved to be able to detect anomalies on the phone level. The approach was also able to capture the evolution of the severity of the dysarthria suggesting a potential relevanceand use in the longitudinal follow-up of dysarthric patients or for the automatic predictionof their intelligibility or the severity of their dysarthria.Also, the automatic phone alignment precision was found to be dependent on the severity,the pathology, the class of the dysarthria and the phonetic category of each phone.Furthermore, the speech style was found to have an interesting effect on the behaviorsof both automatic phone alignment and anomaly detection.Finally, the results of an evaluation campaign conducted by a jury of experts on theannotations provided by the proposed approach are presented and discussed in orderto draw a panel of the strengths and limitations of the system., La dysarthrie est un trouble de la parole affectant la réalisation motrice de la parole causée par des lésions du système nerveux central ou périphérique. Elle peut être liée à différentes pathologies : la maladie de Parkinson, la Sclérose Latérale Amyotrophique(SLA), un Accident Vasculaire Cérébral (AVC), etc. Plusieurs travaux de recherche ont porté sur la caractérisation des altérations liées à chaque pathologie afin de les regrouper dans des classes de dysarthrie. La classification la plus répandue est celle établie parF. L. Darley comportant 6 classes en 1969, (complétée par deux classes supplémentaires en 2005)Actuellement, l’évaluation perceptive (à l’oreille) reste le standard utilisé dans lapratique clinique pour le diagnostique et le suivi thérapeutique des patients. Cette approcheest néanmoins reconnue comme étant subjective, non reproductible et coûteuseen temps. Ces limites la rendent inadaptée à l’évaluation de larges corpus (dans le cadred’études phonétiques par exemple) ou pour le suivi longitudinal de l’évolution des patientsdysarthriques.Face à ces limites, les professionnels expriment constamment leur besoin de méthodesobjectives d’évaluation de la parole dysarthrique. Les outils de Traitement Automatiquede la Parole (TAP) ont été rapidement considérés comme des solutions potentiellespour répondre à cette demande.Le travail présenté dans ce rapport s’inscrit dans ce cadre et étudie l’apport quepeuvent avoir ces outils dans l’évaluation de la parole dysarthrique, et plus généralementpathologique.Dans ce travail, une approche pour la détection automatique des phonèmes anormauxdans la parole dysarthrique est proposée et son comportement est analysé surdifférents corpus comportant différentes pathologies, classes dysarthriques, niveaux desévérité de la maladie et styles de parole. Contrairement à la majorité des approchesproposées dans la littérature permettant des évaluations de la qualité globale de la parole(évaluation de la sévérité, intelligibilité, etc.), l’approche proposée se focalise surle niveau phonème dans le but d’atteindre une meilleure caractérisation de la dysarthrieet de permettre un feed-back plus précis et utile pour l’utilisateur (clinicien, phonéticien,patient). L’approche s’articule autours de deux phases essentielles : (1) unepremière phase d’alignement automatique de la parole au niveau phonème (2) uneclassification de ces phonèmes en deux classes : phonèmes normaux et anormaux. L’évaluation de l’annotation réalisée par le système par rapport à une évaluationperceptive d’un expert humain considérée comme ”référence“ montre des résultats trèsencourageants et confirme la capacité de l’approche à detecter les anomalies au niveauphonème. L’approche s’est aussi révélée capable de capter l’évolution de la sévéritéde la dysarthrie suggérant une potentielle application lors du suivi longitudinal despatients ou pour la prédiction automatique de la sévérité de leur dysarthrie.Aussi, l’analyse du comportement de l’outil d’alignement automatique de la paroleface à la parole dysarthrique a révélé des comportements dépendants des pathologieset des classes dysarthriques ainsi que des différences entre les catégories phonétiques.De plus, un effet important du style de parole (parole lue et spontanée) a été constatésur les comportements de l’outil d’alignement de la parole et de l’approche de détectionautomatique d’anomalies.Finalement, les résultats d’une campagne d’évaluation de l’approche de détectiond’anomalies par un jury d’experts sont présentés et discutés permettant une mise enavant des points forts et des limites du système.
- Published
- 2017
18. Évaluation de la parole dysarthrique : Apport du traitement automatique de la parole face à l’expertise humaine
- Author
-
Laaridh, Imed, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Université d'Avignon, Jean-François Bonastre, Corinne Fredouille, and STAR, ABES
- Subjects
Speech disorders ,Dysarthrie ,Traitement Automatique de la Parole ,Dysarthria ,Parole spontanée ,Automatic speech processing ,Spontaneous speech ,Anomaly detection ,Alignement automatique de la parole ,Parole lue ,Read speech ,Automatic phone alignment ,[INFO.EIAH] Computer Science [cs]/Technology for Human Learning ,Détection d’anomalies ,[INFO.EIAH]Computer Science [cs]/Technology for Human Learning ,Troubles de parole - Abstract
Dysarthria is a speech disorder resulting from neurological impairments of the speechmotor control. It can be caused by different pathologies (Parkinson’s disease, AmyotrophicLateral Sclerosis - ALS, etc.) and affects different levels of speech production (respiratory,laryngeal and supra-laryngeal). The majority of research work dedicated tothe study of dysarthric speech relies on perceptual analyses. The most known study, byF. L. Darley in 1969, led to the organization and the classification of dysarthria within 6classes (completed with 2 additional classes in 2005).Nowadays, perceptual evaluation is still the most used method in clinical practicefor the diagnosis and the therapeutic monitoring of patients. However, this method isknown to be subjective, non reproductive and time-consuming. These limitations makeit inadequate for the evaluation of large corpora (in case of phonetic studies) or forthe follow-up of the progression of the condition of dysarthric patients. In order toovercome these limitations, professionals have been expressing their need of objectivemethods for the evaluation of disordered speech and automatic speech processing hasbeen early seen as a potential solution.The work presented in this document falls within this framework and studies thecontributions that these tools can have in the evaluation of dysarthric, and more generallypathological speech.In this work, an automatic approach for the detection of abnormal phones in dysarthricspeech is proposed and its behavior is analyzed on different speech corpora containingdifferent pathologies, dysarthric classes, dysarthria severity levels and speechstyles (read and spontaneous speech). Unlike the majority of the automatic methodsproposed in the literature that provide a global evaluation of the speech on generalitems such as dysarthria severity, intelligibility, etc., our proposed method focuses onthe phone level aiming to achieve a better characterization of dysarthria effects and toprovide a precise and useful feedback to the potential users (clinicians, phoneticians,patients). This method consists on two essential phases : (1) an automatic phone alignmentof the speech (2) an automatic classification of the resulting phones in two classes :normal and abnormal phones.When compared to an annotation of phone anomalies provided by a human expertconsidered to be the ”gold standard“, the approach showed encouraging results andproved to be able to detect anomalies on the phone level. The approach was also able to capture the evolution of the severity of the dysarthria suggesting a potential relevanceand use in the longitudinal follow-up of dysarthric patients or for the automatic predictionof their intelligibility or the severity of their dysarthria.Also, the automatic phone alignment precision was found to be dependent on the severity,the pathology, the class of the dysarthria and the phonetic category of each phone.Furthermore, the speech style was found to have an interesting effect on the behaviorsof both automatic phone alignment and anomaly detection.Finally, the results of an evaluation campaign conducted by a jury of experts on theannotations provided by the proposed approach are presented and discussed in orderto draw a panel of the strengths and limitations of the system., La dysarthrie est un trouble de la parole affectant la réalisation motrice de la parole causée par des lésions du système nerveux central ou périphérique. Elle peut être liée à différentes pathologies : la maladie de Parkinson, la Sclérose Latérale Amyotrophique(SLA), un Accident Vasculaire Cérébral (AVC), etc. Plusieurs travaux de recherche ont porté sur la caractérisation des altérations liées à chaque pathologie afin de les regrouper dans des classes de dysarthrie. La classification la plus répandue est celle établie parF. L. Darley comportant 6 classes en 1969, (complétée par deux classes supplémentaires en 2005)Actuellement, l’évaluation perceptive (à l’oreille) reste le standard utilisé dans lapratique clinique pour le diagnostique et le suivi thérapeutique des patients. Cette approcheest néanmoins reconnue comme étant subjective, non reproductible et coûteuseen temps. Ces limites la rendent inadaptée à l’évaluation de larges corpus (dans le cadred’études phonétiques par exemple) ou pour le suivi longitudinal de l’évolution des patientsdysarthriques.Face à ces limites, les professionnels expriment constamment leur besoin de méthodesobjectives d’évaluation de la parole dysarthrique. Les outils de Traitement Automatiquede la Parole (TAP) ont été rapidement considérés comme des solutions potentiellespour répondre à cette demande.Le travail présenté dans ce rapport s’inscrit dans ce cadre et étudie l’apport quepeuvent avoir ces outils dans l’évaluation de la parole dysarthrique, et plus généralementpathologique.Dans ce travail, une approche pour la détection automatique des phonèmes anormauxdans la parole dysarthrique est proposée et son comportement est analysé surdifférents corpus comportant différentes pathologies, classes dysarthriques, niveaux desévérité de la maladie et styles de parole. Contrairement à la majorité des approchesproposées dans la littérature permettant des évaluations de la qualité globale de la parole(évaluation de la sévérité, intelligibilité, etc.), l’approche proposée se focalise surle niveau phonème dans le but d’atteindre une meilleure caractérisation de la dysarthrieet de permettre un feed-back plus précis et utile pour l’utilisateur (clinicien, phonéticien,patient). L’approche s’articule autours de deux phases essentielles : (1) unepremière phase d’alignement automatique de la parole au niveau phonème (2) uneclassification de ces phonèmes en deux classes : phonèmes normaux et anormaux. L’évaluation de l’annotation réalisée par le système par rapport à une évaluationperceptive d’un expert humain considérée comme ”référence“ montre des résultats trèsencourageants et confirme la capacité de l’approche à detecter les anomalies au niveauphonème. L’approche s’est aussi révélée capable de capter l’évolution de la sévéritéde la dysarthrie suggérant une potentielle application lors du suivi longitudinal despatients ou pour la prédiction automatique de la sévérité de leur dysarthrie.Aussi, l’analyse du comportement de l’outil d’alignement automatique de la paroleface à la parole dysarthrique a révélé des comportements dépendants des pathologieset des classes dysarthriques ainsi que des différences entre les catégories phonétiques.De plus, un effet important du style de parole (parole lue et spontanée) a été constatésur les comportements de l’outil d’alignement de la parole et de l’approche de détectionautomatique d’anomalies.Finalement, les résultats d’une campagne d’évaluation de l’approche de détectiond’anomalies par un jury d’experts sont présentés et discutés permettant une mise enavant des points forts et des limites du système.
- Published
- 2017
19. Répartition des phonèmes réduits en parole conversationnelle. Approche quantitative par extraction automatique
- Author
-
Christine Meunier, Brigitte Bigi, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Pouchoulin, Gilles
- Subjects
parole spontanée ,alignement ,fréquence lexicale ,lexical frequency ,Phonetic reduction ,alignment ,spontaneous speech ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Réduction phonétique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
International audience; Cette étude vise à mieux comprendre la répartition des réductions phonétiques présentes dans la production de parole. Nous avons sélectionné l'ensemble des phonèmes les plus courts (30ms) à partir de l'alignement d'un corpus de parole conversationnelle. Cette version contenant uniquement les phonèmes courts (V1) est comparée à la version contenant l'alignement de tous les phonèmes du corpus (V0). Les deux versions sont mises en relation avec l'annotation des mots et de leur catégorie syntaxique. Les résultats montrent que les liquides, les glissantes et les voyelles fermées sont plus représentées dans V1 que dans V0. Par ailleurs, la nature et la catégorie syntaxique des mots modulent la distribution des phonèmes en V1. Ainsi, la nature instable du /l/, ainsi que sa présence dans de très nombreux pronoms et déterminants, en fait le phonème le plus marqué par la réduction. Enfin, la fréquence des mots semble montrer des effets contradictoires.
- Published
- 2016
20. Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques
- Author
-
Qader, Raheel, Lecorvé, Gwénolé, Lolive, Damien, Sébillot, Pascale, Expressiveness in Human Centered Data/Media (EXPRESSION), Université de Bretagne Sud (UBS)-MEDIA ET INTERACTIONS (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Creating and exploiting explicit links between multimedia fragments (LinkMedia), Inria Rennes – Bretagne Atlantique, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-MEDIA ET INTERACTIONS (IRISA-D6), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), and Lecorvé, Gwénolé
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,Pronunciation a ,spontaneous spe ,parole spontanée ,speech synthesi ,Adaptation de la prononciation ,synthèse de la parole ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
This paper presents a new pronunciation adaptation method which adapts canonical pronunciationsto a spontaneous style. This is a key task in text-to-speech as those pronunciation variants bringexpressiveness to synthetic speech, thus enabling new potential applications. The strength of themethod is to solely rely on linguistic features and to consider a probabilistic machine learningframework, namely conditional random fields, to produce the adapted pronunciations. Features areselected in a first series of experiments, then combined in the backend experiments. Results on theBuckeye conversational English speech corpus show that adapted pronunciations significantly betterreflect spontaneous speech than canonical ones., Cet article présente une nouvelle méthode d'adaptation de la prononciation dont le but est de reproduire le style spontané. Il s'agit d'une tâche-clé en synthèse de la parole car elle permet d'apporter de l'expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications. La force de la méthode proposée est de ne s'appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels. Dans cet article, nous étudions tout d'abord la pertinence d'un ensemble d'informations pour l'adaptation, puis nous combinons les informations les plus pertinentes lors d'expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques. ABSTRACT Pronunciation adaptation for spontaneous speech synthesis using linguistic information. This paper presents a new pronunciation adaptation method which adapts canonical pronunciations to a spontaneous style. This is a key task in text-to-speech as those pronunciation variants bring expressiveness to synthetic speech, thus enabling new potential applications. The strength of the method is to solely rely on linguistic features and to consider a probabilistic machine learning framework, namely conditional random fields, to produce the adapted pronunciations. Features are selected in a first series of experiments, then combined in the backend experiments. Results on the Buckeye conversational English speech corpus show that adapted pronunciations significantly better reflect spontaneous speech than canonical ones. MOTS-CLÉS : Adaptation de la prononciation, parole spontanée, synthèse de la parole.
- Published
- 2016
21. Détection automatique d'anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée
- Author
-
Laaridh, Imed, Fredouille, Corinne, Meunier, Christine, Laboratoire Informatique d'Avignon (LIA), Avignon Université (AU)-Centre d'Enseignement et de Recherche en Informatique - CERI, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), ANR-12-BSH2-0003,TYPALOC,Variations normales et anormales de la parole: Typologie, Adaptation, Localisation(2012), ANR-16-CONV-0002,ILCB,ILCB: Institute of Language Communication and the Brain(2016), Pouchoulin, Gilles, BLANC - Variations normales et anormales de la parole: Typologie, Adaptation, Localisation - - TYPALOC2012 - ANR-12-BSH2-0003 - BLANC - VALID, and ILCB: Institute of Language Communication and the Brain - - ILCB2016 - ANR-16-CONV-0002 - CONV - VALID
- Subjects
Dysarthrie ,parole spontanée ,parole lue ,Dysarthria ,[SHS.INFO]Humanities and Social Sciences/Library and information sciences ,spontaneous speech ,read speech ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.INFO] Humanities and Social Sciences/Library and information sciences ,anomaly detection ,automatic speech processing ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,détection d'anomalie ,traitement automatique de la parole - Abstract
International audience; L'évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc. Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l'évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l'utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d'un système de détection automatique d'anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.
- Published
- 2016
22. Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus
- Author
-
Wu, Yaru, Adda-Decker, Martine, Fougeron, Cécile, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), ANR-11-IDEX-0005,USPC,Université Sorbonne Paris Cité(2011), Lo Bue, Gwénaëlle, and Université Sorbonne Paris Cité - - USPC2011 - ANR-11-IDEX-0005 - IDEX - VALID
- Subjects
pre-boundary context ,contexte pré-frontière ,schwa deletion ,Alignement forcé ,forced alignment ,Parole spontanée ,spontaneous speech ,large corpora ,grands corpus ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,chute du schwa ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics - Abstract
Role of lexical and post-lexical contexts in French schwa realisations : benefits of automatic processing of large corpora The role of context is known to affect the realization/deletion of schwa in French. Two large corpora of public journalistic speech (ETAPE) and casual speech (NCCFr), in which schwa realization is defined via automatic forced alignment, are used to examin the contribution of context both within word (lexical) and across word boundaries (post-lexical). Our results highlight the role of the pre-boundary context in the observed schwa deletion rates. If the preceding word ends with a consonant, predictions follow the 3 consonants rule and sonority principles to explain the differences observed in schwa deletion rates. MOTS-CLÉS : chute de schwa, grands corpus, parole spontanée, contexte pré-frontière, alignement forcé ., Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d'un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l'importance du contexte pré-frontière dans l'explication de la chute du schwa dans la première syllabe d'un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.
- Published
- 2016
23. La variation de /s/ en liason des mots de l'Espagnol Caleño: un regard sociolinguistique
- Author
-
Ramírez Espinosa, Alexánder and Almira Vázquez, Alina
- Subjects
Caleño Spanish ,parole spontanée ,sociolingüística ,variation phonétique ,spontaneous speech ,espagnol caleño ,phonetic variation ,juntura de palabra ,phonology ,fonología ,español caleño ,word juncture ,variación fonética ,phonologie ,sociolinguistique ,habla espontánea ,liaison des mots ,sociolinguistics - Abstract
La pronunciación glotal del fonema fricativo alveolar sordo /s/ en posición de ataque silábico es un rasgo de identidad del español hablado en Cali, Colombia, según lo indica la tradición oral de los hablantes de esa variante (Ramírez & Almira, 2011). Esta manera de pronunciar ha permeado la variante culta, y por lo tanto hace parte de las normas de uso de la comunidad de habla. Para establecer las reglas fonológicas que determinan la variación de /s/, se llevó una investigación con 10427 segmentos en los que aparece /s/ en juntura de palabra en situación de habla espontánea. Este artículo busca difundir los resultados de tal investigación /s/ variation in word juncture in Caleño Spanish: a sociolinguistic insight The glottal pronunciation of the syllable initial /s/ is an identitary characteristic of the Spanish spoken in Cali, Colombia, as claimed by the oral tradition of the speakers of this variant (Ramírez & Almira, 2011). This pronunciation has permeated the cultural variety, and therefore, it makes part of the speech community's set of norms. In order to establish the phonological rules that determine /s/ variation, a research study was conducted through the analysis of 10427 tokens, in which /s/ appears in word juncture in spontaneous speech. This article aims at reporting the findings of such a study La variation de /s/ en liason des mots de l'Espagnol Caleño : un regard sociolinguistique La prononciation glottale de la consonne fricative alvéolaire sourde /s/ en position d'attaque syllabique est un trait identitaire de l'Espagnol parlé à Cali, Colombie, selon la tradition orale des locuteurs de cette variante (Ramírez & Almira, 2011). Cette façon de prononcer a franchi la langue soutenue. C'est pourquoi elle fait partie des normes d'usage de cette communauté de parole. Afin d'établir les règles phonologiques qui déterminent la variation de /s/, l'on a fait l'analyse de 10427 segments où la consonne /s/ apparait en liaison des mots, en situation de communication spontanée. Cet article vise à diffuser les résultats de cette recherche
- Published
- 2016
24. La macrosyntaxe comme moyen de tracer la limite entre organisation grammaticale et organisation du discours
- Author
-
José Deulofeu, Traitement Automatique du Langage Ecrit et Parlé (TALEP), Laboratoire d'Informatique et Systèmes (LIS), and Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
organon ,parole spontanée ,apostrophe ,théorie contextuelle du sens ,logique et grammaire ,Pharmaceutical Science ,spontaneous speech ,what is spoken of ,intentionality ,contextual theory of meaning ,macrosyntaxe ,breath group ,Pharmacology (medical) ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS ,grammaire thétique ,deixis ,theory of the phoneme ,06 humanities and the arts ,groupe de souffle ,060202 literary studies ,parce que ,logic and grammar ,conjonction ,intentionnalité ,romique large ,prosodic markers ,0602 languages and literature ,manipulation des données ,puisque ,relations of dependency ,parce que and puisque ,parce que et puisque ,vocative ,micro-/macro syntaxe ,vocatif ,langue parlée spontanée ,Pronominal Approach ,contraste de pente ,Approche Pronominale ,broad romic ,ce dont il est parlé ,manipulation of corpus ,060201 languages & linguistics ,théorie du phonème ,Complementary and alternative medicine ,thetical grammar ,marqueur prosodique ,incidence ,micro-/macro syntax ,contrasting slopes ,relation de rection - Abstract
Cet article présente un état des lieux sur le problème que la macrosyntaxe pose à la description grammaticale. On y démontre notamment que les propriétés de syntaxe externe d’une catégorie grammaticale comme les conjonctions n’apparaissent pas dans certaines formes d’emploi. Les séquences ainsi introduites présentent alors les propriétés de constructions indépendantes, insérées dans les discours selon les modalités mises en évidence par la macrosyntaxe. Afin de mettre en évidence ces séquences, on peut alors avoir recours à des critères purement paradigmatiques, déjà utilisés dans l’Approche Pronominale pour manifester la combinatoire des unités macrosyntaxiques. This article attempts to make an assessment of the problems that macro-syntax encounters when it comes to grammatical description. It is shown that certain syntactic features, the omission of conjunctions, for example, cannot be accounted for in a satisfactory manner. The sequences inserted in the discourse are shown to function independently according to the conventions of macro-syntax. In order to highlight this, purely paradigmatic criteria, used previously in the Pronominal Approach, are applied to show how the macrosyntactic units combine in spontaneous discourse. macrosyntax, spoken langue, Pronominal Approach, relations of dependency, parce que, puisque
- Published
- 2016
25. La parole spontanée chez les locuteurs dysarthriques: organisation temporelle et débit de parole
- Author
-
Georgeton, Laurianne, Meunier, Christine, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), ANR-12-BSH2-0003,TYPALOC,Variations normales et anormales de la parole: Typologie, Adaptation, Localisation(2012), Pouchoulin, Gilles, and BLANC - Variations normales et anormales de la parole: Typologie, Adaptation, Localisation - - TYPALOC2012 - ANR-12-BSH2-0003 - BLANC - VALID
- Subjects
Dysarthrie ,[SDV.MHEP] Life Sciences [q-bio]/Human health and pathology ,parole spontanée ,débit ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SDV.MHEP]Life Sciences [q-bio]/Human health and pathology - Abstract
Les aspects temporels jouent un rôle important dans l'intelligibilité de la parole. Pour des locuteurs dysarthriques, les contraintes motrices dues à la pathologie entraînent une réorganisation des paramètres temporels de la parole pouvant affecter son intelligibilité [1,2]. De plus, la dysarthrie est composée de pathologies variées. Cette diversité peut induire des patterns temporels très hétérogènes et rendre la distinction entre parole normale et pathologique floue. Dans cette étude, nous avons cherché à comparer les caractéristiques temporelles de l'énoncé dans la production de la parole spontanée chez des locuteurs dysarthriques et sains. Deux populations dysarthriques et un groupe de locuteurs sains ont été comparées, soit trois groupes différents : 12 locuteurs atteints de Sclérose Latérale (SLA), 8 patients parkinsoniens (PAR) et 8 locuteurs sains (SN). La moyenne d'âge est comparable entre les groupes (66 à 69 ans). La tâche de production est une tâche de production spontanée dans le cadre d'une interview. Les locuteurs dysarthriques ont été évalués sur une échelle de sévérité allant de 0 (normal) à 3 (très sévère). La sévérité moyenne est de 0.99 pour les PAR et de 2.02 pour les SLA. Les corpus enregistrés ont été transcrits, puis alignés automatiquement et enfin corrigés par un expert. Quatre types de mesure ont été retenus pour cette étude: 1- La durée des unités inter-pausales (séquences langagières séparées par des pauses supérieures à 250ms) 2- La durée des mots 3- Le nombre de syllabes par seconde 4- Le nombre de mots par IPU Concernant les deux premières mesures (durées), un test par modèle mixte a été effectué. Pour les deux autres mesures une ANOVA à trois niveaux (PAR, SAL, SN) a été menée. Les résultats montrent des différences entre les populations, mais toutes les mesures ne permettent pas de distinguer les locuteurs sains des locuteurs dysarthriques. La différence la plus nette entre les populations sains et dysarthriques est le nombre de mots produits à l'intérieur des IPU (SN: 10, PAR: 6, SLA: 6.5). De plus, chaque groupe est caractérisé par des patterns temporels bien distincts. Les SLA se distinguent nettement des deux autres groupes par leur débit très lent (nombre de syllabes par seconde : SLA : 3.5, SN : 4.7, PAR : 5.3). Alors que les PAR se distinguent des deux autres groupes par des IPU plus courts (i.e PAR : 1.4, SLA : 2.5, SN : 2.8). En conclusion, la caractéristique majeure des locuteurs sains par rapports aux locuteurs dysarthriques est leur capacité à produire un grand nombre de mots au sein d'une séquence de parole. Pour les locuteurs dysarthriques, l'organisation temporelle de la parole est telle que chez les PAR, le débit est rapide et les IPU plus courts et, chez les SLA, le débit est très lent dans des IPU de taille comparable à celles des locuteurs sains. Cette étude met en évidence une organisation temporelle spécifique à chaque groupe, permettant à la fois de distinguer la parole dysarthrique de la parole saine, mais aussi, de spécifier les caractéristiques très différentes des deux populations pathologiques.
- Published
- 2015
26. Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle
- Author
-
Dutrey, Camille, STAR, ABES, Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Université Paris Sud - Paris XI, Sophie Rosset, and Chloé Clavel
- Subjects
Spontaneous Speech ,Speech Processing ,Parole spontanée ,Disfluences ,Conversational Speech ,Traitement automatique des langues ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Analyse robuste ,Centres d'appels ,Oral conversationnel ,Disfluency ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,Robust Analysis ,Call Centre ,Traitement automatique de la parole ,Natural Language Processing - Abstract
Extracting information from linguistic data has gain more and more attention in the last decades inrelation with the increasing amount of information that has to be processed on a daily basis in the world. Since the 90’s, this interest for information extraction has converged to the development of researches on speech data. In fact, speech data involves extra problems to those encountered on written data. In particular, due to many phenomena specific to human speech (e.g. hesitations, corrections, etc.). But also, because automatic speech recognition systems applied on speech signal potentially generates errors. Thus, extracting information from audio data requires to extract information by taking into account the "noise" inherent to audio data and output of automatic systems. Thus, extracting information from speech data cannot be as simple as a combination of methods that have proven themselves to solve the extraction information task on written data. It comes that, the use of technics dedicated for speech/audio data processing is mandatory, and epsecially technics which take into account the specificites of such data in relation with the corresponding signal and transcriptions (manual and automatic). This problem has given birth to a new area of research and raised new scientific challenges related to the management of the variability of speech and its spontaneous modes of expressions. Furthermore, robust analysis of phone conversations is subject to a large number of works this thesis is in the continuity.More specifically, this thesis focuses on edit disfluencies analysis and their realisation in conversational data from EDF call centres, using speech signal and both manual and automatic transcriptions. This work is linked to numerous domains, from robust analysis of speech data to analysis and management of aspects related to speech expression. The aim of the thesis is to propose appropriate methods to deal with speech data to improve text mining analyses of speech transcriptions (treatment of disfluencies). To address these issues, we have finely analysed the characteristic phenomena and behavior of spontaneous speech (disfluencies) in conversational data from EDF call centres and developed an automatic method for their detection using linguistic, prosodic, discursive and para-linguistic features.The contributions of this thesis are structured in three areas of research. First, we proposed a specification of call centre conversations from the prespective of the spontaneous speech and from the phenomena that specify it. Second, we developed (i) an enrichment chain and effective processings of speech data on several levels of analysis (linguistic, acoustic-prosodic, discursive and para-linguistic) ; (ii) an system which detect automaticcaly the edit disfluencies suitable for conversational data and based on the speech signal and transcriptions (manual or automatic). Third, from a "resource" point of view, we produced a corpus of automatic transcriptions of conversations taken from call centres which has been annotated in edition disfluencies (using a semi-automatic method)., Extraire de l'information de données langagières est un sujet de plus en plus d'actualité compte tenude la quantité toujours croissante d'information qui doit être régulièrement traitée et analysée, etnous assistons depuis les années 90 à l'essor des recherches sur des données de parole également. Laparole pose des problèmes supplémentaires par rapport à l'écrit, notamment du fait de la présence dephénomènes propres à l'oral (hésitations, reprises, corrections) mais aussi parce que les donnéesorales sont traitées par un système de reconnaissance automatique de la parole qui génèrepotentiellement des erreurs. Ainsi, extraire de l'information de données audio implique d'extraire del'information tout en tenant compte du « bruit » intrinsèque à l'oral ou généré par le système dereconnaissance de la parole. Il ne peut donc s'agir d'une simple application de méthodes qui ont faitleurs preuves sur de l'écrit. L'utilisation de techniques adaptées au traitement des données issues del'oral et prenant en compte à la fois leurs spécificités liées au signal de parole et à la transcription –manuelle comme automatique – de ce dernier représente un thème de recherche en pleindéveloppement et qui soulève de nouveaux défis scientifiques. Ces défis sont liés à la gestion de lavariabilité dans la parole et des modes d'expressions spontanés. Par ailleurs, l'analyse robuste deconversations téléphoniques a également fait l'objet d'un certain nombre de travaux dans lacontinuité desquels s'inscrivent ces travaux de thèse.Cette thèse porte plus spécifiquement sur l'analyse des disfluences et de leur réalisation dans desdonnées conversationnelles issues des centres d'appels EDF, à partir du signal de parole et destranscriptions manuelle et automatique de ce dernier. Ce travail convoque différents domaines, del'analyse robuste de données issues de la parole à l'analyse et la gestion des aspects liés àl'expression orale. L'objectif de la thèse est de proposer des méthodes adaptées à ces données, quipermettent d'améliorer les analyses de fouille de texte réalisées sur les transcriptions (traitement desdisfluences). Pour répondre à ces problématiques, nous avons analysé finement le comportement dephénomènes caractéristiques de l'oral spontané (disfluences) dans des données oralesconversationnelles issues de centres d'appels EDF, et nous avons mis au point une méthodeautomatique pour leur détection, en utilisant des indices linguistiques, acoustico-prosodiques,discursifs et para-linguistiques.Les apports de cette thèse s'articulent donc selon trois axes de recherche. Premièrement, nousproposons une caractérisation des conversations en centres d'appels du point de vue de l'oralspontané et des phénomènes qui le caractérisent. Deuxièmement, nous avons mis au point (i) unechaîne d'enrichissement et de traitement des données orales effective sur plusieurs plans d'analyse(linguistique, prosodique, discursif, para-linguistique) ; (ii) un système de détection automatique desdisfluences d'édition adapté aux données orales conversationnelles, utilisant le signal et lestranscriptions (manuelles ou automatiques). Troisièmement, d'un point de vue « ressource », nousavons produit un corpus de transcriptions automatiques de conversations issues de centres d'appelsannoté en disfluences d'édition (méthode semi-automatique).
- Published
- 2014
27. Disfluences dans la parole spontanée conversationnelle : détection automatique utilisant des indices lexicaux et acoustiques
- Author
-
Dutrey, Camille, Rosset, Sophie, Adda-Decker, Martine, Clavel, Chloé, Vasilescu, Ioana, Lo Bue, Gwénaëlle, BLANC - Analyse d'erreurs avancée pour la reconnaissance de la parole - - VERA2012 - ANR-12-BS02-0006 - BLANC - VALID, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), EDF R&D (EDF R&D), EDF (EDF), Université Paris-Sud - Paris 11 (UP11), Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Laboratoire Traitement et Communication de l'Information (LTCI), Télécom ParisTech-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), Ce travail a été financé partiellement la convention CIFRE 2011/0916, and ANR-12-BS02-0006,VERA,Analyse d'erreurs avancée pour la reconnaissance de la parole(2012)
- Subjects
conditional random fields ,disfluences ,parole spontanée ,disfluencies ,conversational speech ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,champs aléatoires conditionnels ,parole conversationnelle ,spontaneous speech ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
Spontaneous speech may be characterized by a relatively high rate of disfluencies. Keeping disfluencies in transcriptions may help to better understand the relative progress in dialogue, however their presence may harm a smooth application of various automatic processings. In this contribution, we propose a method to automatic disfluency detection in conversational speech. To this aim, we implemented a CRF (Conditional Random Field) approach to tag our data into disfluent / non-disfluent regions. CRFs are known to perform quite well on this kind of segmentation / labeling tasks. Implemented features include both lexical, morpho-syntactic and acoustic-prosodic information. Contrastive experiments show that the addition of features including information extracted from the speech signal beyond the mere transcription level give the best overall results in automatic disfluency region detection but seem to degrate the results for both region detection and structuration task., La parole spontanée est caractérisée par la présence de nombreux éléments disfluents qui peuvent s’avérer très informatifs quant au déroulement et à la compréhension du dialogue, tout en étant un obstacle à l’application de certains traitements automatiques. Nous proposons une méthode pour la détection automatique de disfluences dans des données conversationnelles en français. Nous développons et évaluons une méthode d’étiquetage séquentiel à base de CRF, reconnus pour donner de très bons résultats sur des tâches similaires. Notre système s’appuie sur des indices à la fois lexicaux et prosodiques : la combinaison de traits et de patrons construits à partir des transcriptions manuelles et du signal acoustique donne les meilleurs résultats pour de la détection de frontière, mais les indices acoustiques semblent dégrader les résultats pour une tâche conjointe d’identification de frontière et de structuration de la disfluence.
- Published
- 2014
28. Estudio de la focalización prosódica en el habla de Maracay
- Author
-
Yurbitay del Valle Inciarte Asuaje and Damelys Carolina Delgado Yuste
- Subjects
parole spontanée ,P1-1091 ,focos ,spontaneous speech ,espontânea ,focus ,intonation ,entonación ,Entonação ,PC1-5498 ,General Earth and Planetary Sciences ,fala ,habla espontánea ,Philology. Linguistics ,General Environmental Science ,Romanic languages - Abstract
Resumen Esta investigación comprende un estudio de la entonación, centrado específicamente en analizar los acentos tonales de la focalización en los enunciados del Corpus Sociolingüístico de la Ciudad de Maracay, Venezuela. La muestra está conformada por 162 enunciados, se identificaron 135 con información nueva y 27 con información dada. Se han procesado los enunciados con información nueva, es decir, un 83.3% de la muestra oral total y en ellos se presentaron tres tipos de acentos tonales: H*, L+H* y H+L*. El tono predominante fue el acento H* en 133 enunciados. En función de estos resultados se infiere que el acento monotonal alto (H*) es un marcador del foco en la información nueva, y pragmáticamente esto significa que para el hablante, la mayor relevancia informativa se encuentra en aquello introducido por primera vez en el acto locutivo. Abstract This research article is a study on intonation, concentrating on the analysis of tonal accents in the focalization of statements from the sociolinguistic corpus of the city of Maracay. The sample includes 162 statements, 135 containing new information and 27 containing existing information. Currently, the former have been processed, which represent 83.3% of the total sample. In this percentage, three types of tonal accents were identified: H*, L+H* and H+L*. H* was the predominant accent; present in 133 statements. Based on those results shows that high mono-tonal accent (H*) is a marker of focus in new information. Pragmatically, this means that, for the speaker, the most relevant information is found in what is introduced in the locutionary act for the first time. Résumé Cette recherche comprend une étude de l'intonation, centrée de manière spécifique, sur l'analyse de laccent tonal de la focalisation dans les énoncés du Corpus Sociolinguistique de la ville de Maracay (s.d.). L'échantillon est composé par 162 énoncés, dont 135 ayant une information nouvelle et 27 ayant une information donnée. Actuellement on a traité les énoncés ayant une information nouvelle, c’est-àdire, 83.3% de l'échantillon oral total et on y a détecté trois types daccents tonals: H*, L+H* y H+L*. Laccent H* a été le ton prédominant en 133 énoncés. En fonction de ce ci, on infère que l'accent mono tonal haut (H*) es une marque du focus dans l'information nouvelle et au niveau pragmatique, cela veut dire que pour celui qui parle, la relevance informative la plus importante se trouve dans ce qui est introduit pour la première fois dans l'acte locutoire. Resumo A pesquisa desenvolve um estudo da entonação centralizada nas analises dos acentos tonais na focalização dos enunciados do Corpus Sociolinguístico da Cidade de Maracay (sf). As amostras foram obtidas de 162 enunciados, identificaram-se 135 com novas informações e 27 com informações antecipadas. Na atualidade processaram-se os enunciados com informação nova, quer dizer, 83,3% da totalidade das amostras orais tendo como resultados três tipos de acentos tonais: H*, L + H* e H+ L*. O tono predominante foi o acento H* em 133 enunciados. Em função dos resultados se infere que o acento monotonal alto (H*) é um marcador do foco na informação nova e pragmaticamente poder-se-ia dizer que para o falante, a maior relevância informativa se encontra naquilo introduzido pela primeira vez no ato de dicção.
- Published
- 2013
29. Code d'alternance dans un contact de langue chez un locuteur berbère
- Author
-
Toumert, Smail Mr (speaker), Chebrek, Massinissa Mr (recorder), Toumert, smail Mr (transcriber), Toumert, Smail Mr (translator), Département de sciences du langage, Université d'Aix-Marseille (Aix-en-Provence FR) (publisher), http://gsite.univ-provence.fr/document.php?project=up&locale=fr&pagendx=142&noempty=1&engine_open=337, TOUMERT, Smail, Toumert, Smail Mr (speaker), Chebrek, Massinissa Mr (recorder), Toumert, smail Mr (transcriber), Toumert, Smail Mr (translator), Département de sciences du langage, Université d'Aix-Marseille (Aix-en-Provence FR) (publisher), http://gsite.univ-provence.fr/document.php?project=up&locale=fr&pagendx=142&noempty=1&engine_open=337, and TOUMERT, Smail
- Abstract
Cet enregistrement a été réalisé dans le cadre de parole spontanée durant une conversation téléphonique entre deux étudiants algériens- à savoir moi même entant que locuteur 1 et locuteur 2 dont on entend pas sa voix- qui vivent en France. Les langues parlées sont le français et une variété du berbère qui est le kabyle., Sommaire Introduction 1. Définition de l'alternance de langue 2. Transcription de corpus 3. Les conventions de la transcription 4. Traduction des énonces transcrits en API du berbère vers le français 5. Analyse du corpus Conclusion
- Published
- 2014
30. Corpus ANCOR Centre
- Author
-
Boyer-Pelletier, Aurore Ms, LLL (annotator), Muzerelle, Judith Ms, LLL (annotator), Desoyer, Adèle Ms, LATTICE (developer), Lefeuvre, Anaïs Dr, LI (researcher), Schang, Emmanuel Dr, LLL (researcher), Tellier, Isabelle Pr, LATTICE (researcher), Landragin, Frederic Dr, LATTICE (researcher), Eskhol, Iris Dr, LLL (researcher), Maurel, Denis Pr, LI (researcher), Villaneau, Jeanne Dr, IRISA (researcher), Antoine, Jean-Yves Pr, LI (depositor), Laboratoire d'Informatique (LI, Tours FR) (publisher), http://www.li.univ-tours.fr, Laboratoire Ligérien de Linguistique (LLL, Orléans FR) (publisher), http://www.lll.cnrs.fr, Langues, textes, traitements informatiques, cognition - UMR 8094 (LaTTiCe, Paris FR) (publisher), http://www.lattice.cnrs.fr, Antoine, Jean-Yves Pr, LI, Boyer-Pelletier, Aurore Ms, LLL (annotator), Muzerelle, Judith Ms, LLL (annotator), Desoyer, Adèle Ms, LATTICE (developer), Lefeuvre, Anaïs Dr, LI (researcher), Schang, Emmanuel Dr, LLL (researcher), Tellier, Isabelle Pr, LATTICE (researcher), Landragin, Frederic Dr, LATTICE (researcher), Eskhol, Iris Dr, LLL (researcher), Maurel, Denis Pr, LI (researcher), Villaneau, Jeanne Dr, IRISA (researcher), Antoine, Jean-Yves Pr, LI (depositor), Laboratoire d'Informatique (LI, Tours FR) (publisher), http://www.li.univ-tours.fr, Laboratoire Ligérien de Linguistique (LLL, Orléans FR) (publisher), http://www.lll.cnrs.fr, Langues, textes, traitements informatiques, cognition - UMR 8094 (LaTTiCe, Paris FR) (publisher), http://www.lattice.cnrs.fr, and Antoine, Jean-Yves Pr, LI
- Abstract
ANCOR Centre is a French spoken corpus annotated in coreference whose size (488,000 words) is sufficient to investigate the achievement of data oriented systems of coreference resolution. The annotation was conducted on three different corpora of conversational speech (Accueil_UBS, OTG, ESLO). It is freely available under Creative Commons CC-BY-SA or CC-BY-SA-NC licence, ANCOR Centre est un corpus francophone d'envergure (488 000 mots) de parole spontanée annoté en anaphores et coréférences portant aussi bien sur des entités nominales que pronominales. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) diffusés également librement. Le corpus ANCOR_Centre est distribué gratuitement sous licence Creative Commons CC-BY-SA pour ce qui est des données concernant les corpus OTG, Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus lié à ESLO. Les sources audio (diffusées librement par ailleurs) liées à ce corpus ne font pas l'objet de cette distribution., MUZERELLE, J.; LEFEUVRE, A.; SCHANG, E.; ANTOINE, J.-Y; PELLETIER, A.; MAUREL, D.; ESHKOL, I.; VILLANEAU, J. (2014). ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures. LREC'2014, 9th Language Resources and Evaluation Conference., May 2014, Reyjavik, Iceland., http://hal.archives-ouvertes.fr/hal-01075679, Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes, France [HAL 01016562]., http://www.taln2013.org/actes/www/TALN-2013/actes/taln-2013-court-007.pdf, https://hal.archives-ouvertes.fr/hal-01016562
- Published
- 2014
31. Corpus ANCOR Centre
- Author
-
Boyer-Pelletier, Aurore Ms, LLL, Muzerelle, Judith Ms, LLL, Desoyer, Adèle Ms, LATTICE, Lefeuvre, Anaïs Dr, LI, Schang, Emmanuel Dr, LLL, Tellier, Isabelle Pr, LATTICE, Landragin, Frederic Dr, LATTICE, Eskhol, Iris Dr, LLL, Maurel, Denis Pr, LI, Villaneau, Jeanne Dr, IRISA, Antoine, Jean-Yves Pr, LI, Laboratoire d'Informatique (LI, Tours FR), http://www.li.univ-tours.fr, Laboratoire Ligérien de Linguistique (LLL, Orléans FR), http://www.lll.cnrs.fr, Langues, textes, traitements informatiques, cognition - UMR 8094 (LaTTiCe, Paris FR), http://www.lattice.cnrs.fr, Boyer-Pelletier, Aurore Ms, LLL, Muzerelle, Judith Ms, LLL, Desoyer, Adèle Ms, LATTICE, Lefeuvre, Anaïs Dr, LI, Schang, Emmanuel Dr, LLL, Tellier, Isabelle Pr, LATTICE, Landragin, Frederic Dr, LATTICE, Eskhol, Iris Dr, LLL, Maurel, Denis Pr, LI, Villaneau, Jeanne Dr, IRISA, Antoine, Jean-Yves Pr, LI, Laboratoire d'Informatique (LI, Tours FR), http://www.li.univ-tours.fr, Laboratoire Ligérien de Linguistique (LLL, Orléans FR), http://www.lll.cnrs.fr, Langues, textes, traitements informatiques, cognition - UMR 8094 (LaTTiCe, Paris FR), and http://www.lattice.cnrs.fr
- Abstract
ANCOR Centre is a French spoken corpus annotated in coreference whose size (488,000 words) is sufficient to investigate the achievement of data oriented systems of coreference resolution. The annotation was conducted on three different corpora of conversational speech (Accueil_UBS, OTG, ESLO). It is freely available under Creative Commons CC-BY-SA or CC-BY-SA-NC licence, ANCOR Centre est un corpus francophone d'envergure (488 000 mots) de parole spontanée annoté en anaphores et coréférences portant aussi bien sur des entités nominales que pronominales. L'annotation a été réalisée sur trois corpus de parole conversationnelle (Accueil_UBS, OTG et ESLO) diffusés également librement. Le corpus ANCOR_Centre est distribué gratuitement sous licence Creative Commons CC-BY-SA pour ce qui est des données concernant les corpus OTG, Accueil_UBS et CO2, et sous licence CC-BY-SA-NC pour le corpus lié à ESLO. Les sources audio (diffusées librement par ailleurs) liées à ce corpus ne font pas l'objet de cette distribution., MUZERELLE, J.; LEFEUVRE, A.; SCHANG, E.; ANTOINE, J.-Y; PELLETIER, A.; MAUREL, D.; ESHKOL, I.; VILLANEAU, J. (2014). ANCOR_Centre, a Large Free Spoken French Coreference Corpus: description of the Resource and Reliability Measures. LREC'2014, 9th Language Resources and Evaluation Conference., May 2014, Reyjavik, Iceland., http://hal.archives-ouvertes.fr/hal-01075679, Judith MUZERELLE, Anaïs LEFEUVRE, Jean-Yves ANTOINE, Emmanuel SCHANG, Denis MAUREL, Jeanne VILLANEAU, Iris ESHKOL (2013). ANCOR : premier corpus de français parlé d'envergure annoté en coréférence et distribué librement. Actes TALN'2013. Les Sables d'Olonnes, France [HAL 01016562]., http://www.taln2013.org/actes/www/TALN-2013/actes/taln-2013-court-007.pdf, https://hal.archives-ouvertes.fr/hal-01016562, VERSION HISTORY: 1.0 version avec annotation déportée des coréférences au format Glozz et pointage des relations de coréférence sur la première mention (LI & LLL) 1.1 version avec ajout d'une version intégrée des annotations en chaînes de coréférence, Work in progress: - réalisation d'une version compatible TEI - réalisation d'une version avec annotation déportée Glozz en chaînes de coréférences - réalisation d'une version avec annotation déportée en cluster de mentions coréférentes
- Published
- 2014
32. La structure prosodique opère-t-elle avant ou après la syntaxe
- Author
-
Philippe Martin, Laboratoire de Linguistique Formelle (LLF UMR7110), Centre National de la Recherche Scientifique (CNRS)-Université Paris Diderot - Paris 7 (UPD7), and Roulois, Alexandre
- Subjects
060201 languages & linguistics ,reformulations ,parole spontanée ,syntaxe ,Philosophy ,prosodic structure ,linguistics ,répétitions ,06 humanities and the arts ,spontaneous speech ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,lcsh:Philology. Linguistics ,structure prosodique ,lcsh:P1-1091 ,0602 languages and literature ,General Earth and Planetary Sciences ,repetitions ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Humanities ,syntax ,ComputingMilieux_MISCELLANEOUS ,Spontaneous speech - Abstract
Que ce soit dans la production orale spontanée, lue, ou même en lecture silencieuse, la structure prosodique est toujours présente. On ne peut produire un énoncé sans accompagner les séquences de syllabes successives encodant les morphèmes et les groupes syntaxiques de marques prosodiques qui déterminent une structure prosodique, c’est-à-dire un regroupement hiérarchique de groupes accentuels (séquence de syllabes ne comprenant qu’une seule syllabe accentuée qui n’ait pas de fonction iconique – tel que l’accent d’insistance). Pour établir que la structuration prosodique intervient dans le processus d’énonciation avant des autres structurations de l’énoncé, syntaxiques, morphologiques, informationnelles, on présente différents arguments d’ordre neurocognitif, syntaxique et prosodique. On en conclut que la structuration prosodique est la première à intervenir dans le processus de génération de l’énoncé par le locuteur. Elle est aussi la première à être décodée par l’auditeur, lui permettant ensuite l’accès aux autres structures organisant les unités de l’énoncé, et en particulier la structure syntaxique. Whether in read, silent reading or spontaneous speech, the prosodic structure is always present as an obligatory linguistic object in order to allow the listener to process the information brought by the flow of syllables and access the syntactic information contained in the sentence. The aim of this paper is to demonstrate that the elaboration of the prosodic structuration necessarily present in the sentence actually precedes the elaboration of the other structures and particularly of the syntactic structure, whether in the generation process by the speaker or the perception process by the listener. Arguments favoring this conclusion are of various order and are based on the following facts:- The prosodic structure can exist without any words or any syntax whereas the opposite is not true. Syntax depends on the presence of prosody, but prosody does not depend on the presence of syntax; - The phonation process requires a flow of expiratory air flow which is segmented by phases of inspiration in the speaker respiration cycle; - The flow of syllables must be segmented in chunks in order to be processed by Delta brain waves. Delta waves synchronize the transfer of sequences of syllables stored in short-term memory; - In spontaneous speech, reformulations are always realized by retaking a complete stress group and not a selected word (except perhaps in stylistic applications); - The dynamic process of the prosodic structure generation shows that the speaker has to choose between a relation of dependence (rection) or independence (paratax) between the actual prosodic group (ip or IP in autosegmental-metrical terminology). This is done by specifying prosodic contours indicating a dependency relation towards another contour to occur in the immediate future (i.e. to “the right”). All these observations lead to a conclusion suggesting that the prosodic structure operates before the syntactic and the other structures of the sentence. The usual graphic representation and analysis of the prosodic structure obscures considerably this aspects, leading to believe that intonation acts as a supplement to syntax, to be processed by the listener (in reality only the reader) as another set of syntactic features.
- Published
- 2013
33. Speaker-specific breathing profiles during spontaneous speech
- Author
-
Rochet-Capellan, Amélie, Fuchs, Susanne, GIPSA - Machines parlantes, Gestes oro-faciaux, Interaction Face-à-face, Communication augmentée (GIPSA-MAGIC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Zentrum für Allgemeine Sprachwissenschaft [Berlin] (ZAS), Bundesministerium für Bildung und Forschung-Deutsche Forschungsgemeinschaft - German Research Foundation (DFG), and Rochet-Capellan, Amélie
- Subjects
[SDV.NEU.PC]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC]/Psychology and behavior ,Respiration ,education ,Parole spontanée ,[SDV.NEU.PC] Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC]/Psychology and behavior - Abstract
International audience; "Speech is organized in terms of the expiratory air flow from the lung" (Lieberman, 1967, p.52). This organization defines the breath group that corresponds to the chunk of speech produced on a single exhalation. Previous studies have found that in both read and spontaneous speech, the properties of the breath group, and their relations to inhalation parameters, are speaker-specific [1, 2] and varied with age [3] or cognitive load [4]. We previously analyzed the linguistic structure of the breath group in spontaneous speech produced by 26 native female speakers of German [5]. We found that most of the breath groups included 1-3 clauses. In average, groups with 1-3 clauses lasted 3.5 s and included 16 syllables. Half of these groups started with a matrix clause; a quarter with an embedded clause and the last quarter with an incomplete clause (continuation, repetition, hesitation). We also found that the amplitude and the duration of the inhalation varied as a function of the first clause type and with respect to breath group length. Breath groups including vocalized hesitations also coincide with deeper inhalation. These average results demonstrate the interplay of speech-planning and breathing control in spontaneous speech: to some extent the linguistic structure of the breath group is anticipated during the inhalation phase. We also found large variability between speakers. This variability was found in the number of breath groups produced by each speaker. On average subjects realized 1 to 10 breath groups to summarize a short text. Speaker-specificity was also evident in the proportion of breath groups with hesitation, ranging from 0 to more than 50% according to the speaker. In this presentation, we will discuss in more details the characteristic of the breath group with respect to the speaker and discuss it in light of speech planning strategies.
- Published
- 2013
34. Une étude quantitative des marqueurs discursifs, disfluences et chevauchements de parole dans des interviews politiques
- Author
-
Claude Barras, Patrick Paroubek, Philippe Boula de Mareüil, Gilles Adda, Martine Adda-Decker, Benoît Habert, Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS), Université Paris-Sud - Paris 11 (UP11), École normale supérieure - Lyon (ENS Lyon), Université Paris-Sud - Paris 11 (UP11)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS)-Université Paris Saclay (COmUE), and École normale supérieure de Lyon (ENS de Lyon)
- Subjects
060201 languages & linguistics ,parole spontanée ,français parlé ,06 humanities and the arts ,spontaneous speech ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,spoken French ,lcsh:Philology. Linguistics ,030507 speech-language pathology & audiology ,03 medical and health sciences ,disfluences ,lcsh:P1-1091 ,disfluencies ,0602 languages and literature ,General Earth and Planetary Sciences ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,0305 other medical science - Abstract
À l'interface entre linguistique de corpus et traitement automatique, le travail présenté ici vise à éclairer les différences relevant de la variation diamésique, entre oral et transcriptions écrites à différents niveaux d'élaboration. Un corpus d'interviews télévisées a été utilisé (une dizaine d'émissions de L'heure de vérité), impliquant des journalistes et des hommes politiques ou des personnalités représentant la société civile. Les transcriptions bona fide réalisées à destination de la presse (où la plupart des disfluences et marqueurs discursifs ainsi que les chevauchements de parole ont été éliminés) ont été alignées avec les transcriptions fournies par un système de reconnaissance de la parole, facilitant la production de transcriptions verbatim où tous les événements audibles (y compris la parole superposée) ont été transcrits manuellement. Trois types de disfluences (les hésitations, les répétitions et les faux départs) ont été distingués et annotés, de même que les marqueurs discursifs. Ces derniers, ainsi que chaque type de disfluences, représentent environ 2 % des mots du corpus hors chevauchements de parole (8 % au total). Ils ont été analysés par type d'énoncé, de locuteur (selon le statut journaliste/invité) et de patrons les plus fréquents. Les chevauchements de parole ont également été annotés manuellement au moyen de quatre étiquettes, pour les régulateurs ou backchannels du type hmm, pour les prises de parole (avec interruption claire d'un locuteur par un autre), pour les anticipations de tour de parole (quand le locuteur qui intervient semble percevoir que son interlocuteur a terminé) et pour les chevauchements complémentaires (commentaires ou énoncés qui se suffisent à eux-mêmes, où le locuteur qui intervient ne prend pas la parole pour développer une argumentation). L'interaction entre chevauchements de parole, disfluences et marqueurs discursifs a ensuite été étudiée, et les taux d'occurrences observés ont été mis en relation avec le rôle des locuteurs. Les chevauchements de parole sont assez fréquents (en moyenne 3–4 par minute), même s'ils sont de courte durée (5 % des données), les chevauchements non-intrusifs comme les régulateurs de type hmm étant plus courts que les chevauchements intrusifs comme les prises de parole. Les disfluences sont deux fois plus nombreuses en parole superposée qu'en parole non-superposée : les répétitions, en particulier, sont concernées au premier chef. Enfin, des différences intéressantes ont été relevées entre les comportements actifs/passifs (de celui qui prend ou qui a la parole) des journalistes et des invités. At the interface between corpus linguistics and automatic speech processing, this study aims at increasing our understanding of spontaneous speech-related phenomena, based on 8 hours of television shows (L'heure de vérité) of French political interviews recorded in the early nineties. During each show, a political figure or a representative of civil society is interviewed by several journalists. The reported work focuses on the transcription, annotation and analysis of discourse markers, disfluencies and speech overlaps. Press-oriented (bona fide) transcripts available for these shows and the output of a speech recognition system were used and aligned to speed up the transcription process, in order to provide a fine-grained (verbatim) transcription of the audio data, including all audible speech events. Sibling corpora are very useful resources to facilitate hand corrections. A segmentation into multi-speaker speech portions was also performed manually by relaxing temporal anchoring constraints in the case of overlaps, because even the precise localisation of the beginning and the end of such events is not straightforward. The Transcriber software (trans.sourceforge.net/en/presentation.php) was customised accordingly to facilitate this task. Two situations were distinguished: (1) the overlap does not entail a speaker change (the primary speaker remains the same at the end of the overlap); (2) the primary speaker stops and the secondary speaker becomes the primary speaker of a new turn. Three types of disfluencies were distinguished: filled pauses, repetitions and false starts. Together with discourse markers, they were analysed by utterance, speaker and pattern types. Silent pauses and lengthening phenomena were also measured, but they are not addressed in this paper. Speech overlaps were annotated by using 4 tags: back-channel, turn stealing, anticipated turn taking, and complementary. Back-channels like “`hmm”s indicate that we follow our interlocutor, understand him/her, agree with him/her; they barely disturb the main speaker. On the opposite, turn stealings clearly interrupt the main speaker, even though the attempt may fail as any other speech act. Anticipated turn taking corresponds to the case where the incoming speaker seems to perceive cues indicating that the main speaker has finished (phrase or clause boundary, falling pitch, etc.). Finally, the complementary label was introduced for overlaps which aim at complementing the main speaker's utterance: a possibly paraphrased repetition of the primary speaker's statement, an explicit agreement or disagreement, a short anticipated answer, a precision forwarded or required, not only on the content but also on the form of the exchange (schedule, approached topic), a witty remark or the continuation of the utterance. This complementary label, contrary to the turn stealing one, is assigned to self-sufficient comments or utterances: the entering speaker does not take the floor to develop an argument. This type of overlap may be favoured by the situational context: beyond the speakers actively involved in the show, an actor may wish to provide additional information to the audience. Differences between overlap tags may happen to be subtle and give rise to diverging interpretations. A unique label assignment is not always straightforward. Even “hmm”s can have different communicative functions such as signalling that one is eager to jump in. From one extreme to the other, progressive transitions are common during long-lasting turns. Two shows were annotated by 5 annotators, and the reference resulted from harmonising the different annotations through first negotiation, then adjudication, for the disputed labels. The label distribution for the different annotators confirmed the intermediate nature of the complementary label, and showed a rather high confusion percentage (24%) between anticipated turn takings and turn stealings. Yet, the manual annotation of the corpus based on the four overlap types gave a good inter-annotator agreement (Kappa measures around 0.7). This first result allowed us to study the distribution of overlaps and their interplay with disfluencies and discourse markers. In non-overlapping speech, each disfluency type (as well as discourse markers) accounts for about 2% of the corpus. Among disfluencies, hesitations (transcribed as euh in French) can be found almost anywhere. More precisely, 35% of filled pauses occur at a sentence boundary indicated by a full stop (14%) or at a major phrase boundary indicated by a comma (21%) in the bona fide transcription. In the middle of a sentence, hesitations frequently precede a determiner or a preposition and they rather follow a conjunction or a preposition. This asymmetry suggests that hesitations are avoided within noun phrases, especially between a determiner and a noun. In this situation, other mechanisms such as final lengthening or repetitions are preferred. Repetitions and false starts exhibit some features in common: first, they both involve 1 or 2 words on average, and there is a high correlation (0.8) among speakers between their numbers of repetitions and false starts: speakers who produce many repetitions also tend to make many revisions. Second, most frequent repetitions and false starts tend to be monosyllabic function words: de 'of', le (corresponding to the determiner 'the' far more often than the pronoun 'him'), etc. Interestingly, le outweighs la in both repetitions and false starts: it may be considered not only as the masculine form but also as the neutral form of the determiner. By contrast, the conjunction et 'and' hardly lends itself to revisions, and it is only found among repetitions. It may also be considered as a discourse marker: as such, it is even more frequent than alors 'so' in the corpus. Our study then focused on overlaps, which are frequent (3-4 per minute on average) even if they are short (2.5 words compared to 30-word speaker turns on average). Their cumulative duration represents less than 5% of the data. Non-intrusive overlaps such as back-channels, which encourage a fluid interaction, are particularly short. Figures are comparable for active and passive speakers (i.e. incoming speakers who produce the overlap situation and floor holding speakers who are interrupted). However, active speakers in the turn stealing situation tend to speak faster (they produce more words) than their passive competitors. Overlaps generate twice as many disfluencies as non-overlapping speech portions. The disfluency rate increase mainly concerns repetitions, in particular for active speakers in intrusive overlap situations such as turn stealings. More repetitions and discourse markers are observed for active speakers than for passive speakers, which can also be explained by the turn-start position. Our study showed that disfluencies and discourse markers occur at the beginning rather than at the end of utterances. Passive (primary) speakers become dramatically disfluent within complementary comments brought by their interlocutors. This corroborates the intrusive nature of these complementary overlaps which do not aim at a speaker change but may disturb the main speaker due to their length and informational content. By contrast, back-channels do not increase the disfluency rate of passive speakers. This rate is even lower than it is in non-overlapping speech. Finally, interesting differences are observed between journalists and interviewees, whose roles are asymmetric. Even though their disfluency rates are on the whole comparable, journalists show higher disfluency rates when they are passive speakers in intrusive (turn stealing or complementary) overlap situations. In this case, there seems to be an exchange of standard roles (active interruption for journalists and passive overlaps for interviewees). Enriched and more accurate models are necessary for both talk-in-interaction analysis and speech recognition. We think that drawing up a descriptive inventory of discourse markers, disfluencies and speech overlaps may contribute to the design of a pragmatics model and may be profitable to improve automatic conversational speech transcription, whose performance is still poor as compared to prepared speech recognition.
- Published
- 2013
35. L'organisation respiratoire de la parole spontanée chez des locutrices germanophones
- Author
-
Rochet-Capellan, Amélie, Fuchs, Susanne, Rochet-Capellan, Amélie, GIPSA - Machines parlantes, Gestes oro-faciaux, Interaction Face-à-face, Communication augmentée (GIPSA-MAGIC), Département Parole et Cognition (GIPSA-DPC), Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Grenoble Images Parole Signal Automatique (GIPSA-lab), Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Stendhal - Grenoble 3-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS), Zentrum für Allgemeine Sprachwissenschaft [Berlin] (ZAS), and Bundesministerium für Bildung und Forschung-Deutsche Forschungsgemeinschaft - German Research Foundation (DFG)
- Subjects
[SDV.NEU.PC]Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC]/Psychology and behavior ,Respiration ,Parole spontanée ,[SDV.NEU.PC] Life Sciences [q-bio]/Neurons and Cognition [q-bio.NC]/Psychology and behavior - Abstract
National audience; La respiration organise la parole en une série de pauses inspiratoires suivies de phases expiratoires pendant lesquelles est produite la phonation. Cette organisation définit le groupe respiratoire, qui correspond au groupe de parole produit sur une expiration. Le groupe respiratoire est déterminé par la manière dont les locuteurs positionnent leurs prises de souffle relativement au message qu'ils articulent. Ainsi, l'étude des propriétés linguistiques du groupe respiratoire et de ses relations avec la durée et l'amplitude des phases d'inspiration informe sur les stratégies d'adaptation du contrôle respiratoire à la production de la parole. Cette étude présente donc un potentiel important tant pour le diagnostic de pathologies que pour la rééducation de la parole. Nous présenterons ici nos analyses du groupe respiratoire dans la parole spontanée de locutrices germanophones. Ces analyses s'axent autour deux questions principales : (1) Quelle est la structure syntaxique du groupe respiratoire ? (2) Cette structure est-elle anticipée au cours de l'inspiration ? Plus particulièrement, nos analyses ont porté sur la structure du groupe respiratoire (durée, nombre de syllabes, nombre et type de clauses) et sa relation avec la durée et l'amplitude de l'inspiration. Afin de mieux comprendre les relations entre la planification de la parole et la respiration, nous avons aussi étudié le positionnement des disfluences et leur anticipation au sein du cycle respiratoire. Ces analyses dessinent la structure syntaxique du groupe respiratoire dans la parole spontanée par le locuteur sans pathologie et suggèrent la variabilité interindividuelle des stratégies de contrôle et de planification.
- Published
- 2013
36. Langage et maladie d'Alzheimer : analyse multidimensionnelle d'un discours pathologique
- Author
-
Lee, Hyeran, Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Université Paul Valéry - Montpellier III, Jacques Bres, and STAR, ABES
- Subjects
Recherche translationnelle ,Parole spontanée ,Analyse du discours ,Spontaneous speech ,Troubles du langage ,Translational research ,Alzheimer's disease ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Language in aging ,Vieillissement langagier ,Maladie d'Alzheimer ,Language disorders ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Discourse analysis - Abstract
This study deals with a multidimensional analysis of language attrition in normal aging and in Alzheimer’s disease. A comparative analysis of spontaneous speech was conducted through three linguistic levels : 1) the phonetic-phonological level ; 2) the lexical-semantic level ; 3) the syntactic level. Our results show that the discourse produced by Alzheimer patients differs significantly from that produced by healthy elderly by a more disfluent speech, a significant reduction of the vocabulary diversity and discourse informativeness, and finally, by a remarkable reduction in syntactic complexity. Our results contribute to understand better the linguistic profile of Alzheimer’s patients. We show that a better understanding of language disorders associated with this pathology may contribute in a meaningful way to improve early and / or differential diagnosis of Alzheimer’s disease. In term of application, the goal of this research is to develop a language assessment tool adapted to the demented elderly. Through this work we hope to have contributed to the further development of speech therapy (i.e. non-pharmacological treatment) useful for the maintenance or improvement of the communicative capacity of patients suffering from Alzheimer’ disease., Nous proposons dans ce travail une analyse multidimensionnelle du vieillissement langagier normal et du vieillissement pathologique de type Alzheimer. Une analyse comparative du discours oral spontané a été réalisée à travers trois niveaux linguistiques : 1) le niveau phonético-phonologique ; 2) le niveau lexico-sémantique ; 3) le niveau syntaxique. Nos résultats révèlent que le discours produit par les patients atteints de la maladie d’Alzheimer se distingue de celui des personnes âgées saines par une parole disfluente, une réduction significative de la diversité du vocabulaire et de l’informativité du discours, et enfin, par une réduction remarquable de la complexité syntaxique. L’ensemble de nos résultats entend contribuer à améliorer notre connaissance de la sémiologie linguistique de la maladie d’Alzheimer. Nous montrons ainsi qu’une meilleure connaissance des troubles du langage associés à cette pathologie pourrait contribuer de façon pertinente à améliorer le diagnostic précoce et/ou différentiel de la maladie d’Alzheimer. Du point de vue applicatif, l’enjeu de cette recherche translationnelle vise l’élaboration d’un outil d’évaluation du langage adapté à la personne âgée démente. A travers ce travail de thèse, nous espérons avoir contribué au développement futur d’une prise en charge non médicamenteuse de type orthophonique visant le maintien, voire l’amélioration, de la capacité communicative des patients souffrant de la maladie d’Alzheimer.
- Published
- 2012
37. La réduction vocalique dans la variété salentine d’italien
- Author
-
Ilaria Libera Margherita
- Subjects
lcsh:Language and Literature ,parole spontanée ,lcsh:GN1-890 ,Philosophy ,lcsh:Anthropology ,reduction ,vowels ,acoustic analysis ,cotexte ,lcsh:B ,voyelles ,lcsh:P ,réduction ,cotext ,lcsh:Philosophy. Psychology. Religion ,Humanities ,analyse acoustique ,connected speech - Abstract
L’essai phonétique, une analyse acoustique sur les voyelles de la variété salentine de l’italien, se propose une recherche sur le phénomène de réduction vocalique, caractéristique propre de la parole spontanée qui se révèle selon des modalités différentes. La réduction est reliée au contexte phonique dans lequel les sons sont insérés, et aussi aux effets systématiques de la structure prosodique sur l’articulation des voyelles. On cherchera alors de reconnaître les différentes types de réduction, d’établir les différences entre eux et d’évaluer l’influence du contexte phonique sur eux. The study, an acoustic analysis of Salentin Italian variety vowels,attempts a search on the vowel reduction phenomenon, a typical feature of speech who appears in different cases. The vowel reduction is tied to phonetic context, and also to systematic effects of prosodic structure on vowels articulation. We try to identify the different types of vowel reduction, and to establish the differences between them to verify the context influence.
- Published
- 2012
38. Comparaison de parole journalistique et de parole spontanée : analyses de séquences entre pauses
- Author
-
Gendrot, Cédric, Adda-Decker, Martine, Caroline, Schmid, Lo Bue, Gwénaëlle, LPP - Laboratoire de Phonétique et Phonologie - UMR 7018 (LPP), and Université Sorbonne Nouvelle - Paris 3-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Parole spontanée ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,parole journalistique ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
- Published
- 2012
39. Influence du genre applicatif sur la réalisation des extractions en dialogue oral : constantes et variations
- Author
-
Jean-Yves Antoine, Jeanne Villaneau, Jérôme Goulian, Bases de données et traitement des langues naturelles (BDTLN), Laboratoire d'Informatique Fondamentale et Appliquée de Tours (LIFAT), Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours (UT)-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS), Expressiveness in Human Centered Data/Media (EXPRESSION), Université de Bretagne Sud (UBS)-MEDIA ET INTERACTIONS (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), MEDIA ET INTERACTIONS (IRISA-D6), Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Lab-STICC_UBS_CACS_MOCS, Laboratoire des sciences et techniques de l'information, de la communication et de la connaissance (Lab-STICC), Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), SEarch, Analyze, Synthesize and Interact with Data Ecosystems (SEASIDE), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Laboratoire d'Informatique de Grenoble (LIG), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS), Antoine, Jean-Yves, Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Centre National de la Recherche Scientifique (CNRS)-Université de Tours-Institut National des Sciences Appliquées - Centre Val de Loire (INSA CVL), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-Télécom Bretagne-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS)-École Nationale d'Ingénieurs de Brest (ENIB)-Université de Bretagne Sud (UBS)-Université de Brest (UBO)-Télécom Bretagne-Institut Brestois du Numérique et des Mathématiques (IBNM), Université de Brest (UBO)-Université européenne de Bretagne - European University of Brittany (UEB)-École Nationale Supérieure de Techniques Avancées Bretagne (ENSTA Bretagne)-Institut Mines-Télécom [Paris] (IMT)-Centre National de la Recherche Scientifique (CNRS), CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Université de Rennes (UNIV-RENNES)-Université de Rennes (UNIV-RENNES)-Institut National de Recherche en Informatique et en Automatique (Inria)-École normale supérieure - Rennes (ENS Rennes)-Université de Bretagne Sud (UBS)-Centre National de la Recherche Scientifique (CNRS)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Télécom Bretagne-Université de Rennes 1 (UR1), Institut National des Sciences Appliquées (INSA)-Université de Rennes (UNIV-RENNES)-Institut National des Sciences Appliquées (INSA), and Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)
- Subjects
Linguistics and Language ,langage oral ,dislocation ,parole spontanée ,Computer science ,variation d'ordre linéaire ,Context (language use) ,variation ordre linéaire ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Degree (music) ,Language and Linguistics ,Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Task (project management) ,Interactivity ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,inversions ,Linguistique de corpus ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Word order - Abstract
International audience; This paper presents a corpus study on word order variations (WOV) in spontaneous spoken French. We have studied several corpus of spoken dialogue dedicated to different tasks to assess the influence of the discourse context on WOVs. At first, we show how the contribution of pilot corpus studies should benefit to Natural Language Processing researches. Then, we present our methodology and the main results of this study. In particular, we observe that the task and the role of the speaker have no influence on WOVs, while the frequency of WOVs is on the contrary highly influenced by the degree of interactivity of the dialogues. These WOVs respect some noticeable structural regularities which are imposed by French ordering constraints. This is why we conclude that conversational spoken French must be still considered as a language with a rigid SVO ordering.
- Published
- 2012
40. Contexte et nature des réalisations phonétiques en parole conversationnelle
- Author
-
Christine Meunier, Pouchoulin, Gilles, ILCB: Institute of Language Communication and the Brain - - ILCB2016 - ANR-16-CONV-0002 - CONV - VALID, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and ANR-16-CONV-0002,ILCB,ILCB: Institute of Language Communication and the Brain(2016)
- Subjects
parole spontanée ,lexical data ,annotation phonétique ,alignement automatique ,réduction phonétique ,spontaneous speech ,large corpora ,[SCCO.LING]Cognitive science/Linguistics ,grands corpus ,phonetic annotation ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,données lexicales ,[SCCO.LING] Cognitive science/Linguistics ,phonetic reduction - Abstract
Since a decade, research in phonetics has turned with interest to the description of large corpora of casual speech. This new field of research opens up many opportunities but asks also new questions for phoneticians. Firstly, this paper evaluates the lexical and phonological context in which phonetic realizations are produced. This context is noticeably different from lexical context in read corpora. Next, we address the question of phonetic annotation which is critical for phonetic analyses. Finally, we discuss some specific cases of phonetic reduction which offer new perspectives for our interpretations of speech production., Depuis une dizaine d'années, les recherches en phonétique se sont tournées avec intérêt vers la description des grands corpus de parole naturelle, non lue. Ce nouveau terrain d'investigation ouvre de nombreuses perspectives mais pose également de nouvelles questions aux phonéticiens. Ce papier évalue, dans un premier temps, le contexte lexical et phonologique dans lequel les réalisations phonétiques sont produites, contexte très différent de celui des corpus construits. Ensuite, nous abordons la question de l'annotation, déterminante pour les analyses phonétiques. Enfin, nous évoquons quelques cas spécifiques de réduction phonétique qui offrent de nouvelles perspectives pour nos interprétations concernant la production de la parole.
- Published
- 2012
41. Structuration de contenus audio-visuel pour le résumé automatique
- Author
-
Rouvier, Mickaël and STAR, ABES
- Subjects
Spoken term detection ,[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,Video summary extraction ,Résumé Automatique de Vidéo ,Classification du Genre Vidéo ,Détection de Termes à la volée ,Spontaneous speech classification ,Video genre classification ,Parole spontanée ,Factor Analysis - Abstract
These last years, with the advent of sites such as Youtube, Dailymotion or Blip TV, the number of videos available on the Internet has increased considerably. The size and their lack of structure of these collections limit access to the contents. Sum- marization is one way to produce snippets that extract the essential content and present it as concisely as possible.In this work, we focus on extraction methods for video summary, based on au- dio analysis. We treat various scientific problems related to this objective : content extraction, document structuring, definition and estimation of objective function and algorithm extraction.On each of these aspects, we make concrete proposals that are evaluated.On content extraction, we present a fast spoken-term detection. The main no- velty of this approach is that it relies on the construction of a detector based on search terms. We show that this strategy of self-organization of the detector im- proves system robustness, which significantly exceeds the classical approach based on automatic speech recogntion.We then present an acoustic filtering method for automatic speech recognition based on Gaussian mixture models and factor analysis as it was used recently in speaker identification. The originality of our contribution is the use of decomposi- tion by factor analysis for estimating supervised filters in the cepstral domain.We then discuss the issues of structuring video collections. We show that the use of different levels of representation and different sources of information in or- der to characterize the editorial style of a video is principaly based on audio analy- sis, whereas most previous works suggested that the bulk of information on gender was contained in the image. Another contribution concerns the type of discourse identification ; we propose low-level models for detecting spontaneous speech that significantly improve the state of the art for this kind of approaches.The third focus of this work concerns the summary itself. As part of video summarization, we first try, to define what a synthetic view is. Is that what cha- racterizes the whole document, or what a user would remember (by example an emotional or funny moment) ? This issue is discussed and we make some concrete proposals for the definition of objective functions corresponding to three different criteria : salience, expressiveness and significance. We then propose an algorithm for finding the sum of the maximum interest that derives from the one introduced in previous works, based on integer linear programming., Ces dernières années, avec l’apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l’accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l’essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l’analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l’extraction des contenus, la structuration des documents, la définition et l’estimation des fonctions d’intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l’extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu’elle repose sur la construction d’un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d’auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l’approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l’analyse factorielle telle qu’elle a été utilisée récemment en identification du locuteur. L’originalité de notre contribution tient à l’utilisation des décompositions par analyse factorielle pour l’estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l’utilisation de différents niveaux de représentation et de différentes sources d’informations permet de caractériser le style éditorial d’une vidéo en se basant principalement sur l’analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l’essentiel de l’information relative au genre était contenue dans l’image. Une autre contribution concerne l’identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l’état de l’art sur ce type d’approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu’est une vue synthétique. S’agit-il de ce qui le caractérise globalement ou de ce qu’un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d’intérêts correspondants à 3 différents critères : la saillance, l’expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d’intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers.
- Published
- 2011
42. Audio-visual content structuring for automatic summarization
- Author
-
Rouvier, Mickaël and STAR, ABES
- Subjects
Spoken term detection ,[INFO.INFO-OH] Computer Science [cs]/Other [cs.OH] ,Video summary extraction ,Résumé Automatique de Vidéo ,Classification du Genre Vidéo ,Détection de Termes à la volée ,Spontaneous speech classification ,Video genre classification ,Parole spontanée ,Factor Analysis - Abstract
These last years, with the advent of sites such as Youtube, Dailymotion or Blip TV, the number of videos available on the Internet has increased considerably. The size and their lack of structure of these collections limit access to the contents. Sum- marization is one way to produce snippets that extract the essential content and present it as concisely as possible.In this work, we focus on extraction methods for video summary, based on au- dio analysis. We treat various scientific problems related to this objective : content extraction, document structuring, definition and estimation of objective function and algorithm extraction.On each of these aspects, we make concrete proposals that are evaluated.On content extraction, we present a fast spoken-term detection. The main no- velty of this approach is that it relies on the construction of a detector based on search terms. We show that this strategy of self-organization of the detector im- proves system robustness, which significantly exceeds the classical approach based on automatic speech recogntion.We then present an acoustic filtering method for automatic speech recognition based on Gaussian mixture models and factor analysis as it was used recently in speaker identification. The originality of our contribution is the use of decomposi- tion by factor analysis for estimating supervised filters in the cepstral domain.We then discuss the issues of structuring video collections. We show that the use of different levels of representation and different sources of information in or- der to characterize the editorial style of a video is principaly based on audio analy- sis, whereas most previous works suggested that the bulk of information on gender was contained in the image. Another contribution concerns the type of discourse identification ; we propose low-level models for detecting spontaneous speech that significantly improve the state of the art for this kind of approaches.The third focus of this work concerns the summary itself. As part of video summarization, we first try, to define what a synthetic view is. Is that what cha- racterizes the whole document, or what a user would remember (by example an emotional or funny moment) ? This issue is discussed and we make some concrete proposals for the definition of objective functions corresponding to three different criteria : salience, expressiveness and significance. We then propose an algorithm for finding the sum of the maximum interest that derives from the one introduced in previous works, based on integer linear programming., Ces dernières années, avec l’apparition des sites tels que Youtube, Dailymotion ou encore Blip TV, le nombre de vidéos disponibles sur Internet aconsidérablement augmenté. Le volume des collections et leur absence de structure limite l’accès par le contenu à ces données. Le résumé automatique est un moyen de produire des synthèses qui extraient l’essentiel des contenus et les présentent de façon aussi concise que possible. Dans ce travail, nous nous intéressons aux méthodes de résumé vidéo par extraction, basées sur l’analyse du canal audio. Nous traitons les différents verrous scientifiques liés à cet objectif : l’extraction des contenus, la structuration des documents, la définition et l’estimation des fonctions d’intérêts et des algorithmes de composition des résumés. Sur chacun de ces aspects, nous faisons des propositions concrètes qui sont évaluées. Sur l’extraction des contenus, nous présentons une méthode rapide de détection de termes. La principale originalité de cette méthode est qu’elle repose sur la construction d’un détecteur en fonction des termes cherchés. Nous montrons que cette stratégie d’auto-organisation du détecteur améliore la robustesse du système, qui dépasse sensiblement celle de l’approche classique basée sur la transcription automatique de la parole.Nous présentons ensuite une méthode de filtrage qui repose sur les modèles à mixtures de Gaussiennes et l’analyse factorielle telle qu’elle a été utilisée récemment en identification du locuteur. L’originalité de notre contribution tient à l’utilisation des décompositions par analyse factorielle pour l’estimation supervisée de filtres opérants dans le domaine cepstral.Nous abordons ensuite les questions de structuration de collections de vidéos. Nous montrons que l’utilisation de différents niveaux de représentation et de différentes sources d’informations permet de caractériser le style éditorial d’une vidéo en se basant principalement sur l’analyse de la source audio, alors que la plupart des travaux précédents suggéraient que l’essentiel de l’information relative au genre était contenue dans l’image. Une autre contribution concerne l’identification du type de discours ; nous proposons des modèles bas niveaux pour la détection de la parole spontanée qui améliorent sensiblement l’état de l’art sur ce type d’approches.Le troisième axe de ce travail concerne le résumé lui-même. Dans le cadre du résumé automatique vidéo, nous essayons, dans un premier temps, de définir ce qu’est une vue synthétique. S’agit-il de ce qui le caractérise globalement ou de ce qu’un utilisateur en retiendra (par exemple un moment émouvant, drôle....) ? Cette question est discutée et nous faisons des propositions concrètes pour la définition de fonctions d’intérêts correspondants à 3 différents critères : la saillance, l’expressivité et la significativité. Nous proposons ensuite un algorithme de recherche du résumé d’intérêt maximal qui dérive de celui introduit dans des travaux précédents, basé sur la programmation linéaire en nombres entiers.
- Published
- 2011
43. Oui mais elle est où la coupure là ? Quand syntaxe et prosodie s'entraident ou se complètent
- Author
-
Paola Pietrandrea, Bernard Victorri, Mathieu Avanzi, Sylvain Kahane, Anne Lacheret-Dujour, Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage (LILA), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL), Victorri, Bernard, Département Littératures et langage - ENS Paris (LILA), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, Université Sorbonne Nouvelle - Paris 3-Université Sorbonne Paris Cité (USPC)-Centre National de la Recherche Scientifique (CNRS)-Université Paris sciences et lettres (PSL)-Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS-PSL), and Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS-PSL)
- Subjects
060201 languages & linguistics ,Linguistics and Language ,parole spontanée ,intonosyntaxe ,syntaxe de l'oral ,06 humanities and the arts ,02 engineering and technology ,natural speech ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,prosodie ,Language and Linguistics ,oral syntax ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,prosody ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,0602 languages and literature ,0202 electrical engineering, electronic engineering, information engineering ,020201 artificial intelligence & image processing ,intonosyntax ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
In order to study the role played by prosodic and syntactic indexes in the structuring of information and discourse flow it is necessary to provide explicit and reproducible annotation procedures. This article presents the prosodic and syntactic annotation schemata developed within the Rhapsodie project and applies them to the analysis of 3 minutes of interview. It will be shown how the two annotations concur to provide a thorough functional analysis of the sound flow., Etudier le rôle que jouent les indices intonosyntaxiques dans la segmentation du continuum sonore en unités discursives et informationnelles suppose de mettre au point des méthodes d'annotation robustes. L'objectif de cet article est de présenter, à la lumière de l'analyse de 3 minutes d'interview extraites du CFPP2000, la méthode d'annotation développée dans le cadre de l'ANR Rhapsodie pour l'analyse intonosyntaxique de parole spontanée, sur le versant de la prosodie d'une part, de la syntaxe d'autre part, et de montrer comment les deux annotations s'éclairent et se complètent pour une étude fonctionnelle du matériel sonore.
- Published
- 2011
44. Transcription automatique de la parole spontanée
- Author
-
Dufour, Richard, Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Université du Maine, and Paul Deléglise(paul.deleglise@lium.univ-lemans.fr)
- Subjects
parole spontanée ,classification ,reconnaissance automatique de la parole ,homophonie ,[INFO]Computer Science [cs] - Abstract
Automatic speech recognition (ASR) systems currently reach enough performance to be integrated in various applications (human-machine dialogue, information retrieval, automatic indexing ...). However, in the context of large vocabulary speech recognition, which is used eg for transcribing radio broadcast, the quality of transcripts varies depending on the type of speech contained in the documents. Indeed, the ASR system performance are much better when transcribing prepared speech, close to a read text . Transcribing pontaneous speech is much more dificult, as it is characterized by many features (disfluencies, ungrammaticality, decreased the fluidity of speech...). This thesis work is the treatment of spontaneous speech and is part of the EPAC project. The main objective is to propose solutions to improve the ASR performance on this type of speech. We chose to address in our work, spontaneous speech as a particular object of study requiring specific treatments. Thus, in a first step, we propose a tool for automatic detection of spontaneous speech, based on its specificities. This tool is very important because it allows us, in a second time, to propose an approach for acoustic and language model adaptation of the ASR system on spontaneous speech without adding data, by automatically selecting the segments containing this type of speech. The transcript resulting from this adaptation offers recognition hypotheses different from those provided by the base system. The combination of these two proposals transcription show a significant reduction of the word error rate. This need for specific solutions finally facing some of our work toward correcting a specific problem, especially present in French: homophony. We then seek to correct the transcripts provided by an ASR system, using a method offering specific solutions to specific problems of homophony. The approach focuses on correcting errors, to which a particular solution is proposed. This post-processing method of ASR systems corrects some classes of words and homophones, regardless of the ASR system used.; Les systèmes de Reconnaissance Automatique de la Parole (RAP) atteignent actuellement des performances suffisantes pour être intégrés dans diverses applications (dialogue homme-machine, recherche d'information, indexation automatique...). Cependant, dans le cadre de la reconnaissance automatique de la parole continue à grand vocabulaire, que l'on utilise par exemple pour transcrire des émissions radiophoniques d'information, la qualité des transcriptions varie selon le type de parole contenu dans les documents. En effet, les systèmes de RAP ont beaucoup plus de facilité à transcrire de la parole préparée, proche d'un texte lu, que de la parole spontanée, caractérisée par de nombreuses spécificités (disfluences, agrammaticalité, baisse de la fluidité de la parole...). Le travail de cette thèse vise le traitement de la parole spontanée et s'inscrit dans le cadre du projet EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la PArole Conversationnelle). L'objectif principal est de proposer des solutions pour améliorer les performances des systèmes de RAP sur ce type de parole. Nous avons choisi d'aborder, dans notre travail, la parole spontanée en tant qu'objet d'étude particulier nécessitant des traitements spécifiques. Ainsi, dans un premier temps, nous proposons un outil de détection automatique de la parole spontanée, basé sur les spécificités de ce type de parole. Cet outil est très important puisqu'il nous permet, dans un deuxième temps, de proposer une approche d'adaptation des modèles acoustiques et des modèles de langage du système de RAP à la parole spontanée sans ajout de données, en sélectionnant automatiquement les segments contenant ce type de parole. La transcription résultant de cette adaptation propose des hypothèses de reconnaissance différentes de celles fournies par le système de base. La combinaison de ces deux propositions de transcription permet d'observer une réduction significative du taux d'erreur-mot. Ce besoin de solutions spécifiques a finalement orienté une partie de notre travail vers la correction d'un problème particulièrement présent en français : l'homophonie. Nous cherchons alors à corriger les transcriptions, fournies par un système de RAP, au moyen d'une méthode proposant des solutions spécifiques à certains problèmes particuliers de l'homophonie. L'approche se focalise sur la correction de certaines erreurs, auxquelles une solution particulière est proposée. Cette méthode, en post-traitement des systèmes de RAP, corrige certains mots et classes de mots homophones, indépendamment du système de RAP utilisé.
- Published
- 2010
45. Automatic transcription of spontaneous speech
- Author
-
Dufour, Richard, Laboratoire d'Informatique de l'Université du Mans (LIUM), Le Mans Université (UM), Université du Maine, Paul Deléglise(paul.deleglise@lium.univ-lemans.fr), and Dufour, Richard
- Subjects
parole spontanée ,classification ,reconnaissance automatique de la parole ,homophonie ,[INFO]Computer Science [cs] ,[INFO] Computer Science [cs] - Abstract
Automatic speech recognition (ASR) systems currently reach enough performance to be integrated in various applications (human-machine dialogue, information retrieval, automatic indexing ...). However, in the context of large vocabulary speech recognition, which is used eg for transcribing radio broadcast, the quality of transcripts varies depending on the type of speech contained in the documents. Indeed, the ASR system performance are much better when transcribing prepared speech, close to a read text . Transcribing pontaneous speech is much more dificult, as it is characterized by many features (disfluencies, ungrammaticality, decreased the fluidity of speech...). This thesis work is the treatment of spontaneous speech and is part of the EPAC project. The main objective is to propose solutions to improve the ASR performance on this type of speech. We chose to address in our work, spontaneous speech as a particular object of study requiring specific treatments. Thus, in a first step, we propose a tool for automatic detection of spontaneous speech, based on its specificities. This tool is very important because it allows us, in a second time, to propose an approach for acoustic and language model adaptation of the ASR system on spontaneous speech without adding data, by automatically selecting the segments containing this type of speech. The transcript resulting from this adaptation offers recognition hypotheses different from those provided by the base system. The combination of these two proposals transcription show a significant reduction of the word error rate. This need for specific solutions finally facing some of our work toward correcting a specific problem, especially present in French: homophony. We then seek to correct the transcripts provided by an ASR system, using a method offering specific solutions to specific problems of homophony. The approach focuses on correcting errors, to which a particular solution is proposed. This post-processing method of ASR systems corrects some classes of words and homophones, regardless of the ASR system used., Les systèmes de Reconnaissance Automatique de la Parole (RAP) atteignent actuellement des performances suffisantes pour être intégrés dans diverses applications (dialogue homme-machine, recherche d'information, indexation automatique...). Cependant, dans le cadre de la reconnaissance automatique de la parole continue à grand vocabulaire, que l'on utilise par exemple pour transcrire des émissions radiophoniques d'information, la qualité des transcriptions varie selon le type de parole contenu dans les documents. En effet, les systèmes de RAP ont beaucoup plus de facilité à transcrire de la parole préparée, proche d'un texte lu, que de la parole spontanée, caractérisée par de nombreuses spécificités (disfluences, agrammaticalité, baisse de la fluidité de la parole...). Le travail de cette thèse vise le traitement de la parole spontanée et s'inscrit dans le cadre du projet EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la PArole Conversationnelle). L'objectif principal est de proposer des solutions pour améliorer les performances des systèmes de RAP sur ce type de parole. Nous avons choisi d'aborder, dans notre travail, la parole spontanée en tant qu'objet d'étude particulier nécessitant des traitements spécifiques. Ainsi, dans un premier temps, nous proposons un outil de détection automatique de la parole spontanée, basé sur les spécificités de ce type de parole. Cet outil est très important puisqu'il nous permet, dans un deuxième temps, de proposer une approche d'adaptation des modèles acoustiques et des modèles de langage du système de RAP à la parole spontanée sans ajout de données, en sélectionnant automatiquement les segments contenant ce type de parole. La transcription résultant de cette adaptation propose des hypothèses de reconnaissance différentes de celles fournies par le système de base. La combinaison de ces deux propositions de transcription permet d'observer une réduction significative du taux d'erreur-mot. Ce besoin de solutions spécifiques a finalement orienté une partie de notre travail vers la correction d'un problème particulièrement présent en français : l'homophonie. Nous cherchons alors à corriger les transcriptions, fournies par un système de RAP, au moyen d'une méthode proposant des solutions spécifiques à certains problèmes particuliers de l'homophonie. L'approche se focalise sur la correction de certaines erreurs, auxquelles une solution particulière est proposée. Cette méthode, en post-traitement des systèmes de RAP, corrige certains mots et classes de mots homophones, indépendamment du système de RAP utilisé.
- Published
- 2010
46. Adaptation des techniques de Text Mining aux données conversationnelles issues de l'oral
- Author
-
Danesi, Charlotte, Université Stendhal - Grenoble 3 - UFR des Sciences du langage, Université Stendhal - Grenoble 3, Thomas Lebarbé, and LLASIC Sciences du langage & FLES, UGA
- Subjects
Erreur de reconnaissance ,Oral speech ,Text mining ,Parole spontanée ,Spontaneous speech ,Skill cartridge ,Règle linguistique ,Recognition errors ,Disfluences ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,Cartouche de connaissance ,Discours oral ,Linguistic pattern ,Disfluencies ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics - Abstract
This thesis tackles the problem of processing data derived from the oral. Indeed, businesses are full of data about their customers, data from satisfaction surveys, forums, call-center... Which are not workable. First, a reminder of existing work on the linguistic analysis of data from the spontaneous speech is proposed (see p. 75 à 80). The manual and automatic transcriptions of speech features from telephone conversations between agents and customers EDF are analyzed (see p. 75 à 80). Finally a solution is proposed to accommodate a Skill Cartridge to specific data (see p. 75)., Ce mémoire aborde la problématique du traitement des données issues de l'oral. En effet, les entreprises regorgent de données concernant leurs clients, données issues d'enquêtes de satisfaction, de forums, d'appels téléphoniques... qui ne sont pas exploitables en l'état. En premier lieu, un rappel des différents travaux existants en matière d'analyse linguistique des données issues de l'oral y est effectué (voir p. 75 à 80). Les transcriptions manuelles et automatiques de ces données orales issues de conversations téléphoniques entre agents EDF et clients y sont ensuite analysées (voir p. 75 à 80). Enfin, une solution permettant d'adapter une cartouche de connaissance à ces données spécifiques y est proposée (voir p. 75).
- Published
- 2010
47. Corpus oral, lecture, parole préparée, parole spontanée
- Author
-
AMRAOUI, Soad (author), Département de linguistique et phonétique générales, Université d'Aix-Marseille (Aix-en-Provence FR) (publisher), http://gsite.univ-provence.fr/document.php?pagendx=5712&project=up, AMRAOUI, Soad, AMRAOUI, Soad (author), Département de linguistique et phonétique générales, Université d'Aix-Marseille (Aix-en-Provence FR) (publisher), http://gsite.univ-provence.fr/document.php?pagendx=5712&project=up, and AMRAOUI, Soad
- Abstract
Ce corpus audio est enregistré dans une classe de maternelle de 32 enfants par un enregistreur Zoom. l'enregistrement est constitué de deux parties, dans la première partie la maîtresse réalise la tâche de lecture d'une histoire et dans la deuxième elle raconte l'histoire sans support écrit. Les transcriptions sont faites sous Praat avec des fichiers Textgrid.
- Published
- 2013
48. Accueil_UBS
- Author
-
Antoine, Jean-Yves, Laboratoire d'Informatique (author), IRCOM (sponsor), ORTOLANG (sponsor), ANTOINE, Jean-Yves, Antoine, Jean-Yves, Laboratoire d'Informatique (author), IRCOM (sponsor), ORTOLANG (sponsor), and ANTOINE, Jean-Yves
- Abstract
Accueil_UBS is a spoken corpus of conversational French. It is freely distributed under a Creative Commons licence (CC BY-SA) with its orthographic transcription., Le corpus Accueil_UBS est un corpus pilote de dialogue oral homme-homme finalisé correspondant à une tâche d'accueil téléphonique par le standard d'une université. Il a été enregistré en conditions réelles au sein de l'Université de Bretagne Sud et regroupe un ensemble de dialogues entre un(e) appelant€ et le personnel d'accueil du standard. Le corpus distribué comprend les fichiers audio enregistrés ainsi qu'une transcription orthographique des dialogues ainsi recueillis. Tous les dialogues sont en français. Il est distribué sous licence CC BY-SA
- Published
- 2013
49. RATP-DECODA
- Author
-
Agence Nationale de la Recherche (sponsor), Laboratoire d'informatique fondamentale de Marseille - UMR 7279 (LIF, Marseille FR) (publisher), http://www.lif.univ-mrs.fr, BECHET, FREDERIC, Agence Nationale de la Recherche (sponsor), Laboratoire d'informatique fondamentale de Marseille - UMR 7279 (LIF, Marseille FR) (publisher), http://www.lif.univ-mrs.fr, and BECHET, FREDERIC
- Abstract
Ce corpus contient environ 2000 dialogues collectés dans le centre d'appel de la RATP, à Paris, dans le cadre du projet ANR DECODA (CONTINT 2009). Ces dialogues sont anonymisés, transcrits manuellement (Transcriber) et étiquetés syntaxiquement (POS, disfluences, entités nommées, analyse en dépendance). Cette ressource contient les fichiers sons et les diverses annotations effectuées.
- Published
- 2013
50. Voyelles brèves en parole conversationnelle
- Author
-
Meunier, Christine, Meynadier, Yohann, Espesser, Robert, Laboratoire Parole et Langage (LPL), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), and Projet financé par l'ILF 2005 (Institut de la Langue Française)
- Subjects
parole spontanée ,durée ,duration ,réduction ,spontaneous speech ,Voyelles ,[SCCO.LING]Cognitive science/Linguistics ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Vowels - Abstract
International audience; This work deals with the phenomenon of vowel reduction in spontaneous speech. Automatic and manual analyses have been conducted on a large conversational speech corpus (CID) to study the extra-short vowels (less than 30 ms), generally excluded from the automatic analyses. A strong reduction in the vocalic system and very short durations are observed for a great proportion of vowels in the corpus. A manual analysis highlights the specific realisations of these extra-short vowels: they are more often in function words than in content words; almost all of them belong to monosyllabic words; their formant values show strong dispersion in F1/F2 plan; a large context is needed for their identification.; Ce travail porte sur le phénomène de réduction vocalique dans la parole spontanée. Des analyses automatiques et manuelles ont été menées sur un large corpus de parole conversationnelle (CID) afin d'étudier les voyelles très brèves. L'analyse manuelle révèle que ces voyelles très brèves sont plus souvent présentes dans des mots fonction que des mots de contenu. Elles se trouvent essentiellement dans des mots monosyllabiques. Enfin elles montrent une grande dispersion dans leur réalisations acoustiques.
- Published
- 2008
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.