44 results on '"VISEO"'
Search Results
2. [Prevention of drink driving at academic festivals: «Tú decides» project]
- Author
-
Jorge, Malveiro, Saul Neves, de Jesus, Joao, Viseo, Pedro, Pechorro, Eusébio, Pacheco, Joaquín Salvador, Lima-Rodríguez, and Marta, Lima-Serrano
- Subjects
Alcohol Drinking ,Universities ,Humans ,Students ,Driving Under the Influence ,Holidays - Abstract
Alcohol consumption among university students has reached worrying levels, its effects on driving being highly dangerous. This aspect emphasizes the need to develop prevention programs, intended to raise subjects' awareness about the effects of alcohol on driving. The aim of the present research is to evaluate the effectiveness of the intervention program «Tú decides», implemented at the Algarve University during several students festivals, between 2010-2014.Quasi-experimental study, pre-post test without control group. A total of 5,079 participants were inquired. They were asked, at two different moments, before and after the measurement of the blood alcohol level and giving an information session with technical recommendations to prevent driving under alcohol effects. One factor ANOVA test used, in order to perform a mean comparison, as well as the Chi-square statistics, to perform a proportion comparison (p.05).It was found that the intention to drive was lower at the second moment (42.1%) (χ(2)=2078.71; p=.000). This intention was influenced by blood alcohol level different levels (χ(2)=338.252; p=.000), gender (χ(2)=35.718; p=.000), age (χ(2)=62.805; p=.000) and professional situation of the participants (χ(2)=27.397; p=.001).We can affirm that the main objective of this intervention was achieved, since the participants followed the technical recommendations based on the blood alcohol level results.
- Published
- 2015
3. Peuplement d'une base de connaissance par annotation automatique de textes relatifs à la cosmétique
- Author
-
Molka Tounsi, Cédric Lopez, Catherine Faron Zucker, Elena Cabrio, Fabien Gandon, Frédérique Segond, Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), VISEO - Objet Direct, VISEO, Catherine Roussey, Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
- Subjects
[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience; Dans cet article, nous proposons une approche pour construire une base de connaissances à partir de textes dans le domaine de la cosmétique. Il s’agit d’un cas particulier pour un domaine fixé du problème de l’extraction de relations à partir de textes. Dans le but de résoudre ce problème, nous proposons une approche semi-supervisée pour l’extraction des relations en combinant deux méthodes : (i) la construction de patrons d’extraction à partir des résumés présents dans les pages de DBpedia, (ii) l’annotation manuelle d’un ensemble de textes pour définir des patrons syntaxiques pour extraire les relations. Nous avons évalué notre approche sur deux types de corpus : (i) un premier corpus est composé d’articles de journaux spécialisés, tels que au féminin. com et Cosmétique Hebdo, (ii) un deuxième corpus est constitué d’un ensemble de phrases collectées sur sur le Web. L’évaluation présentée dans cet article combine les résultats des trois méthodes.
- Published
- 2017
4. OntoCoins : données ouvertes liées pour la numismatique, patrimoine culturel
- Author
-
Lopez, Cédric, Le Brazidec, Marie-Laure, Chevillon, Jean-Albert, Couturas, Francis, Hollard, Dominique, Pierre, Aurélien, VISEO - Objet Direct, VISEO, Travaux et recherches archéologiques sur les cultures, les espaces et les sociétés (TRACES), Ministère de la Culture et de la Communication (MCC)-École des hautes études en sciences sociales (EHESS)-Université Toulouse - Jean Jaurès (UT2J)-Centre National de la Recherche Scientifique (CNRS), Catherine Roussey, and Roussey, Catherine
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,ComputingMilieux_MISCELLANEOUS ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience
- Published
- 2017
5. Une approche hybride pour la détection d'influenceurs dans les médias sociaux
- Author
-
Patel, Namrata, Lopez, Cédric, Partalas, Ioannis, Segond, Frédérique, VISEO - Objet Direct, VISEO, Catherine Roussey, and Roussey, Catherine
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,ComputingMilieux_MISCELLANEOUS ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] - Abstract
National audience
- Published
- 2017
6. D3.1 ICT Platform architecture
- Author
-
Garcia Garza, Issa, Carli, Iacopo, Pusch, Andreas, Morosi, Federico, VISEO - Objet Direct, VISEO, Politecnico di Milano [Milan] (POLIMI), Conception collaborative (G-SCOP_CC ), Laboratoire des sciences pour la conception, l'optimisation et la production (G-SCOP), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Viseo Technologie, 94 rue de Paris, 92100 Boulogne-Billancourt, and European Project: 688417,H2020,H2020-ICT-2015,SPARK(2016)
- Subjects
[PHYS.MECA.GEME]Physics [physics]/Mechanics [physics]/Mechanical engineering [physics.class-ph] - Published
- 2017
7. Monnayages à la croix du Sud-Ouest de la Gaule : état des connaissances et actualité de la recherche
- Author
-
Lopez, Cédric, Le Brazidec, Marie-Laure, VISEO - Objet Direct, VISEO, Travaux et recherches archéologiques sur les cultures, les espaces et les sociétés (TRACES), and École des hautes études en sciences sociales (EHESS)-Université Toulouse - Jean Jaurès (UT2J)-Ministère de la Culture et de la Communication (MCC)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Gaule celtique ,[SHS.ARCHEO]Humanities and Social Sciences/Archaeology and Prehistory ,Monnayage gaulois ,Numismatique antique ,Sud-Ouest de la France ,ComputingMilieux_MISCELLANEOUS ,Monnaies celtiques - Abstract
International audience
- Published
- 2017
8. D2.3 SPARK modules prototype
- Author
-
Caruso, Giandomenico, Carli, Iacopo, Noël, Frédéric, Garzia Garza, Isaac, Dutreve, Ludovic, Politecnico di Milano [Milan] (POLIMI), Conception collaborative (G-SCOP_CC ), Laboratoire des sciences pour la conception, l'optimisation et la production (G-SCOP), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), VISEO - Objet Direct, VISEO, Politecnico de milano, and European Project: 688417,H2020,H2020-ICT-2015,SPARK(2016)
- Subjects
[PHYS.MECA.GEME]Physics [physics]/Mechanics [physics]/Mechanical engineering [physics.class-ph] - Published
- 2016
9. Non-standard texts: from theoretical positions to Natural Language Processing normalisation
- Author
-
Lopez, Cédric, Roche, Mathieu, Panckhurst, Rachel, VISEO - Objet Direct, VISEO, Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), CENTAL, UCL, Louvain-la-Neuve, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Département Environnements et Sociétés (Cirad-ES), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), and Panckhurst, Rachel
- Subjects
C30 - Documentation et information ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,SMS ,Normalisation ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Natural Language Processing - Abstract
A finalised digital resource of 88,000 anonymised French text messages, the 88milSMS corpus, two extracts (1,000 SMS transcoded into standardised French and 100 linguistically annotated SMS) and sociolinguistic questionnaire data were released in June 2014 for all to download via a user free-of-charge licence agreement, from the Huma-Num web service (http://88milsms.huma-num.fr, Panckhurst et al., 2014). The sud4science project (http://sud4science.org, Panckhurst et al. 2013), enabling authentic text message collection from the general public by a group of academics, is part of a vast international initiative (http://www.sms4science.org/, Fairon et al. 2006, Cougnon and Fairon, 2014, Cougnon 2015), to build a worldwide database and analyse authentic text messages in different languages. We decided to exclude full transcoding and annotation tagging in the final corpus. This is a theoretical position, since annotation is far from neutral, and is invariably linked to an interpretative framework. Owing to varying theoretical disciplinary and scientific stances, it seems that a true consensus on how to standardise the transcoding and linguistic annotation tagging does not exist (Panckhurst, 2015). Other researchers may disagree and prefer to provide both 'raw' and fully tagged corpora (Chanier et al. 2014). This theoretical position does not exclude exploring Natural Language Processing (NLP) investigation techniques, which could then be implemented in real-life applications. Examples of investigation techniques are indicated as follows: 1) Our corpus can be used to analyse current mediated electronic discourse, and help build knowledge on different SMS writing forms (Roche et al. 2015). 2) Algorithms may be used to learn from this: alignment methods for facilitating automatic transcoding have been explored (Aw et al. 2006, Beaufort et al., 2008, Guimier de Neef and Fessard, 2007, Kobus et al, 2008, Lopez et al, 2014). 3) We have devised a method for classifying 'unknown' items within text messages, which may help to automatically identify lexical 'creativity' within 88milSMS and improve electronic dictionary approaches (Lopez et al. 2015). In order to refine automatic normalisation techniques for initially non-standard texts in French, the next logical step is to compare our resource with different types of instant media (i.e. SMS, forums, tweets). Firstly, a new typology of the detected 'mistakes', based on existing typologies, will be elaborated. Secondly, automatic normalisation techniques — focusing on the most frequent errors — will be proposed. These will then be confronted with traditional automatic translation (Vilariño et al., 2012), speech recognition (Kobus et al., 2008) and spelling/grammatical checker principles (Beaufort et al., 2010). Finally, the approach should enable comparison between different types of instant media.
- Published
- 2016
10. D2.1 Technologies and techniques - state of the art updates
- Author
-
Caruso, Giandomenico, Becattini, Niccolo, Noël, Frédéric, Pusch, Andreas, Martens, Philippe, Garcia Garza, Issac Noe, Dutreve, Ludovic, Politecnico di Milano [Milan] (POLIMI), Conception collaborative (G-SCOP_CC ), Laboratoire des sciences pour la conception, l'optimisation et la production (G-SCOP), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), University of Antwerp (UA), University of Antwerp Management School (UAMS), VISEO - Objet Direct, VISEO, Politecnico de milano, European Project: 688417,H2020,H2020-ICT-2015,SPARK(2016), and University of Antwerp (UA)
- Subjects
[PHYS.MECA.GEME]Physics [physics]/Mechanics [physics]/Mechanical engineering [physics.class-ph] - Published
- 2016
11. La néographie dans un grand corpus de SMS français : 88milSMS
- Author
-
Roche, Mathieu, Verine, Bertrand, Lopez, Cédric, Panckhurst, Rachel, Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), VISEO - Objet Direct, VISEO, Joaquín García Palacios, Goedele De Sterck, Daniel Linder, Nava Maroto, Miguel Sánchez Ibáñez, Jesús Torres del Rey, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Praxiling (Praxiling), and Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
TAL ,C30 - Documentation et information ,000 - Autres thèmes ,Écriture SMS ,U30 - Méthodes de recherche ,Néographie ,Pratiques scripturales ,Corpus ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; Depuis 2014, le corpus 88milSMS est disponible en téléchargement public (Panckhurst et al., 2014, http://88milsms.huma-num.fr/). Contenant plus de 88 000 SMS authentiques en français recueillis dans le cadre du projet sud4scienceLR (http://www.sud4science.org/), ce corpus anonymisé permet aux chercheurs d’analyser, en employant ou non des techniques de traitement automatique des langues (TAL), l’évolution de l’une des facettes de la langue française, l’écriture SMS (eSMS).Dans cet article, nous laisserons de côté la néologie dans sa dimension de créativité lexicale — dérivation, les mots-valises (cinglicité), les emprunts (now, wesh), l’écriture non intentionnée, correspondant souvent à des erreurs de saisie (tladucteur), ou l’écriture incluant des caractères spéciaux, des chiffres (resto+cine, Ar5gggggggh), (Détrie 2015), pour aborder plus spécifiquement la néographie, ou la créativité scripturale, bien que les frontières entre néologie (« une réalité difficile à cerner » selon Pruvost/Sablayrolles, 2012) et néographie soient parfois ténues (Cougnon 2015). Comme Anis (1998), nous désignons par néographie des variantes de graphie qui s’éloignent de la langue standardisée, souvent de manière délibérée, ludique, et qui sont très présentes et instables dans l’eSMS. Dans des travaux préliminaires, nous avons rencontré, entre autres, des phénomènes néographiques de substitution (o/eau, ossi/aussi, kikou/coucou, twa/toi), d’ajout (répétition de caractères/signes de ponctuation : booooooooof/bof, j’arrriiiiiiivvve !!!!!, ajouts de caractères : les zamours, représentations sémiologiques/frimousses/emoji,:), ^^,J), de suppression (signes diacritiques: europeen/européen, ponctuation), et de réduction, (abrègements morpho-lexicaux: mdr/mort de rire, apocopes : ordi/ordinateur, aphérèses : zou/bisou, suppression de consonnes doubles : ele/elle, fins de mots effacées : tro/trop, agglutinations : tetrangle, squelettes consonantiques : slt/salut, abréviations : qd/quand, abréviations sémantisées : f=fais/fera(i)s/faisais : tu f koi ?).Nous confronterons notre typologie, § 1 (Panckhurst 2009, Panckhurst et al. 2013), au corpus 88milSMS à partir d’un fichier généré informatiquement (Lopez/Roche/Panckhurst 2015), après exclusion des mots apparaissant au sein du Lexique Électronique des Formes Fléchies du Français (LEFFF, (Sagot 2010)). Il s’agit de mieux comprendre quelles sont les pratiques scripturales de l’eSMS qui sont les plus redondantes au sein de 88milSMS. Outre une étude statistique § 2, nous focaliserons cette communication sur les lettres uniques qui renvoient à un mot (« tu f koi ? »), en étudiant dans quelle mesure un même scripteur varie ses pratiques, et en corrélant les usages aux caractéristiques sociologiques indiquées dans le questionnaire annexé à la collecte § 3.
- Published
- 2016
- Full Text
- View/download PDF
12. De la collecte à l'analyse d'un corpus de SMS authentiques : une démarche pluridisciplinaire
- Author
-
Mathieu Roche, Claudine Moïse, Catherine Détrie, Cédric Lopez, Bertrand Verine, Rachel Panckhurst, Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-Centre National de la Recherche Scientifique (CNRS), Département Environnements et Sociétés (Cirad-ES), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), VISEO - Objet Direct, VISEO, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM ), Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3-Université Grenoble Alpes (UGA), and Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM)
- Subjects
Linguistics and Language ,SMS ,Corpus ,alignement ,dictionnaires électroniques ,logiciel d’anonymisation ,discours électronique médié ,traitement automatique du langage naturel (TALN) ,données authentiques ,pluridisciplinarité ,media_common.quotation_subject ,02 engineering and technology ,Language and Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,Dictionnaires électroniques ,Pluridisciplinarity ,Authentic data ,0202 electrical engineering, electronic engineering, information engineering ,alignment ,electronic dictionaries ,anonymisation software ,mediated electronic discourse ,natural language processing (NLP) ,authentic data ,pluridisciplinarity ,media_common ,Alignment ,060201 languages & linguistics ,Données authentiques ,Pluridisciplinarité ,Electronic dictionary ,Discours électronique médié ,U10 - Informatique, mathématiques et statistiques ,Natural language processing ,Anonymisation software ,000 - Autres thèmes ,06 humanities and the arts ,Art ,Mediated electronic discourse ,Linguistics ,Traitement automatique du langage naturel ,Philosophy ,Chose ,Alignement ,C30 - Documentation et information ,0602 languages and literature ,020201 artificial intelligence & image processing ,Logiciel d’anonymisation ,U30 - Méthodes de recherche - Abstract
This article highlights an approach based on authentic data, by focusing on recent research related to collection, processing and analysis of a large French text-message corpus, entitled 88milSMS (http://88milsms.huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), including a sociolinguistic questionnaire submitted to donors (with their answers). The authors, using a pluridisciplinary approach (linguistics/ language sciences, computer science, Natural Language Processing), explain why they chose to give the scientific community and the general public access to the SMS corpus., Nous présentons notre approche fondée sur les données authentiques, en nous concentrant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé 88milSMS (http://88milsms. huma-num.fr/, Panckhurst, Détrie, Lopez, Moïse, Roche, Verine, 2014), incluant un questionnaire sociolinguistique soumis aux donateurs au moment de la collecte ainsi que leurs réponses. Puis nous expliquons pourquoi, dans une démarche pluridisciplinaire (située entre sciences du langage, informatique et traitement automatique du langage naturel), nous avons décidé de fournir à la communauté scientifique et au grand public le corpus de SMS., Panckhurst Rachel, Roche Mathieu, Lopez Cédric, Verine Bertrand, Détrie Catherine, Moïse Claudine. De la collecte à l’analyse d’un corpus de SMS authentiques : une démarche pluridisciplinaire. In: Histoire Épistémologie Langage, tome 38, fascicule 2, 2016. Constitution de corpus linguistiques et pérennisation des données. pp. 73-85.
- Published
- 2016
- Full Text
- View/download PDF
13. Dites-le dans le français que vous voulez !
- Author
-
Panckhurst, Rachel, Détrie, Catherine, Lopez, Cédric, Moïse, Claudine, Roche, Mathieu, Verine, Bertrand, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), VISEO - Objet Direct, VISEO, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3-Université Grenoble Alpes (UGA), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Université Stendhal - Grenoble 3, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), and Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM)
- Subjects
SMS ,CSA ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; « Dites-le en français » ! Le 16 mars 2015, le CSA a réalisé une campagne de trois vidéos. Des chercheurs (linguistes et informaticiens), tous membres du projet équipe sud4science sur les SMS, s'insurgent contre leur contenu qui dévalorise l'écriture SMS.
- Published
- 2015
14. Classification des items inconnus de 88milSMS : aide à l'identification automatique de la créativité scripturale
- Author
-
Lopez, Cédric, Roche, Mathieu, Panckhurst, Rachel, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), VISEO - Objet Direct, VISEO, ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Praxiling (Praxiling), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), and Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Items inconnus ,Méthode statistique ,Identification automatique ,Analyse de données ,Communication ,000 - Autres thèmes ,Logiciel ,Classification ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,information ,Créativité scripturale ,C30 - Documentation et information ,SMS ,Classification (information) ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,linguistique - Abstract
International audience; The sud4science LR project (http://www.sud4science.org/) aimed at studying a fairly recent form of written communication: SMS (Short Message Service). The first step of the project was to collect a large number of text messages from the general public. We initially gathered 93'085 SMS and our final corpus, entitled 88milSMS, contains over 88'000 SMS.2 In this article, we propose a novel approach(which is also applicable to other textual data)for classifying unknown items in 88milSMS, based on two steps: 1) Classification of SMS in relation to 5 European languages (French, Spanish, English, German, Italian), 2) Classification of unknown items according to predefined classes (schedules, items containing special character(s), number(s), words without accents, or with repeated characters, etc.). We are then able to make a distinction between the truly "original" items which are widely used compared to those that are rarely used in the corpus. Based on examples mined in the different classes, we present a preliminary analysis of the obtained resource.
- Published
- 2015
15. Seek&Hide: Anonymising a french SMS corpus using natural language processing techniques
- Author
-
Roche, Mathieu, Panckhurst, Rachel, Lopez, Cédric, Accorsi, Pierre, Patel, Namrata, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Cougnon Louise-Amélie, Fairon Cédrick, Université Montpellier 2 - Sciences et Techniques (UM2), Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), VISEO - Objet Direct, VISEO, Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Louise-Amélie Cougnon, Cédrick Fairon, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Praxiling (Praxiling), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
C30 - Documentation et information ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,000 - Autres thèmes ,Anonymization ,French SMS ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,NLP ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience; This article presents the system Seek&Hide, a text message processing tool developed for the sud4science LR (http://www.sud4science.org/) project. It performs the anonymisation/de-iden- ti cation of a corpus. At present, it has been used to anonymise the sud4science LR corpus of French text messages collected during the project. is is done in two phases. In the rst phase, it automatically processes over 70% of the corpus. e rest of the corpus is processed in the second phase, aided by an expert annotator via a web interface speci cally designed to simplify the task.
- Published
- 2014
- Full Text
- View/download PDF
16. Bilan du projet de recherche 2012-2013 de la D.G.L.F.L.F. (Délégation générale à la langue française et aux langues de France)
- Author
-
Panckhurst, Rachel, Détrie, Catherine, Lopez, Cédric, Moïse, Claudine, Roche, Mathieu, Verine, Bertrand, Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), VISEO - Objet Direct, VISEO, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3, Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), DGLFLF, Remis à la D.G.L.F.L.F., Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), Université Stendhal - Grenoble 3-Université Grenoble Alpes (UGA), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), and Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-AgroParisTech-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)
- Subjects
anonymisation ,annotation ,transcodage ,discours électronique médié ,SMS en français ,analyses (socio-) linguistiques ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
L’objectif du projet « Pratiques contemporaines de la textualité numérique : observation, description et analyse d’un grand corpus de SMS » est d’effectuer des recherches pluridisciplinaires sur un corpus de 88 683 SMS authentiques épurés en langue française, recueillis en 2011, dans le cadre du programme sud4science Languedoc-Roussillon. Mutation des pratiques scripturales en communication électronique médiée (http://www.sud4science.org), lui-même s’insérant dans un vaste projet international intitulé sms4science (http://www.sms4science.org, Fairon, et al., 2006). D’une part, nous cherchons, grâce à une approche pluridisciplinaire, à modéliser les usages linguistiques et discursifs propres aux SMS, et à les mettre en relation avec les contraintes et les fonctionnalités numériques spécifiques de ce support. Cette analyse nous permettra notamment de mettre à jour des pratiques – scripturales et langagières – générationnelles, groupales, socioculturelles, affectives, etc. Nous montrerons, entre autres, les spécificités énonciatives, morphosyntaxiques, lexicales, sémantiques et pragmatiques de l’écriture SMS (eSMS, Panckhurst 2009). D’autre part, notre objectif est de mettre à la disposition de la communauté scientifique, et plus largement, de tous ceux qui sont intéressés par les mutations sociales, comme les responsables des politiques publiques en matière d’éducation et d’intégration sociale, un corpus organisé en une base de données directement consultable. Dans ce but, le corpus de SMS « bruts » doit obligatoirement être anonymisé, comme suit :SMS brut :Coco est pas la ! Éva non plus ! Tanpis ! Lol J'irai aux journée du patrimoine ! Éva m'a dit que tu venais cette semaine peut etre ! Bisous ! !SMS anonymisé : est pas la ! non plus ! Tanpis ! Lol J'irai aux journée du patrimoine ! m'a dit que tu venais cette semaine peut etre ! Bisous ! !Du SMS « brut » au SMS anonymisé. (Les chiffres renvoient au nombre de caractères du prénom dans le SMS brut.)Onze étiquettes sont utilisées pour cette phase : Prénom (PRE), Nom (NOM), Surnom (SUR), Adresse (ADR), Lieu (LIE), Numéro de téléphone (TEL), Code (COD), URL (URL), Marque (MAR), Courriel (MEL), Autre. Par la suite, le corpus pourra également être partiellement transcodé en français « standardisé ». Le transcodage est utile pour le grand public, ou pour ceux qui veulent lire et comparer rapidement les SMS bruts et transcodés :SMS transcodé : est pas là ! non plus ! Tant pis ! Lol. J'irai aux journées du patrimoine ! m'a dit que tu venais cette semaine peut-être ! Bisous ! !Un exemple de SMS transcodéEnfin, une phase d’annotation optionnelle prévoit l’utilisation de huit étiquettes : ABSence, BINettes, DIVers, GRAmmaire, LANgage, MODification, ORThographe, TYPographie. Quatre de ces étiquettes sont utilisées dans le tableau ci-dessous (un double étiquetage peut être employé en cas d’ambiguïté). De cette manière, des chercheurs, des enseignants, des personnes travaillant dans des secteurs socioculturels divers, etc. pourront effectuer des fouilles ultérieures (semi-) automatisées afin de recueillir de l’information pertinente relative à leurs spécialités :SMS annoté : est pas là ! non plus ! Tant pis ! Lol . J'irai aux journées du patrimoine ! m'a dit que tu venais cette semaine peut-être ! Bisous ! !Un exemple de SMS annoté (étiquettes indiquées en gras)Nous présentons les étapes suivantes dans la synthèse de notre recherche : acquisition préliminaire des données dans le cadre du projet sud4science LR, anonymisation, transcodage, analyses (socio)linguistiques, et traitement ultérieur et diffusion du corpus.
- Published
- 2013
17. Approaches of anonymisation of an SMS corpus
- Author
-
Mathieu Roche, Pierre Accorsi, Cédric Lopez, Namrata Patel, Diana Inkpen, Graphs for Inferences on Knowledge (GRAPHIK), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria), Université Montpellier 2 - Sciences et Techniques (UM2), University of Ottawa [Ottawa], VISEO - Objet Direct, VISEO, Exploration et exploitation de données textuelles (TEXTE), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Inria Sophia Antipolis - Méditerranée (CRISAM), and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Short Message Service ,020205 medical informatics ,business.industry ,Computer science ,Process (engineering) ,02 engineering and technology ,computer.software_genre ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,0202 electrical engineering, electronic engineering, information engineering ,020201 artificial intelligence & image processing ,Artificial intelligence ,Data mining ,business ,computer ,Natural language processing - Abstract
International audience; This paper presents two anonymisation methods to process an SMS corpus. The first one is based on an unsupervised approach called Seek&Hide. The implemented system uses several dictionaries and rules in order to predict if a SMS needs anonymisation process. The second method is based on a supervised approach using machine learning techniques. We evaluate the two approaches and we propose a way to use them together. Only when the two methods do not agree on their prediction, will the SMS be checked by a human expert. This greatly reduces the cost of anonymising the corpus.
- Published
- 2013
- Full Text
- View/download PDF
18. The PEW Framework for Worth Mapping
- Author
-
Rachel Demumieux, Fatoumata Camara, Gaëlle Calvary, VISEO - Objet Direct, VISEO, Ingénierie de l’Interaction Homme-Machine (IIHM), Laboratoire d'Informatique de Grenoble (LIG), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF), Orange Communications SA, Kotzé, Paula and Marsden, Gary and Lindgaard, Gitte and Wesson, Janet and Winckler, and Marco
- Subjects
Operationalization ,Process (engineering) ,Computer science ,business.industry ,05 social sciences ,Usability ,Data science ,Set (abstract data type) ,Order (business) ,0502 economics and business ,050211 marketing ,0501 psychology and cognitive sciences ,Artificial intelligence ,[INFO.INFO-HC]Computer Science [cs]/Human-Computer Interaction [cs.HC] ,business ,050107 human factors - Abstract
September 2-6, 2013; International audience; In Human Computer Interaction, it is more and more clear that usability is not enough. In order to take into account the other criteria that may be relevant for design, G. Cockton introduced the notion of "worth" and the Worth Centered Design (WCD) framework for its operationalization. The WCD framework structures the development process and provides designers with a set of tools, including Worth Maps (WMs). Worth maps connect systems attributes to human ones, and as such represent a promising tool. However, they remain understudied and under-experimented. This paper presents the results of our experience with WMs. More precisely, it proposes the PEW (Perceived and Expected Worth) framework for worth mapping, reports findings from a study conducted with 5 experts regarding many aspects of WMs, and discusses future directions for research. Keywords: Interactive systems design, worth, Worth Maps (WMs).
- Published
- 2013
19. CAD modelling based on knowledge synthesis for design rational
- Author
-
Anthony Geromin, Lionel Roucoules, François Malburet, Cédric Lopez, Laboratoire des Sciences de l'Information et des Systèmes (LSIS), Centre National de la Recherche Scientifique (CNRS)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Université de Toulon (UTLN)-Aix Marseille Université (AMU), Arts et Métiers Paristech ENSAM Aix-en-Provence, VISEO, Aix Marseille Université (AMU)-Université de Toulon (UTLN)-Arts et Métiers Paristech ENSAM Aix-en-Provence-Centre National de la Recherche Scientifique (CNRS), and Administrateur Ensam, Compte De Service
- Subjects
0209 industrial biotechnology ,[SPI] Engineering Sciences [physics] ,Computer science ,020209 energy ,Knowledge synthesis, CAD modelling, design maturity visualisation, color-coding ,Color-coding ,CAD ,02 engineering and technology ,Space (commercial competition) ,computer.software_genre ,Sciences de l'ingénieur ,color-coding ,design maturity visualisation ,[SPI]Engineering Sciences [physics] ,020901 industrial engineering & automation ,Product lifecycle ,0202 electrical engineering, electronic engineering, information engineering ,Computer Aided Design ,General Environmental Science ,Point (typography) ,business.industry ,Knowledge synthesis ,General Earth and Planetary Sciences ,CAD modelling ,Engineering design process ,Software engineering ,business ,computer - Abstract
International audience; Although many new methodological and modelling concepts have been proposed by the scientific community, current industries are still focusing their engineering design process on CAD model since they assume it is the starting point of many analyses with respect to product life cycle (CAM, FEA, LCA…). The paper presents the application of modelling concepts that lead the progressive justification of CAD model with respect to knowledge synthesis by least commitment. Design experts are first formalizing their knowledge that is therefore translated to form features and parameters (topology, position, orientation, dimensions…). The results show that this new design approach and models support design intents and rational, but the generated CAD model is not fully justified. That drives to many conclusions: CAD model is many often non-100% rational by designers’ knowledge, design solution space is therefore larger than the one modelled in CAD software and could be used to foster innovation.
- Published
- 2018
20. Detecting Influencial Users in Social Networks: Analysing Graph-Based and Linguistic Perspectives
- Author
-
Damien Nouvel, Namrata Patel, Frédérique Segond, Cédric Lopez, Pierre-Alain Avouac, Kévin Deturck, Ioannis Partalas, VISEO, Institut National des Langues et Civilisations Orientales (Inalco), Université Paul-Valéry - Montpellier 3 (UPVM), Emvista, Expedia [Lausanne], Eunika Mercier-Laurent, Danielle Boulanger, TC 12, WG 12.6, and Université Paul-Valéry - Montpellier 3 (UM3)
- Subjects
Social network ,business.industry ,Computer science ,05 social sciences ,Graph based ,Linguistics ,02 engineering and technology ,Social media ,Influence ,0202 electrical engineering, electronic engineering, information engineering ,Graph (abstract data type) ,Centrality ,020201 artificial intelligence & image processing ,[INFO]Computer Science [cs] ,0509 other social sciences ,050904 information & library sciences ,business - Abstract
International audience; There has been increasing interest in the artificial intelligence community for influencer detection in recent years for its utility in singling out pertinent users within a large network of social media users. This could be useful, for example in commercial campaigns, to promote a product or a brand to a relevant target set of users. This task is performed either by analysing the graph-based representation of user interactions in a social network or by measuring the impact of the linguistic content of user messages in online discussions. We performed independent studies for each of these methods in the present paper with a hybridisation perspective. In the first study, we extract structural information to highlight influence among interaction networks. In the second, we identify linguistic features of influential behaviours. We then compute a score of user influence using centrality measures with the structural information for the former and a machine learning approach based on the relevant linguistic features for the latter.
- Published
- 2017
- Full Text
- View/download PDF
21. Extraction de relations pour le peuplement d'une base de connaissance à partir de tweets
- Author
-
Lopez, Cédric, Cabrio, Elena, Segond, Frédérique, Laboratoire de Neurosciences intégratives et adaptatives (LNIA), Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Équipe de Recherche en Textes, Informatique, Multilinguisme (ERTIM), Institut National des Langues et Civilisations Orientales (Inalco), Viseo, R&D , Grenoble, ANR-13-LAB2-0001,SMILK,Social Media Intelligence and Linked Knowledge(2013), Segond, Frédérique, Laboratoires communs organismes de recherche publics – PME/ETI - Social Media Intelligence and Linked Knowledge - - SMILK2013 - ANR-13-LAB2-0001 - LabCom - VALID, Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-WB] Computer Science [cs]/Web ,knowledge representation ,[INFO.INFO-WB]Computer Science [cs]/Web ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,représentation des connaissances ,[SCCO.LING]Cognitive science/Linguistics ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,semantic web ,ProVoc ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,ontologies ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,[SCCO.LING] Cognitive science/Linguistics ,web sémantique ,ontologie - Abstract
International audience; Dans une base de connaissance, les entités se veulent pérennes mais certains événements induisent que les relations entre ces entités sont instables. C'est notamment le cas pour des relations entre organisations, produits, ou marques, entités qui peuvent être rachetées. Dans cet article, nous proposons une approche permettant d'extraire des relations d'appartenance entre deux entités afin de peu-pler une base de connaissance. L'extraction des relations à partir d'une source dynamique d'informations telle que Twitter permet d'atteindre cet objectif en temps réel. L'approche consiste à modéliser les événements en s'appuyant sur une ressource lexico-sémantique. Une fois les entités liées au Web des données ouvertes (en particulier DBpedia), des règles linguistiques sont appliquées pour finalement générer les triplets RDF qui représentent les événements.
- Published
- 2017
22. Stratégies de génération de leads : de l'attraction à l'enchantement du client à l'ère du marketing digital
- Author
-
Sidibé, Adama, Université Grenoble Alpes - Institut d'Administration des Entreprises (UGA IAE), Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Viseo Technologie, 94 rue de Paris, 92100 Boulogne-Billancourt, and Agnès Helme-Guizon
- Subjects
Entreprises -- Analyse stratégique ,[SHS.GESTION]Humanities and Social Sciences/Business administration ,Webmarketing ,Marketing digital - Abstract
On dénombre aujourd’hui 3,77 milliards d’internautes dans le monde, soit 50% de la population mondiale et 2,79 milliards d’individus inscrits sur les réseaux sociaux, soit 37% de la population mondiale. D’où l’essor, du marketing digital qui peut se définir comme l’atteinte d’objectifs propres au marketing traditionnel par le biais des technologies numériques, tout en cherchant à établir une relation plus poussée et personnalisée avec le client (Chaffey et Ellis-Chadwick, 2012). Cependant, on peut se demander si les techniques issues du marketing digital peuvent être appliquées dans tous les domaines, sans condition et de manière uniforme ? Notre réflexion s’articulera donc autour de la question suivante : En quoi les stratégies et outils de marketing digital permettent de générer des leads qualifiés dans un domaine aussi spécifique que la microfluidique ? Pour répondre au mieux à cette interrogation, nous allons tout d’abord définir le processus de génération de leads grâce aux outils de marketing digital puis, dans un second temps, nous identifierons et analyserons les actions de marketing digitales mises en place pour la gestion et l’animation de Makefluidics.com.
- Published
- 2017
23. Du TALN au LOD : Extraction d'entités, liage, et visualisation
- Author
-
Lopez, Cédric, Osmuk, Matthieu, Popovici, Dana, Nooralahzadeh, Farhad, Rabarijaona, Domoina, Gandon, Fabien, Cabrio, Elena, Segond, Frédérique, Viseo, R&D , Grenoble, Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
- Subjects
Visualisation ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Données ouvertes ,Ontologies ,Extraction d’entités nommmées - Abstract
National audience; Dans un contexte de veille stratégique, nous avons développé un prototype prenant la forme d'un plugin de navigateur ayant pour principale ambition d'enrichir les connaissances des utilisateurs naviguant sur le Web. Au fur et à mesure de la navigation sur le Web, le système peuple la base de connaissance et tisse des liens avec le Web des données ouvertes que l'utilisateur peut parcourir. Ce prototype s'appuie et démontre en pratique des techniques d'extraction d'entités d'intérêts et de leurs relations dans une page Web couplées à une représentation des connaissances extraites au format du web sémantique et liées avec des données du Linked Open Data. Finalement le plugin propose une visualisation en temps réel de l'ensemble de ces données liées en regard des pages consultées.
- Published
- 2016
24. The SYNODOS Project: System for the Normalization and Organization of Textual Medical Data for Observation in Healthcare
- Author
-
P. Arnod-Prin, André Bittar, M.-H. Metzger, Stéfan Jacques Darmoni, L. Dini, C. Bouvry, Ivan Kergourlay, Frédérique Segond, Nastassia Tvardik, Laboratoire de Biométrie et Biologie Evolutive - UMR 5558 (LBBE), Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-VetAgro Sup - Institut national d'enseignement supérieur et de recherche en alimentation, santé animale, sciences agronomiques et de l'environnement (VAS)-Centre National de la Recherche Scientifique (CNRS), Service d'informatique biomédicale [Rouen], CHU Rouen, Normandie Université (NU)-Normandie Université (NU)-Université de Rouen Normandie (UNIROUEN), Normandie Université (NU), Holmes Semantic Solutions, Viseo Technologies, Laboratoire d'Informatique Médicale et Ingénierie des Connaissances en e-Santé (LIMICS), Université Paris 13 (UP13)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Sorbonne Université (SU), Equipe Traitement de l'information en Biologie Santé (TIBS - LITIS), Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes (LITIS), Université Le Havre Normandie (ULH), Normandie Université (NU)-Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Institut National des Sciences Appliquées (INSA)-Université Le Havre Normandie (ULH), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Institut National des Sciences Appliquées (INSA), Unité d'hygiène hospitalière et d'épidémiologie, Hospices Civils de Lyon, 5 place d'Arsonval, 69437 Lyon cedex 03, France, Hospices Civiles de Lyon, ANR-12-TECS-0006,SYNODOS,SYstème de Normalisation et d'Organisation de Données médicales textuelles pour l'Observation en Santé(2012), Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Institut National des Sciences Appliquées (INSA)-Normandie Université (NU)-Université de Rouen Normandie (UNIROUEN), and Normandie Université (NU)-Université Le Havre Normandie (ULH)
- Subjects
Medical algorithm ,Information retrieval ,020205 medical informatics ,Computer science ,Business rule ,business.industry ,Terminology extraction ,Biomedical Engineering ,Biophysics ,Unstructured data ,02 engineering and technology ,computer.software_genre ,Expert system ,Terminology ,03 medical and health sciences ,0302 clinical medicine ,Knowledge base ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,0202 electrical engineering, electronic engineering, information engineering ,030212 general & internal medicine ,User interface ,business ,computer ,ComputingMilieux_MISCELLANEOUS - Abstract
Introduction The electronic health record (EHR) is a very important potential source of data for various areas, such as medical decision support tools, evidence-based medicine or epidemiological surveillance. Much of this data is available in text format. Methods of natural language processing can be used to perform data mining and facilitate interpretation. The purpose of this project was to develop a generic semantic solution for extracting and structuring medical data for epidemiological analyses or for medical decision-support. The solution was developed with the objective of making it as independent as possible from the field of medical application in order to allow any new user to write his or her own expert rules regardless of their area of medical expertise. Material and methods SYNODOS offers a modular architecture that makes a clear distinction between the linguistic rules and the medical expert rules. Different modules have been developed or adapted for this purpose: an interface between the multi-terminology server and semantic analyzer during the extraction phase, linguistic rules to extract temporal expressions, expert rules adapted to two areas of application (nosocomial infections, cancer), an interface between the engine and the linguistic knowledge base. Results Modular integrations were performed consecutively. The multi-terminology extractor and semantic analyzer were first interfaced during the extraction phase. Output of this data processing was then integrated into a knowledge base. A user interface to access documents and write business rules was developed. Expert rules for the detection of nosocomial infections and for the evaluation of colon cancer management have been developed. It was necessary to develop an additional module the need for which had not been identified during the drafting of the protocol. This module aims to structure the output of the data processing described above, according to the patient's care pathway. This module is based on the writing of medical expert rules. Evaluation indicators were obtained at different stages of the process (terminology extraction, semantic relations, data structuring, detection of events of interest). Discussion This project helped to highlight the value of combining different technologies (natural language processing, terminology, expert systems integration) to allow for the use of unstructured data in epidemiology. However, the need to develop an additional module of expert rules did not allow a complete and operational solution. Furthermore the multi-terminology extractor (ECMT V2) response time is too long (6 min per report). A change in technology was envisaged at the end of the project to reduce this time. Conclusions The originality of the SYNODOS project is the development of a single solution that integrates different technologies needed for the production of epidemiological indicators in the context of hospital activity. The project results confirm the interest but certain technological obstacles concerning the processing time need to be resolved in order to render the solution operational in a hospital environment.
- Published
- 2016
- Full Text
- View/download PDF
25. Seek&Hide
- Author
-
Cédric Lopez, Mathieu Roche, Pierre Accorsi, Rachel Panckhurst, Namrata Patel, Université Montpellier 2 - Sciences et Techniques (UM2), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), VISEO, Praxiling (Praxiling), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), Exploration et exploitation de données textuelles (TEXTE), financement sud4science (projet MSH-M), and Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Rest (physics) ,Linguistics and Language ,Computer science ,business.industry ,05 social sciences ,0211 other engineering and technologies ,021107 urban & regional planning ,02 engineering and technology ,computer.software_genre ,Text message ,Task (project management) ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,0502 economics and business ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,French text ,Artificial intelligence ,User interface ,business ,computer ,050203 business & management ,Natural language processing - Abstract
This article presents the system Seek&Hide, a text message processing tool developed for the sud4science LR (http://www.sud4science.org/) project. It performs the anonymisation/de-identification of a corpus. At present, it has been used to anonymise the sud4science LR corpus of French text messages collected during the project. This is done in two phases. In the first phase, it automatically processes over 70% of the corpus. The rest of the corpus is processed in the second phase, aided by an expert annotator via a web interface specifically designed to simplify the task.
- Published
- 2012
- Full Text
- View/download PDF
26. On Binary Reduction of Large-scale Multiclass Classification Problems
- Author
-
Ioannis Partalas, Liva Ralaivola, Eric Gaussier, Massih-Reza Amini, Bikash Joshi, Nicolas Usunier, Analyse de données, Modélisation et Apprentissage automatique [Grenoble] (AMA), Laboratoire d'Informatique de Grenoble (LIG), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF), VISEO, éQuipe AppRentissage et MultimediA [Marseille] (QARMA), Laboratoire d'informatique Fondamentale de Marseille (LIF), Centre National de la Recherche Scientifique (CNRS)-École Centrale de Marseille (ECM)-Aix Marseille Université (AMU)-Centre National de la Recherche Scientifique (CNRS)-École Centrale de Marseille (ECM)-Aix Marseille Université (AMU), Facebook AI Research [Paris] (FAIR), Facebook, ANR-11-LABX-0025,PERSYVAL-lab,Systemes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011), Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS), and Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-École Centrale de Marseille (ECM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
Structured support vector machine ,business.industry ,Context (language use) ,Pattern recognition ,multiclass classification ,Machine learning ,computer.software_genre ,Class (biology) ,Reduction (complexity) ,Multiclass classification ,ComputingMethodologies_PATTERNRECOGNITION ,Binary classification ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Classification rule ,One-class classification ,Artificial intelligence ,business ,computer ,Mathematics - Abstract
International audience; In the context of large-scale problems, traditional multiclass classification approaches have to deal with class imbalancement and complexity issues which make them inoperative in some extreme cases. In this paper we study a transformation that reduces the initial multiclass classification of examples into a binary classification of pairs of examples and classes. We present generalization error bounds that exhibit the interdependency between the pairs of examples and which recover known results on binary classification with i.i.d. data. We show the efficiency of the deduced algorithm compared to state-of-the-art multiclass classification strategies on two large-scale document collections especially in the interesting case where the number of classes becomes very large.
- Published
- 2015
27. Efficient Model Selection for Regularized Classification by Exploiting Unlabeled Data
- Author
-
Eric Gaussier, Ioannis Partalas, Rohit Babbar, Georgios Balikas, Massih-Reza Amini, Analyse de données, Modélisation et Apprentissage automatique [Grenoble] (AMA), Laboratoire d'Informatique de Grenoble (LIG), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF), VISEO, Max Planck Institute for Intelligent Systems, Max-Planck-Gesellschaft, and ANR-11-LABX-0025,PERSYVAL-lab,Systemes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011)
- Subjects
Computer science ,business.industry ,Model selection ,computer.software_genre ,Machine learning ,Cross-validation ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Multiclass classification ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Quantification ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Multi-class classification ,[INFO]Computer Science [cs] ,Data mining ,Artificial intelligence ,Macro ,business ,computer ,Classifier (UML) - Abstract
International audience; Hyper-parameter tuning is a resource-intensive task when optimizing classification models. The commonly used k-fold cross validation can become intractable in large scale settings when a classifier has to learn billions of parameters. At the same time, in real-world, one often encounters multi-class classification scenarios with only a few labeled examples; model selection approaches often offer little improvement in such cases and the default values of learners are used. We propose bounds for classification on accuracy and macro measures (precision, recall, F1) that motivate efficient schemes for model selection and can benefit from the existence of unlabeled data. We demonstrate the advantages of those schemes by comparing them with k-fold cross validation and hold-out estimation in the setting of large scale classification.
- Published
- 2015
- Full Text
- View/download PDF
28. Sparsification of Linear Models for Large-Scale Text Classification
- Author
-
Moura, Simon, Partalas, Ioannis, Amini, Massih-Reza, Analyse de données, Modélisation et Apprentissage automatique [Grenoble] (AMA), Laboratoire d'Informatique de Grenoble (LIG), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Institut National Polytechnique de Grenoble (INPG)-Centre National de la Recherche Scientifique (CNRS)-Université Pierre Mendès France - Grenoble 2 (UPMF)-Université Joseph Fourier - Grenoble 1 (UJF), and VISEO
- Subjects
large-scale text classification ,sparsification ,feature selection ,[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] - Abstract
International audience; In this paper we propose a simple yet effective method for sparsifying a posteriori linear models for large-scale text classification. The objective is to maintain high performance while reducing the prediction time by producing very sparse models. This is especially important in real-case scenarios where one deploys predictive models in several machines across the network and constraints apply on the prediction time. We empirically evaluate the proposed approach in a large collection of documents from the Large-Scale Hierarchical Text Classification Challenge. The comparison with a feature selection method and LASSO regularization shows that we achieve to obtain a sparse representation improving in the same time the classification performance.
- Published
- 2015
29. « ’88milSMS, a new digital corpus resource of French text messages : why we chose to exclude full transcoding and standardised tagging. »
- Author
-
Panckhurst, Rachel, Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Praxiling UMR 5267 CNRS — Université Paul-Valéry Montpellier, Cirad, Lirmm, Viseo, Lidilem, DGLFLF, MSH-M, sud4science / 88milSMS, Praxiling UMR 5267 (Praxiling), s.e., and Panckhurst, Rachel
- Subjects
French text messages ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,SMS ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,digital corpus resource ,authentic data ,mediated electronic discourse ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,[SHS.LANGUE] Humanities and Social Sciences/Linguistics ,GeneralLiterature_REFERENCE(e.g.,dictionaries,encyclopedias,glossaries) ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; In 2011, 6 academics gathered over 90,000 authentic text messages in French from the general public, in compliance with French law. The SMS ‘donors’ were also invited to fill out a sociolinguistic questionnaire (http://sud4science.org, Panckhurst et al., 2013). The project is part of a vast international initiative, entitled sms4science (http://www.sms4science.org/, Fairon et al. 2006, Cougnon & Fairon, 2014, Cougnon 2015) which aims to build a worldwide database and analyse authentic text messages. After the sud4science SMS data collection, a pre-processing phase of checking and eliminating any spurious information and a three-step semi-automatic anonymisation phase were conducted (Accorsi et al. 2014, Patel et al., 2013). Two extracts were transcoded into standardised French (1,000 SMS) and annotated (100 SMS). The finalised digital resource of 88,000 anonymised French text messages, the ‘88milSMS’ corpus, the extracts, and the sociolinguistic questionnaire data are currently available for all to download, via a user free-of-charge licence agreement, from the Huma-Num web service, (http://88milsms.huma-num.fr, Panckhurst et al., 2014). Why decide to exclude full transcoding and annotation tagging phases? Transcoding ‘raw’ text messages into ‘standardised’ French means morpho-syntactic parsers and other natural language processing tools can ultimately analyse them. Checking spelling and grammar facilitates comprehension, but no supplementary information should be ‘injected’. What if a texter tries to simulate a certain form of oral French, for instance, by using an apostrophe, or through agglutination (‘j’sais’=‘je sais’, ‘chuis’=‘je suis’)? Should these items be transcoded or not? What about punctuation, often absent in text messages? Should one re-introduce this systematically? Researchers may have differing theoretical viewpoints. Another issue is tagging the corpus. After much scientific debate about previous experiences with other sms4science members, 8 tags were chosen for ‘88milSMS’: TYP(ography), MOD(ificiation), GRA(mmar), BIN(ettes, smileys/emojis), ABS(ence), LAN(guage), ORT(hography, spelling), DIV(erse). Like the previous transcoding phase, annotation is a source of theoretical disagreement. To highlight this, it may be difficult to decide which tag to use and double tagging may be necessary: Bone journé. The ‘scriptor’ may have voluntarily modified the two words (‘Bonne journée’ have a nice day) or may have lacked spelling knowledge. So should ‘MOD’ and/or ‘ORT’ be used? In another example: ‘Il es rentrer a 22h30 et jai eu ldroii au : jsui fatiguer, jai mal a la tete jvai me coucher.’ (He came home at 10.30pm and I got to hear: I’m tired, I have a headache, I’m going to bed), ‘rentrer’ (‘Il est rentré’) could be either a gramatical mistake (GRA), or the scriptor may have preferred using an ‘r’ (MOD) instead of pressing the ‘e’ to access the acute accent (on a smartphone). It is extremely difficult to provide satisfactory standardised tagging. We decided to limit the processing to two extracts. Our (rare) choice to exclude full transcoding and tagging is a theoretical position: annotation is far from neutral. It is directly linked to an interpretative framework. A true consensus on how to standardise the transcoding and annotation does not exist, owing to differing/varying theoretical, (pluri)disciplinary and scientific stances. We believe that no additional mark-up initiatives should be imposed upon researchers ; it seems more relevant to let them conduct their own annotation bearing their specific scientific questioning in mind, without being trapped within a unique theoretical framework. The ‘88milSMS’ resource will provide inspiration for many years to come. Our corpus can be used to analyse contemporary mediated electronic discourse, build knowledge on SMS writing forms (Panckhurst 2009), and let algorithms learn from this: alignment methods for facilitating automatic transcoding are currently being explored (Lopez et al. 2014), as are methods for classifying ‘unknown’ items for use in automatically identifying lexical ‘creativity’ within ‘88milSMS’ and also to improve electronic dictionary approaches. The resource also sheds light on ‘corpus-driven’ and ‘corpus-based’ approaches (Panckhurst 2013, Panckhurst et al. 2015). Xml encoding means that the resource will be eligible for long-term archiving with the CINES (https://www.cines.fr/). Perhaps, in the future, people will look back and explore these ‘snapshot’ resources and understand more about the evolution of scriptural practices and usages in the 21st century.
- Published
- 2015
30. Données authentiques : un grand corpus de SMS en français
- Author
-
Panckhurst, Rachel, Roche, Mathieu, Lopez, Cédric, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), VISEO, Praxiling (Praxiling), Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), and Roche, Mathieu
- Subjects
000 - Autres thèmes ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,Corpus ,Données authentiques ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,TAL ,C30 - Documentation et information ,Alignement ,SMS ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,Dictionnaires électroniques ,Discours électronique medie ,Logiciel d’anonymisation ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] - Abstract
National audience; Qu’est-ce que la donnée écrite en sciences du langage ? Trois types se distinguent : 1) la donnée lexicale, qui se présente essentiellement sous forme d’une entrée lexicale, regroupant un ensemble de propriétés ; 2) » le nom spécifique de la donnée observable en linguistique est l’exemple » et renvoie à « un énoncé qui pourrait être effectivement prononcé, même s’il ne l’est pas dans les faits » (Milner 1989, p. 51-52) ; 3) la donnée en tant que texte brut, i.e. le corpus. En linguistique(s) de corpus, il s’agit d’analyser les productions authentiques contenues dans le corpus. Dans certaines écoles linguistiques, au contraire, l’étude du corpus tout-venant n’a pas lieu d’être. Ainsi, perdure le débat concernant l’opposition (ou, tout au moins, la différenciation) entre exemples linguistiques (éventuellement « fabriqués ») et productions authentiques relevées dans des corpus (cf. entre autres, pour le français, Bilger et al. 2000, Cori et al. 2008, Habert et al.1997, Péry-Woodley 1995). En vingt ans, notre propre approche a évolué : d’une analyse linguistique-informatique basée sur l’exemple (Panckhurst 1994, p. 39), nous sommes passée à une analyse de la donnée authentique figurant dans des corpus (Panckhurst 2013, p. 97, Panckhurst et al. 2014). Pour nous, cette mutation s’explique, d’une part, par l’évolution de l’accès aux données, et, d’autre part, par le discours électronique médié (Panckhurst 1997, 2006), circulant entre individus se servant d’outils électroniques (ordinateurs, tablettes, téléphones portables, etc.), qui induit des pratiques et des usages émergents. En deux décennies, la constitution de corpus numérisés ou nativement numériques est devenue monnaie courante, et cette accessibilité massive constitue en soi une nouveauté. Les données authentiques existant sous la forme de courriels, forums, chats, blogs, réseaux sociaux, et, plus récemment de SMS, facilement exploitables par les chercheurs, permettent l’observation, la fouille et l’analyse des pratiques et des usages (novateurs ou non) des scripteurs. Dans le cadre de cette communication, nous expliquerons ce cheminement, en nous focalisant sur des recherches récentes, portant sur le recueil, le traitement et l’analyse d’un grand corpus de SMS en français, intitulé « 88milSMS » (consultable sur la grille de services d’Huma-Num : http://88milsms.huma-num.fr/).
- Published
- 2015
31. Un outil de segmentation de courriels imbriqués en courriels individuels et en phrases
- Author
-
Ruslan Kalitvianski, Valérie Bellynck, Christian Boitet, Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP ), Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), VISEO - Objet Direct, and VISEO
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,courriels ,structuration ,segmentation ,[INFO.INFO-OH]Computer Science [cs]/Other [cs.OH] ,[INFO]Computer Science [cs] ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] - Abstract
International audience; Nous décrivons le problème de la segmentation de courriels représen-tant des conversations, c'est-à-dire contenant des courriels cités. Nous présen-tons un outil, SegDoc, conçu pour segmenter de telles conversations en courriels individuels, puis en extraire les phrases. La méthode consiste à repérer les en-têtes générés par les outils de messagerie, qui marquent les frontières entre les messages. Nous décrivons les difficultés liées au repérage de ces en-têtes, dont la forme et les langues présentent une variété considérable. Une solution fon-dée sur des heuristiques indépendantes de la langue est proposée et évaluée. La tâche de segmentation en phrases est également décrite et évaluée. SegDoc pro-duit une sortie XML contenant la conversation ainsi segmentée et préparée pour des traitements automatiques subséquents.
32. Towards Electronic SMS Dictionary Construction: An Alignment-based Approach
- Author
-
Lopez, Cédric, Bestandji, Reda, Roche, Mathieu, Panckhurst, Rachel, VISEO, Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Roche, Mathieu, and Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM)
- Subjects
electronic dictionaries ,[SPI.OTHER]Engineering Sciences [physics]/Other ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,C30 - Documentation et information ,[SPI.OTHER] Engineering Sciences [physics]/Other ,SMS ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,alignment ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] - Abstract
International audience; In this paper, we propose a method for aligning text messages (entitled AlignSMS) in order to automatically build an SMS dictionary. An extract of 100 text messages from the 88milSMS corpus (Panckhurst el al., 2013, 2014) was used as an initial test. More than 90,000 authentic text messages in French were collected from the general public by a group of academics in the south of France in the context of the sud4science project (http://www.sud4science.org). This project is itself part of a vast international SMS data collection project, entitled sms4science (http://www.sms4science.org, Fairon et al. 2006, Cougnon, 2014). After corpus collation, pre-processing and anonymisation (Accorsi et al., 2012, Patel et al., 2013), we discuss how "raw" anonymised text messages can be transcoded into normalised text messages, using a statistical alignment method. The future objective is to set up a hybrid (symbolic/statistic) approach based on both grammar rules and our statistical AlignSMS method.
- Published
- 2014
33. Looking for Opinion in Land-Use Planning Corpora
- Author
-
Mathieu Roche, Cédric Lopez, Maguelonne Teisseire, Eric Kergosien, ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), VISEO, Numev (Labex), Geosud (Equipex), Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA)-AgroParisTech-Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad), and Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)
- Subjects
[SPI.OTHER]Engineering Sciences [physics]/Other ,Computer science ,land use planning ,02 engineering and technology ,Fouille de données ,computer.software_genre ,Corpus ,Aménagement du territoire ,050105 experimental psychology ,Base de connaissances ,0202 electrical engineering, electronic engineering, information engineering ,0501 psychology and cognitive sciences ,Relevance (information retrieval) ,Land-use planning ,Opinion-mining ,Lexique ,05 social sciences ,Sentiment analysis ,000 - Autres thèmes ,Text-Mining ,Méthode ,Data science ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,C30 - Documentation et information ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,lexicon ,020201 artificial intelligence & image processing ,knowledge base ,Data mining ,P01 - Conservation de la nature et ressources foncières ,U30 - Méthodes de recherche ,computer - Abstract
International audience; A great deal of research on opinion mining and sentiment analysis has been done in specific contexts such as movie reviews, commercial evaluations, campaign speeches, etc. In this paper, we raise the issue of how appropriate these methods are for documents related to land-use planning. After highlighting limitations of existing proposals and discussing issues related to textual data, we present the method called Opiland (OPinion mIning from LAND-use planning documents) designed to semi-automatically mine opinions in specialized contexts. Experiments are conducted on a land-use planning dataset, and on three datasets related to others areas highlighting the relevance of our proposal.
- Published
- 2014
- Full Text
- View/download PDF
34. Le résumé et le titrage automatique partagent-ils les mêmes objectifs ?
- Author
-
Cédric Lopez, Mathieu Roche, Violaine Prince, VISEO, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), and Roche, Mathieu
- Subjects
[INFO.INFO-AI] Computer Science [cs]/Artificial Intelligence [cs.AI] ,lcsh:Language and Literature ,Computer science ,lcsh:Anthropology ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,02 engineering and technology ,computer.software_genre ,Task (project management) ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Set (abstract data type) ,traitement automatique du langage naturel ,020204 information systems ,0202 electrical engineering, electronic engineering, information engineering ,Relevance (information retrieval) ,résumé automatique ,natural language processing ,GeneralLiterature_REFERENCE(e.g.,dictionaries,encyclopedias,glossaries) ,060201 languages & linguistics ,Information retrieval ,business.industry ,lcsh:GN1-890 ,06 humanities and the arts ,[SCCO.LING]Cognitive science/Linguistics ,Automatic summarization ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,classification ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,0602 languages and literature ,lcsh:B ,titrage automatique ,lcsh:P ,[INFO.INFO-IR] Computer Science [cs]/Information Retrieval [cs.IR] ,Artificial intelligence ,[SCCO.LING] Cognitive science/Linguistics ,business ,lcsh:Philosophy. Psychology. Religion ,computer ,Natural language processing ,clustering ,automatic summarization - Abstract
In the literature, automatic summarization and automatic titling tasks are often merged. It seems that a short summary can be considered as a relevant title. But can we compare a title and a summary without having previously studied their criteria? This study aims at positioning the emergent task of automatic titling with regard to automatic summarization task. In this paper, we define a set of criteria according to the summary and to the title, and we analyze the results obtained with our method of automatic classification. This analysis enables to report real objectives of both tasks and to validate their relevance. Dans la littérature, les tâches de résumé et de titrage automatique sont souvent confondues. A priori, il semble qu’un résumé de quelques mots peut constituer un titre tout à fait pertinent. Mais peut-on comparer un titre et un résumé sans auparavant en avoir étudié leurs critères ? Cette étude a pour but de positionner l’émergente tâche de titrage automatique par rapport à celle de résumé automatique. Après avoir défini les critères attachés au résumé et au titre, nous analysons les résultats obtenus via notre méthode automatique de classification, permettant de rendre compte des objectifs réels des deux tâches et de valider leur pertinence.
- Published
- 2014
35. Une grande collecte de SMS authentiques en français : démarche, remarques et conseils
- Author
-
Panckhurst, Rachel, Détrie, Catherine, Lopez, Cédric, Moïse, Claudine, Roche, Mathieu, Verine, Bertrand, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), VISEO, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3-Université Grenoble Alpes (UGA), ADVanced Analytics for data SciencE (ADVANSE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), Praxiling (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Université Stendhal - Grenoble 3, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Roche, Mathieu, and Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Traitement Automatique de la Langue Naturelle ,TALN ,C30 - Documentation et information ,Corpus & linguistique ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,U30 - Méthodes de recherche - Abstract
National audience; En 2011, à Montpellier, un groupe de six universitaires linguistes et informaticiens (Rachel Panckhurst, Catherine Détrie, Cédric Lopez, Claudine Moïse, Mathieu Roche et Bertrand Verine) a décidé d'effectuer un recueil de SMS authentiques, en français, auprès du grand public, dans le respect des règles juridiques en vigueur. La collecte, qui a duré trois mois, s'est déroulée dans le cadre d'un projet intitulé sud4science LR (www.sud4science.org) et a permis de recueillir plus de 90 000 SMS (Panckhurst et al., 2013; Panckhurst, 2013; Panckhurst & Moïse, 2014). Après un travail très important de vérification, d'épuration et d'anonymisation des données par 8 stagiaires étudiants (à partir de soutiens de la MSH-M [Maison des Sciences de l'Homme de Montpellier], de la DGLFLF [Délégation générale à la langue française et aux langues de France] et du CNRS [PEPS ECOMESS, HuMaIn]), sur une période conséquente de 21 mois, les quelque 88 000 SMS restants ont été organisés en un corpus, intitulé 88milSMS. Depuis fin juin 2014, notre corpus est disponible sur la grille de services d'Huma-Num : http://88milsms.huma-num.fr/ (Panckhurst et al. 2014a, 2014b). Notre projet fait partie d'un grand projet international lancé en Belgique en 2004, sms4science, (www.sms4science.org, Fairon et al., 2006 ; Cougnon, 2014 ; Cougnon et Fairon, éd. 2014), qui avait un triple objectif : recueillir, organiser et analyser des SMS authentiques.
- Published
- 2014
36. How can catchy titles be generated without loss of informativeness?
- Author
-
Violaine Prince, Cédric Lopez, Mathieu Roche, VISEO, Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), ADVanced Analytics for data SciencE (ADVANSE), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), and Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)
- Subjects
Information retrieval ,business.industry ,Computer science ,[INFO.INFO-WB]Computer Science [cs]/Web ,General Engineering ,000 - Autres thèmes ,computer.software_genre ,Automatic summarization ,Noun phrase ,Nominalization ,Computer Science Applications ,Task (project management) ,[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI] ,Set (abstract data type) ,Text mining ,Web mining ,C30 - Documentation et information ,Artificial Intelligence ,[INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR] ,ComputingMethodologies_DOCUMENTANDTEXTPROCESSING ,Artificial intelligence ,business ,computer ,Natural language processing - Abstract
International audience; Automatic titling of text documents is an essential task for several applications (automatic heading of e-mails, summarization, and so forth). This paper describes a system facilitating information retrieval in a set of textual documents by tackling the automatic titling and subtitling issue. Automatic titling here involves providing both informative and catchy titles. We thus propose two different approaches based on NLP, text mining, and Web Mining techniques. The first one (POSTIT) consists of extracting relevant noun phrases from texts as candidate titles. An original approach combining statistical criteria and noun phrase positions in the text helps in collecting informative titles and subtitles. The second approach (NOMIT) is based on various assumptions made on POSTIT and aims to generate both informative and catchy titles. Both approaches are applied to a corpus of news articles, then evaluated according to two criteria, i.e. informativeness and catchiness.
- Published
- 2014
- Full Text
- View/download PDF
37. Sud4science, de l'acquisition d'un grand corpus de SMS en français à l'analyse de l'écriture SMS
- Author
-
Panckhurst, Rachel, Détrie, Catherine, Lopez, Cédric, Moïse, Claudine, Roche, Mathieu, Verine, Bertrand, Praxiling UMR 5267 (Praxiling), Université Paul-Valéry - Montpellier 3 (UPVM)-Centre National de la Recherche Scientifique (CNRS), Université Paul-Valéry - Montpellier 3 (UM3)-Centre National de la Recherche Scientifique (CNRS), VISEO, LInguistique et DIdactique des Langues Étrangères et Maternelles (LIDILEM), Université Stendhal - Grenoble 3-Université Grenoble Alpes (UGA), Exploration et exploitation de données textuelles (TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS), Territoires, Environnement, Télédétection et Information Spatiale (UMR TETIS), Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad)-AgroParisTech-Institut national de recherche en sciences et technologies pour l'environnement et l'agriculture (IRSTEA), MSH-M, DGLFLF, sud4science.org, Praxiling (Praxiling), Université Stendhal - Grenoble 3, Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM), Panckhurst, Rachel, and Centre National de la Recherche Scientifique (CNRS)-Université Paul-Valéry - Montpellier 3 (UPVM)
- Subjects
Anonymisation ,Transcoding ,Annotation ,[INFO.INFO-TT] Computer Science [cs]/Document and Text Processing ,SMS en français ,Transcodage ,Mediated electronic discourse ,[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] ,[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,Discours électronique médié ,[INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL] ,(socio-)linguistic analyses ,French SMS ,[SHS.LANGUE]Humanities and Social Sciences/Linguistics ,Analyses (socio-) linguistiques ,ComputingMilieux_MISCELLANEOUS - Abstract
This article describes the sud4science project (www.sud4science.org). Firstly, the authors present the acquisition phase of both SMS data and questionnaire data. Secondly, they explain anonymisation techniques, transcoding and optional annotation phases. Finally, they propose preliminary (socio-) linguistic analyses of scriptural usage of SMS writing, and they also indicate those that are planned in the foreseeable future., Dans le cadre de cet article, on expose le déroulement du projet sud4science (www.sud4science.org). En premier lieu, on décrit la phase d'acquisition des données en provenance des SMS et du questionnaire, avant d'aborder les étapes successives d'anonymisation, de transcodage et d'annotation optionnelle. Ensuite, on présente les analyses (socio-)linguistiques des pratiques scripturales de l'écriture SMS (eSMS) qui ont débuté, ainsi que celles prévues à court et à moyen terme.
- Published
- 2013
38. Learning Taxonomy Adaptation in Large-scale Classification
- Author
-
Rohit Babbar, Partalas, I., Gaussier, E., Amini, M. -R, Amblard, C., Max Planck Institute for Intelligent Systems, Max-Planck-Gesellschaft, VISEO, Analyse de données, Modélisation et Apprentissage automatique [Grenoble] (AMA ), Laboratoire d'Informatique de Grenoble (LIG ), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019])-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP )-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes [2016-2019] (UGA [2016-2019]), and ANR-11-LABX-0025,PERSYVAL-lab,Systemes et Algorithmes Pervasifs au confluent des mondes physique et numérique(2011)
- Subjects
[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG] ,Large scale categorization ,ComputingMilieux_MISCELLANEOUS - Abstract
International audience
39. ProVoc : une ontologie pour décrire des produits sur le Web
- Author
-
Cédric Lopez, Farhad Nooralahzadeh, Elena Cabrio, Frédérique Segond, Fabien Gandon, Viseo, R&D , Grenoble, Web-Instrumented Man-Machine Interactions, Communities and Semantics (WIMMICS), Inria Sophia Antipolis - Méditerranée (CRISAM), Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Scalable and Pervasive softwARe and Knowledge Systems (Laboratoire I3S - SPARKS), Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (... - 2019) (UNS), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Laboratoire d'Informatique, Signaux, et Systèmes de Sophia Antipolis (I3S), COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA), Université Nice Sophia Antipolis (1965 - 2019) (UNS), and COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-COMUE Université Côte d'Azur (2015-2019) (COMUE UCA)-Centre National de la Recherche Scientifique (CNRS)-Université Côte d'Azur (UCA)-Université Nice Sophia Antipolis (1965 - 2019) (UNS)
- Subjects
[INFO.INFO-TT]Computer Science [cs]/Document and Text Processing ,[INFO.INFO-WB]Computer Science [cs]/Web ,représentation des connaissances ,Mots-clés : ProVoc ,web sémantique ,ontologie - Abstract
National audience; De nombreuses recherches ont depuis longtemps motivé l'utilisation d'ontologies pour répondre aux besoins de représentation du e-Commerce. Dans cet article, nous présentons ProVoc (Product Vocabulary), une ontologie ayant pour objectif de décrire des produits sur le Web. Complémentaire à GoodRelations (Hepp, 2008), l'ontologie au format du Web sémantique la plus utilisée dans le monde du e-Commerce, Provoc se concentre sur une représentation fine des produits et de leurs entités relatives (gammes des produits, composition des produits, etc.). L'utilisation conjointe des deux ontologies permet d'élargir l'espace des requêtes de l'utilisateur. Par exemple : « Quels sont les produits qui contiennent des ingrédients néfastes pour la santé ? Qui les vend ? ». Nous montrons par le biais de requêtes SPARQL que nos scénarios trouvent une formulation adéquate et une représentation pertinente avec ProVoc. Enfin, une application de veille stratégique dans le domaine de la cosmétique est présentée.
40. Accuracy of using natural language processing methods for identifying healthcare-associated infections.
- Author
-
Tvardik N, Kergourlay I, Bittar A, Segond F, Darmoni S, and Metzger MH
- Subjects
- Adult, Algorithms, Hospitals, University, Humans, Intensive Care Units, Sensitivity and Specificity, Cross Infection diagnosis, Electronic Health Records, Natural Language Processing
- Abstract
Objective: There is a growing interest in using natural language processing (NLP) for healthcare-associated infections (HAIs) monitoring. A French project consortium, SYNODOS, developed a NLP solution for detecting medical events in electronic medical records for epidemiological purposes. The objective of this study was to evaluate the performance of the SYNODOS data processing chain for detecting HAIs in clinical documents., Materials and Methods: The collection of textual records in these hospitals was carried out between October 2009 and December 2010 in three French University hospitals (Lyon, Rouen and Nice). The following medical specialties were included in the study: digestive surgery, neurosurgery, orthopedic surgery, adult intensive-care units. Reference Standard surveillance was compared with the results of automatic detection using NLP. Sensitivity on 56 HAI cases and specificity on 57 non-HAI cases were calculated., Results: The accuracy rate was 84% (n = 95/113). The overall sensitivity of automatic detection of HAIs was 83.9% (CI 95%: 71.7-92.4) and the specificity was 84.2% (CI 95%: 72.1-92.5). The sensitivity varies from one specialty to the other, from 69.2% (CI 95%: 38.6-90.9) for intensive care to 93.3% (CI 95%: 68.1-99.8) for orthopedic surgery. The manual review of classification errors showed that the most frequent cause was an inaccurate temporal labeling of medical events, which is an important factor for HAI detection., Conclusion: This study confirmed the feasibility of using NLP for the HAI detection in hospital facilities. Automatic HAI detection algorithms could offer better surveillance standardization for hospital comparisons., (Copyright © 2018 Elsevier B.V. All rights reserved.)
- Published
- 2018
- Full Text
- View/download PDF
41. Hospital preparedness and response in CBRN emergencies: TIER assessment tool.
- Author
-
Olivieri C, Ingrassia PL, Della Corte F, Carenzo L, Sapori JM, Gabilly L, Segond F, Grieger F, Arnod-Prin P, Larrucea X, Violi C, Lopez C, and Djalali A
- Subjects
- Delphi Technique, Female, Hospital Planning standards, Humans, Male, Surveys and Questionnaires, Disaster Planning standards, Emergency Service, Hospital organization & administration, Mass Casualty Incidents
- Abstract
Introduction: Chemical, biological, radiological, and nuclear (CBRN) emergencies need particular hospital preparedness and resources availability. Also, specific skills and capabilities are required for efficient response to these types of events. The aim of this study was to develop an assessment tool to evaluate hospital preparedness and response performance with respect to CBRN emergencies., Methods: An evaluation tool was developed using the Delphi technique. A panel of experts from 10 countries, both European and non-European, with more than 5 years of experience in research or practice in CBRN emergency management was involved in this study. The study was run online, and the experts were asked to evaluate a list of items on hospital preparedness and response in CBRN emergencies. A threshold of 85% agreement level was defined as the consensus of experts in this study., Results: The first-round questionnaire was answered by 13 experts. Consensus on the preparedness section was reached for all 29 items during the first round and one item was also added by the experts. Consensus on the response performance indicators were reached in 51 out of the 59 items, during the first round, and eight items were modified and then approved in the second round by the experts., Conclusion: Hospitals need a specific level of preparedness to enable an effective response to CBRN emergencies. The assessment tool, developed through experts' consensus in this study, provides a standardized method for the evaluation of hospital preparedness and response performance with respect to CBRN emergencies. The feasibility and reliability of this assessment tool could be evaluated before and during simulated exercises in a standardized manner.
- Published
- 2017
- Full Text
- View/download PDF
42. TIER competency-based training course for the first receivers of CBRN casualties: a European perspective.
- Author
-
Djalali A, Della Corte F, Segond F, Metzger MH, Gabilly L, Grieger F, Larrucea X, Violi C, Lopez C, Arnod-Prin P, and Ingrassia PL
- Subjects
- Curriculum, Delphi Technique, Disaster Planning, Europe, Humans, Surveys and Questionnaires, Competency-Based Education methods, Mass Casualty Incidents prevention & control, Personnel, Hospital education
- Abstract
Introduction: Education and training are key elements of health system preparedness vis-à-vis chemical, biological, radiological and nuclear (CBRN) emergencies. Medical respondents need sufficient knowledge and skills to manage the human impact of CBRN events., Objective: The current study was designed to determine which competencies are needed by hospital staff when responding to CBRN emergencies, define educational needs to develop these competencies, and implement a suitable delivery method., Methods: This study was carried out from September 2014 to February 2015, using a three-step modified Delphi method. On the basis of international experiences, publications, and experts' consensus, core competencies for hospital staff - as CBRN casualty receivers - were determined, and training curricula and delivery methods were defined., Results: The course consists of 10 domains. These are as follows: threat identification; health effects of CBRN agents; planning; hospital incident command system; information management; safety, personal protective equipment and decontamination; medical management; essential resources; psychological support; and ethical considerations. Expected competencies for each domain were defined. A blended approach was chosen., Conclusion: By identifying a set of core competencies, this study aimed to provide the specific knowledge and skills required by medical staff to respond to CRBN emergencies. A blended approach may be a suitable delivery method, allowing medical staff to attend the same training sessions despite different time zones and locations. The study output provides a CBRN training scheme that may be adapted and used at the European Union level.
- Published
- 2017
- Full Text
- View/download PDF
43. Semantic distance-based creation of clusters of pharmacovigilance terms and their evaluation.
- Author
-
Dupuch M and Grabar N
- Subjects
- Algorithms, Cluster Analysis, Databases, Factual, Humans, Adverse Drug Reaction Reporting Systems, Drug-Related Side Effects and Adverse Reactions classification, Pharmacovigilance, Semantics, Terminology as Topic
- Abstract
Background: Pharmacovigilance is the activity related to the collection, analysis and prevention of adverse drug reactions (ADRs) induced by drugs or biologics. The detection of adverse drug reactions is performed using statistical algorithms and groupings of ADR terms from the MedDRA (Medical Dictionary for Drug Regulatory Activities) terminology. Standardized MedDRA Queries (SMQs) are the groupings which become a standard for assisting the retrieval and evaluation of MedDRA-coded ADR reports worldwide. Currently 84 SMQs have been created, while several important safety topics are not yet covered. Creation of SMQs is a long and tedious process performed by the experts. It relies on manual analysis of MedDRA in order to find out all the relevant terms to be included in a SMQ. Our objective is to propose an automatic method for assisting the creation of SMQs using the clustering of terms which are semantically similar., Methods: The experimental method relies on a specific semantic resource, and also on the semantic distance algorithms and clustering approaches. We perform several experiments in order to define the optimal parameters., Results: Our results show that the proposed method can assist the creation of SMQs and make this process faster and systematic. The average performance of the method is precision 59% and recall 26%. The correlation of the results obtained is 0.72 against the medical doctors judgments and 0.78 against the medical coders judgments., Conclusions: These results and additional evaluation indicate that the generated clusters can be efficiently used for the detection of pharmacovigilance signals, as they provide better signal detection than the existing SMQs., (Copyright © 2014. Published by Elsevier Inc.)
- Published
- 2015
- Full Text
- View/download PDF
44. Annotation methods to develop and evaluate an expert system based on natural language processing in electronic medical records.
- Author
-
Gicquel Q, Tvardik N, Bouvry C, Kergourlay I, Bittar A, Segond F, Darmoni S, and Metzger MH
- Subjects
- Machine Learning, Pattern Recognition, Automated methods, Vocabulary, Controlled, Data Mining methods, Electronic Health Records classification, Expert Systems, Knowledge Bases, Natural Language Processing, Terminology as Topic
- Abstract
The objective of the SYNODOS collaborative project was to develop a generic IT solution, combining a medical terminology server, a semantic analyser and a knowledge base. The goal of the project was to generate meaningful epidemiological data for various medical domains from the textual content of French medical records. In the context of this project, we built a care pathway oriented conceptual model and corresponding annotation method to develop and evaluate an expert system's knowledge base. The annotation method is based on a semi-automatic process, using a software application (MedIndex). This application exchanges with a cross-lingual multi-termino-ontology portal. The annotator selects the most appropriate medical code proposed for the medical concept in question by the multi-termino-ontology portal and temporally labels the medical concept according to the course of the medical event. This choice of conceptual model and annotation method aims to create a generic database of facts for the secondary use of electronic health records data.
- Published
- 2015
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.