Back to Search Start Over

GOOFRE version 2: voir et traiter 600 milliards de mots

Authors :
Etienne Brunet
Laurent Vanni
Source :
Texto Digital, Vol 10, Iss 2, Pp 75-97 (2014)
Publication Year :
2014
Publisher :
Universidade Federal de Santa Catarina, 2014.

Abstract

Les données de Google Books ont doublé en deux ans, en franchissant le cap des 500 milliards de mots. Un nouveau traitement a repris les images scannées pour en proposer une lecture plus fidèle. Et pour la première fois les textes enregistrés ont bénéficié de la désambiguïsation et de la lemmatisation. Enfin le site Culturomics a fourni les outils nécessaires pour en assurer la diffusion. Il convenait donc de procéder à une nouvelle expertise et de créer une nouvelle base, pourvue de tout l’appareillage statistique qu’exige, en réseau ou en local, l’exploitation des grands corpus.

Details

Language :
Spanish; Castilian, Portuguese
ISSN :
18079288
Volume :
10
Issue :
2
Database :
Directory of Open Access Journals
Journal :
Texto Digital
Publication Type :
Academic Journal
Accession number :
edsdoj.31cc92c5bbc64e67b63dcce25b670e75
Document Type :
article
Full Text :
https://doi.org/10.5007/1807-9288.2014v10n2p75