Borghetti, C., Castagnoli, Sara, Brunello, M., M. Cerruti, E. Corino, C. Onesti, C. Borghetti, S. Castagnoli, and M. Brunello
Il presente contributo si propone di condividere le finalità, la metodologia di sviluppo e gli esiti delle prime ricerche condotte sul corpus PAISÀ, un corpus di testi in italiano contemporaneo scaricati dal web, ideato con finalità glottodidattiche e di ricerca nell'ambito del progetto omonimo. Presenteremo come il progetto si inserisce nel panorama, sempre più vasto, dei web-derived corpora, gli accorgimenti che sono risultati necessari in fase di creazione per evitare la spinosa questione del copyright e le ripercussioni che ciò ha avuto sui contenuti. Ci concentreremo poi sui diversi livelli di annotazione che arricchiscono il corpus PAISÀ, soffermandoci in particolare sullo sforzo di classificazione dei testi per argomento, intenzione comunicativa e genere testuale, tre parametri che, una volta trasformati in criteri di ricerca e esplorazione del corpus, permetteranno agli utenti - insegnanti di lingua in primis - una consultazione estremamente mirata e raffinata dei testi.