Il corpus lemmatizzato delle lettere edite del carteggio Datini

Una banca dati testuale informatizzata delle lettere edite

Il progetto prevedeva la creazione di una banca dati testuale delle circa 4000 lettere edite conservate nell’Archivio Datini. Il progetto è iniziato nel 2003 attraverso l’affidamento all’Istituto CNR Opera del Vocabolario Italiano ed è stato consegnato e collaudato nell’ottobre 2005.

Esso è stato attuato attraverso:

l’identificazione e la digitalizzazione delle lettere edite da immettere nella banca dati e che vanno a costituire un corpus organico;
le operazioni di OCR e la generazione di files su cui inserire, dopo la correzione dell’output, le codifiche del software GATTO 3.3 (elaborato dall’Istituto CNR Opera del Vocabolario Italiano da D. Iorio-Fili e concesso gratuitamente);
la messa a punto di una versione personalizzata dello stesso software, con le funzioni richieste dall’Archivio di Stato di Prato;
la creazione di una banca dati di tutti i testi, con possibilità di ricerca delle forme presenti;
la lemmatizzazione di termini appartenenti ad alcuni settori di lessico: storico-economico, commerciale (incluso il commercio marittimo), militare, storico-giuridico, tecnicismi;
l’identificazione e indicizzazione di antroponomini e toponimi;
la creazione di iperlemmi (lemmi di secondo livello) per categorie di lemmi di particolare significato per la ricerca;
la creazione di una versione compatibile per web, richiamabile dal sito web del Progetto Datini.

Alcuni dati riepilogativi:
E’ stato prodotto un corpus lemmatizzato del carteggio Datini, allestito con lo stesso programma che gestisce il corpus “Tesoro della Lingua Italia delle Origini (TLIO)”, in una versione appositamente dedicata e interrogabile via web.

Il corpus consta di:

2.511 testi
45259 forme
977.034 occorrenze di cui 126.663 lemmatizzate
6.510 lemmi e 22 iperlemmi.

Vai al sito

Crediti:
Responsabiltà scientifica del progetto, direzioni dei lavori e collaudi: Diana Toccafondi (Archivio di Stato di Prato)

Consulenza scientifica e collaborazione all’identificazione dei testi: Jerôme Hayez (CNRS – Parigi)

Realizzazione della banca dati: Istituto Opera del Vocabolario Italiano del Consiglio Nazionale delle Ricerche (CNR-OVI), via di Castello 46, Firenze
Sviluppo software: Domenico Iorio-Fili
Responsabile per gli aspetti filologici e lessicografici: Pär Larson

Lemmatizzazione, inserimento e controllo dati: Paolo Squillacioti (resp. inserimento e controllo dati), Elena Artale (resp. lemmatizzazione), Mariafrancesca Giuliani, Rossella Mosti