Una banca dati testuale informatizzata delle lettere edite
Il progetto prevedeva la creazione di una banca dati testuale delle circa 4000 lettere edite conservate nell’Archivio Datini. Il progetto è iniziato nel 2003 attraverso l’affidamento all’Istituto CNR Opera del Vocabolario Italiano ed è stato consegnato e collaudato nell’ottobre 2005.
Esso è stato attuato attraverso:
- l’identificazione e la digitalizzazione delle lettere edite da immettere nella banca dati e che vanno a costituire un corpus organico;
- le operazioni di OCR e la generazione di files su cui inserire, dopo la correzione dell’output, le codifiche del software GATTO 3.3 (elaborato dall’Istituto CNR Opera del Vocabolario Italiano da D. Iorio-Fili e concesso gratuitamente);
- la messa a punto di una versione personalizzata dello stesso software, con le funzioni richieste dall’Archivio di Stato di Prato;
- la creazione di una banca dati di tutti i testi, con possibilità di ricerca delle forme presenti;
- la lemmatizzazione di termini appartenenti ad alcuni settori di lessico: storico-economico, commerciale (incluso il commercio marittimo), militare, storico-giuridico, tecnicismi;
- l’identificazione e indicizzazione di antroponomini e toponimi;
- la creazione di iperlemmi (lemmi di secondo livello) per categorie di lemmi di particolare significato per la ricerca;
- la creazione di una versione compatibile per web, richiamabile dal sito web del Progetto Datini.
Alcuni dati riepilogativi:
E’ stato prodotto un corpus lemmatizzato del carteggio Datini, allestito con lo stesso programma che gestisce il corpus “Tesoro della Lingua Italia delle Origini (TLIO)”, in una versione appositamente dedicata e interrogabile via web.
Il corpus consta di:
- 2.511 testi
- 45259 forme
- 977.034 occorrenze di cui 126.663 lemmatizzate
- 6.510 lemmi e 22 iperlemmi.
Crediti:
Responsabiltà scientifica del progetto, direzioni dei lavori e collaudi: Diana Toccafondi (Archivio di Stato di Prato)
Consulenza scientifica e collaborazione all’identificazione dei testi: Jerôme Hayez (CNRS – Parigi)
Realizzazione della banca dati: Istituto Opera del Vocabolario Italiano del Consiglio Nazionale delle Ricerche (CNR-OVI), via di Castello 46, Firenze
Sviluppo software: Domenico Iorio-Fili
Responsabile per gli aspetti filologici e lessicografici: Pär Larson
Lemmatizzazione, inserimento e controllo dati: Paolo Squillacioti (resp. inserimento e controllo dati), Elena Artale (resp. lemmatizzazione), Mariafrancesca Giuliani, Rossella Mosti