Il corpus lemmatizzato delle lettere edite del carteggio Datini

UpkPfA5XLjgF7x5yTAyzK0mF4wuIz65GFRebfpUR4rk=--vocabolario

Una banca dati testuale informatizzata delle lettere edite

Il progetto prevedeva la creazione di una banca dati testuale delle circa 4000 lettere edite conservate nell’Archivio Datini. Il progetto è iniziato nel 2003 attraverso l’affidamento all’Istituto CNR Opera del Vocabolario Italiano ed è stato consegnato e collaudato nell’ottobre 2005.

 

Esso è stato attuato attraverso:

  • l’identificazione e la digitalizzazione delle lettere edite da immettere nella banca dati e che vanno a costituire un corpus organico;
  • le operazioni di OCR e la generazione di files su cui inserire, dopo la correzione dell’output, le codifiche del software GATTO 3.3 (elaborato dall’Istituto CNR Opera del Vocabolario Italiano da D. Iorio-Fili e concesso gratuitamente);
  • la messa a punto di una versione personalizzata dello stesso software, con le funzioni richieste dall’Archivio di Stato di Prato;
  • la creazione di una banca dati di tutti i testi, con possibilità di ricerca delle forme presenti;
  • la lemmatizzazione di termini appartenenti ad alcuni settori di lessico: storico-economico, commerciale (incluso il commercio marittimo), militare, storico-giuridico, tecnicismi;
  • l’identificazione e indicizzazione di antroponomini e toponimi;
  • la creazione di iperlemmi (lemmi di secondo livello) per categorie di lemmi di particolare significato per la ricerca;
  • la creazione di una versione compatibile per web, richiamabile dal sito web del Progetto Datini.

Alcuni dati riepilogativi:
E’ stato prodotto un corpus lemmatizzato del carteggio Datini, allestito con lo stesso programma che gestisce il corpus “Tesoro della Lingua Italia delle Origini (TLIO)”, in una versione appositamente dedicata e interrogabile via web.

Il corpus consta di:

  • 2.511 testi
  • 45259 forme
  • 977.034 occorrenze di cui 126.663 lemmatizzate
  • 6.510 lemmi e 22 iperlemmi.

Vai al sito

Crediti:
Responsabiltà scientifica del progetto, direzioni dei lavori e collaudi: Diana Toccafondi (Archivio di Stato di Prato)

Consulenza scientifica e collaborazione all’identificazione dei testi: Jerôme Hayez (CNRS – Parigi)

Realizzazione della banca dati: Istituto Opera del Vocabolario Italiano del Consiglio Nazionale delle Ricerche (CNR-OVI), via di Castello 46, Firenze
Sviluppo software: Domenico Iorio-Fili
Responsabile per gli aspetti filologici e lessicografici: Pär Larson

Lemmatizzazione, inserimento e controllo dati: Paolo Squillacioti (resp. inserimento e controllo dati), Elena Artale (resp. lemmatizzazione), Mariafrancesca Giuliani, Rossella Mosti