Progetto Datini: costituzione di un archivio numerico di dati e immagini
Obiettivi e risultati:
Il "Progetto Datini", finanziato dal Ministero per i Beni e le Attività Culturali con i fondi della quota dell'otto per mille dell'anno 1999, su progetto approvato dalla Presidenza del Consiglio, è stato attuato attraverso:
- la creazione di un archivio di immagini mediante la digitalizzazione di tutto il carteggio conservato nell'Archivio di Francesco di Marco Datini (circa 150.000 lettere);
- il recupero e l'importazione dei dati descrittivi frutto del lavoro di inventariazione di Elena Cecchi, presenti su un precedente data-base sviluppato da Henri Aste in ambiente MAC;
- il controllo e l'implementazione di tutti i dati descrittivi;
- la realizzazione di un avanzato sistema informatizzato di archiviazione, consultazione e restituzione dell'intero Archivio Datini che consente modalità avanzate di interrogazione e consultazione sia in ambiente locale che in web;
- la creazione di metadati descrittivi in formato XML;
- la creazione di un'uscita web dedicata con caratteri di accessibilità e fruibilità.
Il Progetto è iniziato nell'anno 2000 con la stesura di un "Progetto di fattibilità" e, quindi, con la predisposizione delle "Specifiche tecniche e del "Capitolato d'oneri", in collaborazione con Franco Lotti e Lorenzo Stefani (CNR-IFAC).
A seguito delle procedure di gara europea espletate nell'ottobre 2001, la fornitura è stata affidata alla Ditta SIAV s.p.a. di Padova.
Il lavoro di acquisizione delle immagini è stato completato nel luglio 2005. Il controllo dei dati è stato terminato nel dicembre 2006.
Dati riepilogativi:
Sono stati prodotti:
- 361.474 immagini relative a 148.265 documenti (carteggio), corredati di altrettante schede descrittive;
- 1.173 schede descrittive relative ai libri contabili;
- 686 DVD con immagini PNG master (in doppia copia);
- 92 DVD con immagini JPG Lan;
- 14 DVD con immagini JPG Web (compresse);
- 14 nastri DAT con la registrazione delle immagini JPG sia Lan che web.
Crediti:
Responsabilità scientifica:
Diana Toccafondi (Archivio di Stato di Prato)
Direzione dei Lavori e Commissione di collaudo:
Diana Toccafondi (Archivio di Stato di Prato)
Franco Lotti (CNR-IFAC)
Lorenzo Stefani (CNR-IFAC)
Inventariazione dell'Archivio Datini e controllo dati:
Elena Cecchi Aste
Collaboratori all'inventariazione e al controllo dei dati: Simona Biagianti, Giovanna Giusti, Chiara Marcheschi, Vanessa Castelnuovi
Organizzazione della prima banca dati in ambiente MAC:
Henri Aste
Ditta esecutrice della digitalizzazione e del software: SIAV s.p.a., Padova
Responsabile della fornitura: Paolo Ometto
Responsabile del cantiere: Aurelio Puccianti
Sviluppo software: Stefano Modolo
Controllo qualità dell'immagine: Gronchi Foto-Arte, Pisa
Realizzazione del sito web e struttura tecnologica: Regesta.exe
Codifica XML secondo lo standard EAD e importazione dei dati nella piattaforma
xDamstm: Sandro De Leo
Interfaccia web di consultazione dei dati: Diego Valerio Camarda, Giacomo Cortesi
Progetto grafico e struttura di navigazione: Claudia Tarquini
Proprietà delle immagini: Archivio di Stato di Prato
Progetto Datini: creazione di una banca dati testuale informatizzata delle lettere edite
Obiettivi e risultati:
Questa seconda parte del progetto si proponeva la creazione di una banca dati testuale delle circa 4000 lettere edite conservate nell'Archivio Datini.
Essa è stata attuata attraverso:
- l'identificazione e la digitalizzazione delle lettere edite da immettere nella banca dati e che vanno a costituire un corpus organico;
- le operazioni di OCR e la generazione di files su cui inserire, dopo la correzione dell'output, le codifiche del software GATTO 3.3 (elaborato dall'Istituto CNR Opera del Vocabolario Italiano e concesso gratuitamente);
- la generazione di una versione personalizzata dello stesso software, con le personalizzazioni richieste dall'Archivio di Stato di Prato;
- la lemmatizzazione della banca dati per una ricerca su tutti i lemmi e le forme presenti nei testi;
- la lemmatizzazione di termini appartenenti ad alcuni settori di lessico: storico-economico, commerciale (incluso il commercio marittimo), militare, storico-giuridico, tecnicismi;
- l'identificazione e indicizzazione di antroponomini e toponimi;
- la creazione di iperlemmi (lemmi di secondo livello) per categorie di lemmi di particolare significato per la ricerca;
- la creazione di una versione compatibile per web, richiamabile dal sito web del Progetto Datini.
Il progetto è iniziato nel 2003 attraverso l'affidamento all'Istituto CNR Opera del Vocabolario Italiano ed è stato consegnato e collaudato nell'ottobre 2005.
Dati riepilogativi:
E' stato prodotto un corpus lemmatizzato del carteggio Datini, allestito con lo stesso programma che gestisce il corpus "Tesoro della Lingua Italia delle Origini (TLIO)", in una versione appositamente dedicata e interrogabile via web.
Il corpus consta di:
- 2.511 testi
- 45259 forme
- 977.034 occorrenze di cui 126.663 lemmatizzate
- 6.510 lemmi e 22 iperlemmi.
Crediti:
Responsabiltà scientifica del progetto, direzioni dei lavori e collaudi:
Diana Toccafondi (Archivio di Stato di Prato)
Realizzazione della banca dati: Istituto Opera del Vocabolario Italiano del Consiglio Nazionale delle Ricerche (CNR-OVI), via di Castello 46, Firenze
Sviluppo software: Domenico Iorio-Fili
Responsabile per gli aspetti filologici e lessicografici: Par Larson
Lemmatizzazione, inserimento e controllo dati: Paolo Squillacioti, Elena Artale