Logo Fondazione Rinascimento Digitale
 English

Il principio fondamentale sulla base del quale l’applicazione viene progettata è costituito dalla suddivisione strutturale dei dati testuali rappresentabili in un sistema digitale. Essi possono essere costituiti da:

  • immagini (le immagini del documento che contiene il testo)
  • testo (ovvero la trascrizione – diplomatica o interpretativa - del testo contenuto nelle immagini)
  • informazioni di carattere extratestuale e paratestuale.


Del primo gruppo fanno parte le indicazioni di riferimento topografico del testo all’interno della pagina (il numero di pagina o di foglio di un manoscritto, il numero del paragrafo, del comma, della sezione, i titoli correnti nel caso di un dizionario o di un volume di enciclopedia, ecc.). Al terzo gruppo appartengono le annotazioni, gli apparati e la bibliografia.

 

È del tutto evidente che questa struttura, coerente con i sistemi di codifica e di marcatura adottati a livello internazionale per i dati di tipo testuale, anche se non limitati ai testi (come il linguaggio di markup della Text Encoding Initiative-TEI), colloca le diverse tipologie su piani differenti. Per esempio un numero che rappresenta una data all’interno di un’opera o una nota critica redatta da un filologo che l’ha studiata sono elementi appartenenti a livelli informativi diversi rispetto al testo propriamente detto.

 

L’applicazione, dunque, tiene conto di tali livelli, sempre che essi siano stati opportunamente marcati, in modo da sfruttarli a vantaggio di chi effettuerà delle operazioni di ricerca qualora sia selezionata l’opzione che rende attiva la funzione espressa da tali elementi distintivi. Essi assumono un valore decisivo per alcuni programmi di elaborazione perché si garantisce la produzione di risultati più ricchi di quelli che si potrebbero ottenere se queste distinzioni non fossero state effettuate. Anche se questi aspetti sono stati ampiamente analizzati dalla comunità degli studiosi che da molti anni si occupano di markup e di linguaggi di codifica, vale la pena considerare fino a quale livello di distinzione sia necessario spingersi affinché si mantenga un equilibrio sostanziale fra risorse impegnate e risultati attesi.

 

In effetti, il problema della marcatura fra i livelli informativi che un testo scritto può contenere è strettamente connesso alla valutazione ed alle esigenze personali di chi esegue lo spoglio elettronico. Con ciò intendiamo dire che non esiste un criterio universalmente valido in base al quale si debbano riconoscere e caratterizzare tutti i livelli teoricamente possibili di un testo: essi dipendono dalla sensibilità, dagli scopi e dalla profondità di analisi di chi lo studia, lo prepara ed eventualmente lo immette in rete. Chi, invece, progetta un sistema informatico di nuova generazione per l’elaborazione del testo deve rendere possibile la rappresentazione e l’utilizzazione di qualsiasi elemento di dettaglio (ovvero, di qualsiasi elemento testuale, extratestuale o paratestuale) affinché si producano i risultati desiderati.

 

Un sistema come quello proposto nel progetto Pinakes Text, pertanto, deve consentire di distinguere questi fenomeni intertestuali ed utilizzarli nelle fasi di indicizzazione dei dati e di attivazione delle opzioni di ricerca. Dovrà quindi rendere possibile indicare se:

  • la stringa di caratteri da ricercare nell’archivio appartiene ad una parola intera o se, invece, ne costituisce parte iniziale, centrale o finale
  • la ricerca deve essere effettuata su tutto il testo o su uno dei livelli nei quali il testo è stato suddiviso (titolo delle opere, citazioni di opere in prosa, citazioni di opere in poesia)
  • si vuole attribuire valore distintivo agli accenti/spiriti o al maiuscolo
  • una stringa di caratteri deve essere cercata in concorrenza o in alternativa ad una seconda stringa di caratteri, attivando specifici operatori booleani di inclusione o esclusione
  • indicare quale intervallo di parole considerare soglia massima nella ricerca di due stringhe di caratteri con operatori booleani.

Comunque, se è vero che non esiste un criterio universale per stabilire quali siano i livelli teoricamente presenti in un testo, poiché ciò dipende da competenze e valutazioni soggettive, esiste però l’obbligo, da parte di un sistema specializzato, di consentire la categorizzazione di questi livelli, l’adozione di strumenti di markup standardizzati e la possibilità di utilizzarli da parte di moduli di elaborazione affinché siano prodotti risultati più numerosi e siano consentite interrogazioni molto dettagliate.

Data di inserimento: 07/05/2009
Top page

La biblioteca digitale è solitamente intesa come un deposito di documenti di vario genere convertiti in formato numerico attraverso apparecchiature che trasformano pagine di carta o riproduzioni fotografiche in immagini. La tecnologia si è molto evoluta nell’ultimo decennio e la qualità delle riproduzioni ha raggiunto livelli elevatissimi. Non si deve dimenticare, inoltre, che le tecniche note col nome di Digital Image Processing consentono di effettuare ritocchi molto utili per migliorare la leggibilità delle informazioni, non solo di tipo testuale, che si trovano inserite nelle immagini. Infine, la trasportabilità dei dati sulla rete Internet garantisce una diffusione capillare delle informazioni, con un vantaggio importante ai fini della conservazione degli originali. Le copie degli archivi, infatti, possono essere depositate in più memorie di massa collocate in sedi diverse, eliminando i rischi che derivano da calamità esterne (terremoti, incendi, ecc.).


Un aspetto che non viene solitamente evidenziato e che, invece, costituirebbe una reale innovazione della tecnologia digitale nel mondo della cultura (musei, biblioteche, archivi) è rappresentato dalla modalità e dalle conseguenti applicazioni per semplificare, se non, addirittura, rendere possibile l’accesso alle informazioni contenute in depositi di documenti digitali di tipo diverso. L’insieme dei dati che identificano, per esempio, un reperto archeologico è costituito dall’oggetto fisico stesso, come conservato in una struttura museale, dai metadati che ne descrivono le caratteristiche (dimensioni, stato di conservazione, luogo di ritrovamento, datazione, funzioni dell’oggetto, colore, ecc.), dalla sua riproduzione digitale e dalle informazioni a questa relative (data della digitalizzazione, nome dell’operatore che l’ha eseguita, apparecchiatura e programma adottato, definizione utilizzata, eventuale impiego di filtri di enhancement, ecc.).

 

A questi dati, che potremmo definire interni e connaturati al reperto, se ne potrebbero aggregare altri appartenenti a oggetti fisici diversi (come, per esempio, libri o documenti d’archivio), che abbiano, in tutto o in parte, una stretta relazione con esso. Questa seconda tipologia di notizie potrebbe essere conservata presso la stessa sede del reperto, ma potrebbe anche avere una collocazione diversa. In entrambi i casi, comunque, sarebbe auspicabile che i due tipi di informazione cooperassero per ricostruire un ambiente conoscitivo quanto più possibile completo per quel reperto; ciò è condizione fondamentale per studiarlo e ricostruirne il percorso storico. La situazione appare identica per qualunque bene culturale, sia esso rappresentato da un oggetto fisico che da una entità virtuale.

 

Nella situazione tradizionale, ma che, per molti versi, possiamo definire ancora attuale, gli studiosi che sono interessati ad analizzare in dettaglio un reperto o, più in generale, un bene culturale anche di tipo librario o archivistico, sono costretti a cercare documentazione ad esso relativa non solo in strutture geograficamente collocate in più siti diversi, ma anche in fonti che appartengono a diverse modalità di conservazione delle memorie, fra le quali, oggi, annoveriamo anche quelle digitali consultabili in rete o distribuite su supporti fisici (CD-ROM, DVD, ecc.).

Senza avere la pretesa di risolvere un problema oggettivamente complesso perché si tratterebbe, in effetti, di voler applicare all’attuale società della comunicazione un nuovo modello logico capace di associare informazioni oggi separate in contenitori concettuali e materiali (i luoghi della conservazione) diversi, ci limitiamo a proporre un’applicazione, Pinakes Text, che va in quella ambiziosa direzione.

La base sperimentale, per ora, è costituita da elementi appartenenti alla storia del pensiero scientifico: quanto realizzato fino ad oggi, comunque, dimostra che la strada è percorribile sia pure prevedendo un modo non convenzionale di classificazione e gestione dei beni culturali sul web. Ad uno sguardo superficiale questa metodologia potrebbe apparire dispendiosa in termini di attribuzione di etichette logiche ai dati, etichette che si sovrappongono o riorganizzano, ma non neutralizzano, i metadati tradizionali.

Uno sguardo più approfondito e, soprattutto, una verifica della maggiore potenzialità di information retrieval rispetto a quella che si può ottenere da un classico archivio strutturato in una base di dati relazionale potrà dimostrare che la prospettiva è consona al modo con cui le informazioni sono diffuse e interrogate sul Web.

Inoltre, essa è stata studiata per operare, in maniera mirata, sui beni culturali in tal modo limitando il livello di genericità che denota negativamente, invece, i sistemi per il semantic web, molto usati per ragioni commerciali.

Data di inserimento: 07/05/2009
Top page

Una particolare attenzione deve essere dedicata al trattamento delle annotazioni critiche che sono associate ad un testo. Esse rappresentano un problema particolare poiché contengono, a loro volta, dati di natura differente. In lavori filologici che studiano opere tramandate da più testimoni (cioè versioni diverse della stessa opera manoscritta o a stampa) si incontrano di frequente lezioni testuali alternative (varianti) a quelle riferite da una fonte che, per varie ragioni, è stata considerata come base per il confronto con tutte le altre.

Alla classe delle varianti, segue un ulteriore elemento, rappresentato dal nome, di solito in forma di sigla, che denota la fonte dalla quale le singole varianti sono state tratte.

All’indicazione della fonte si accompagnano spesso le ragioni in base alle quali l’editore critico accoglie o respinge una variante e i commenti che tornano utili per comprendere le proprie eventuali congetture.

 

Non è opportuno qui descrivere altri particolari che potrebbero essere utili, per esempio, nel campo della cosiddetta critica genetica, al fine di realizzare componenti tecnologiche adatte alla preparazione di edizioni elettroniche di opere autografe, manoscritte o a stampa, sulle quali l’autore sia intervenuto in momenti diversi, introducendo note a margine, correzioni interlineari, eliminazioni.

 

Limitiamoci a ribadire che l’applicazione dovrà essere in grado di soddisfare le esigenze sopra descritte e mettere a disposizione una serie di moduli capaci di utilizzare i livelli del testo opportunamente rilevati e codificati secondo gli standard internazionali del settore. I vari componenti di elaborazione, inoltre, saranno inseriti in una struttura modulare perché possano agire sia interconnessi, sia separatamente gli uni dagli altri.

Data di inserimento: 07/05/2009
Top page

Un problema particolare riguarda la possibilità di consentire agli utenti di realizzare progetti in forma collaborativa in modo che le competenze possano essere condivise al fine di raggiungere un risultato comune e cioè da attività realizzabili in forma cooperativa che non riguardino solo la componente editoriale, ma si spingano anche verso la coproduzione di contenuti digitali mediante l’uso di strumenti, computazionali o manuali, che analizzano e arricchiscono i dati da un punto di vista linguistico e filologico. Si pensi, per esempio, a analisi di tipo semantico o sintattico che si sovrappongono ai testi e che ne arricchiscono il potenziale di interoperabilità con altri dati messi a disposizione di altre comunità di studiosi.

 

Vediamo con un esempio semplice come rappresentare questa esigenza e quali le soluzioni che meglio la soddisfano.

Una comunità che studia le opere di uno scienziato del ‘600, per esempio, Galileo Galilei, accede a informazioni “primarie” (i manoscritti, le opere a stampa, i testi dell’edizione nazionale, i disegni, ecc.) che sono disponibili in formato digitale e ogni ricercatore appartenente ad essa può associarvi informazioni “secondarie” (note critiche, studi, bibliografie, ecc.) di sua competenza. Il sistema informatico verifica in primo luogo se le classi alle quali le nuove informazioni appartengono siano state correttamente attribuite e, dopo aver controllato le autorizzazioni che gli utenti possiedono (possibilità di sola lettura, di lettura e scrittura, di sola scrittura), le condivide a tutta la comunità.

 

In altre parole, grazie a Pinakes Text, una stessa comunità di studiosi potrà condividere, mediante la struttura logica con la quale le informazioni sono state organizzate, una mole di informazioni coerenti e distribuite anche su più server diversi. Ne consegue che una funzione di ricerca lanciata da un membro della comunità attiverà un processo di navigazione nei dati messi a disposizione degli altri con un notevole vantaggio per tutti.

 

Per quanto riguarda questo progetto di ricerca, una sperimentazione in tal senso potrà essere realizzata con la comunità internazionale degli studiosi di Galilei così come altri progetti potranno essere portati in una dimensione collaborativa come, per esempio, quelli relativi alle opere di Gerolamo Cardano, di Antonio Vallisneri e dell’edizione Nazionale delle Opere di Dante Alighieri.

Data di inserimento: 07/05/2009
Top page

Sulla base di esperienze maturate nello sviluppo di programmi sperimentali prodotti negli anni passati presso l’ILC-CNR nell’ambito di progetti di ricerca nazionali ed internazionali, alcuni componenti di editoria elettronica specialistica sul Web sono in fase di progettazione e potranno costituire una delle basi di progetto dell’applicazione.

 

I principi considerati fondamentali sono:

  • un testo da immettere nell’applicazione deve corrispondere a quello contenuto nell’immagine digitale della fonte che lo documenta e che può essere associata e mostrata assieme ad esso
  • conviene prendere in considerazione, fra i testimoni che trasmettono un’opera, quello giudicato migliore per ragioni ecdotiche e sulla base del quale vengono verificate le corrispondenze o le differenze presenti in tutti gli altri (principio, di origine Bedieriana)
  • nella prima fase del lavoro di memorizzazione dei dati, vengono registrati in apparato anche gli errori veniali, ovvero quelle forme che certamente non contribuiranno a disegnare la storia della tradizione e la parentela dei manoscritti superstiti e che, quindi, sono inutili al fine della constitutio textus
  • che siano registrati, relativamente alle opere a stampa antiche, in prima istanza anche i refusi tipografici, eliminabili, come per gli errori veniali dei copisti, in una fase seguente del processo editoriale
  • ogni nota a margine, sia per i manoscritti che per i testi a stampa, venga codificata come informazione paratestuale in modo che le forme linguistiche in esse contenute siano indicizzate a parte, ma connesse alla frase (o alla singola parola) alla quale esse sono riferite o riferibili
  • sia realizzato un link automatico o semiautomatico, ove possibile, fra le parole del testo trascritto e le corrispondenti parole dell’immagine digitale nelle quali compaiono. Questo strumento possiede un livello di utilità inversamente proporzionale alla chiarezza di lettura del testo sull’originale: esso diventa addirittura indispensabile quando il supporto materiale è fortemente danneggiato (come nel caso di minute di lettere prodotte con carta carbone e realizzate con sistemi dattilografici meccanici, di frammenti di papiri, ovvero in tutti i casi nei quali si sia verificata una parziale evanescenza degli inchiostri).


I prototipi fino ad oggi realizzati presso l’ILC-CNR, alcuni dei quali sono costituiti da applicazioni stand-alone (BAMBI, DIPHILOS), altri Web based (per esempio FAD) e le prove sperimentali eseguite su fonti manoscritte medievali, su opere a stampa antiche, su frammenti papiracei ed altri documenti testuali di varie epoche potranno integrarsi all’interno di questa applicazione Web based, condividendo strategie, metodi e standard.

 

Il vantaggio di questa strategia di sviluppo consiste anche nel fatto che Pinakes Text può diventare il componente per la gestione dei testi e per lo scholarly editing di sistemi più ampi di catalogazione di collezioni, scientifiche e non, mettendo a disposizione uno strumento che è contemporaneamente un leggio ed uno scrittoio digitale per consultare le fonti oggetto di studio e di edizione. L’utente non avrà a disposizione solo una lente per leggere più agevolmente i documenti e uno strumento di scrittura per trascrivere ed annotare il testo; egli potrà scegliere un menù di servizi disponibili per indicizzare, creare apparati, mettere in relazione documenti fra di loro, ed essere assistito nella preparazione e pubblicazione (sul web o in forma cartacea) dell’edizione critica.

 

L’insieme di attività descritte prevede la stretta collaborazione tra due mondi, quello umanistico e quello dell’ingegneria e dello sviluppo software. Realizzando questa prospettiva comune, giovani ricercatori di matrice specificamente tecnica potranno acquisire le conoscenze, la sensibilità e anche l’esperienza per potersi interfacciare con il settore umanistico della ricerca e delle università, riuscendo a comprendere gli specifici problemi di quest’ultima e collaborando alla progettazione e alla realizzazione di soluzioni adeguate.

 

La ricerca in campo umanistico non è sicuramente un settore che disponga di grandi risorse finanziarie, ma è indubbio che numerose iniziative nell’uso delle tecnologie in questo settore sono in corso e altre ne vengono intraprese. E spesso queste soffrono di una mancanza di comunicazione tre ideatori e realizzatori dovuta alla troppo scarsa competenza tecnica degli umanisti e umanistica dei tecnici. La partecipazione a questo progetto consente di costituire, partendo dal lato tecnico, una solida competenza per la comprensione e la risposta delle specifici problematiche di ricerca poste dal settore umanistico.

 

Va anche rilevato che comunque le problematiche di analisi e gestione dei testi, l’uso delle ontologie fondazionali e la costruzioni di applicazione orientate alla semantica hanno una valenza assolutamente trasversale e possono costituire una referenza professionale spendibile in campi diversi, in tutte le applicazioni di gestione di documenti testuali e testi e in quelle legate alla soluzione di problemi.

Data di inserimento: 07/05/2009
Top page