GIACOMO VERDE

ARKIVE è studiato per risolvere l’alto rischio perdita dati in formato digitale.

UTILITA’ DELL’ARCHIVIAZIONE A LUNGO TERMINE DEL FORMATO DIGITALE

È molto facile produrre dati in formato digitale, ma è complesso assicurarne la sopravvivenza nel tempo. Adottare policy di backup periodiche non è una soluzione sufficiente per diverse ragioni:
- perché ad esempio nel tempo i formati dei files diventano obsoleti ed è difficile trovare i programmi per leggerli;
- perché i dispositivi di lettura si deteriorano e si rischia di perdere accidentalmente i dati,
- perché i dati non sono stati archiviati bene e non li si trova più.

Purtroppo spesso questi problemi si manifestano quando è troppo tardi e diventa molto oneroso, a volte impossibile, porre rimedio e recuperare i contenuti persi.
UNIMI ha deciso di intervenire per la salvaguardia dei propri dati della ricerca e in futuro di tutti i dati che necessitano di essere salvati nel tempo attraverso un progetto specifico inserito nel Piano Strategico di Ateneo 2022-2024 per la costruzione di ARKIVE.

CARATTERISTICHE DEL PROGETTO ARKIVE

- Grande quantità di storage
- Scalabilità
- Interoperabilità
- Automazione dei processi e delle operazioni di data curation
- Policy per la cura e la gestione dei dati
- Affidabilità, certificazione dell’archivio


Link: https://progetto-arkive.unimi.it

COME OPERA ARKIVE

ARKIVE ha un’infrastruttura modulare basata sullo standard di riferimento per gli archivi digitali OAIS.
Il sistema di storage è basato su tecnologia cloud Swarm Datacore (S3) su server di proprietà e su rete di UNIMI. Il “motore” della gestione dei dati è Archivematica che permette di analizzare, normalizzare, impacchettare i dati e spostarli nel deposito. 
iRODS è il componente che realizza la virtualizzazione del file-system permettendo di modificare ogni parte del sistema lasciando inalterata la struttura dell’archivio. 
Atom è il catalogo dell’archivio. In futuro ARKIVE fornirà il servizio di conservazione a lungo termine per altri sistemi di Ateneo (es. Dataverse) e sarà fornitore di dati per sistemi di pubblicazione (es. Europeana, mostre virtuali…).

Nella parte sinistra dello schema sono indicate le tecnologie e i software usati per la “ingestion” cioè l’inserimento dei dati in archivio da parte degli utenti, nella parte destra sono rappresentate alcune modalità di consultazione e uso dei dati: Atom è il catalogo dell’archivio, Europeana è la Biblioteca digitale europea.

Nella parte centrale dello schema sono rappresentate le applicazioni, le tecnologie utilizzate e lo schema a blocchi di ARKIVE.
Per entrare nell’archivio i dati vengono “impacchettati” in modo da unire in una unica “cartella” sia i files che i metadati:
- SIP (Submission Information Package): sono i dati “grezzi” inseriti nell’archivio;
- AIP (Archival Information Package): sono gli stessi dati del SIP controllati, eventualmente arricchiti di metadati e trasformati per essere inseriti nell’achivio. L’archivio è in sostanza un deposito strutturato di AIP;
- DIP (Dissemination Informatio Package): sono i dati e i metadati che devono essere estratti dall’archivio (a volte aggregati e formattati in modo diverso da come sono entrati) per essere consultati e riutilizzati sia dalle persone che da altre applicazioni.

Per archiviare in modo corretto è necessario che ai files vengano aggiunti dei metadati secondo schemi che in generale sono definiti dall’archivio.

ARKIVE PER I_PAD

I_PAD ha collaborato con il gruppo ARKIVE per la creazione di dati aggregati e la realizzazione di una struttura solida e avanzata per l’archiviazione e il riutilizzo di materiali digitali.
Si è sviluppato un workflow che segue diverse fasi cruciali: dalla generazione di un’impronta digitale dei file alla loro verifica, arricchimento con metadati e, quando possibile, estrazione del testo. Al termine, ogni dato è confezionato in un pacchetto di archiviazione (AIP) che viene inserito nel sistema ARKIVE.
In alcune circostanze, viene creato anche un pacchetto di distribuzione (DIP), così da permettere il riuso dei dati in applicazioni esterne. Una volta completata la procedura di ingestion, gli AIP vengono conservati nella sezione centrale dell’archivio, inaccessibile dall’esterno. I proprietari dei dati possono accedere e scaricare le informazioni che li riguardano.

La finalità è garantire al fondo digitale I_PAD una conservazione che sia a lungo termine e che consenta, in futuro, di adattare i materiali a nuove tecnologie e modalità di fruizione. 
La creazione di dati aggregati è l'elemento innovativo del lavoro: non è stata effettuata una semplice digitalizzazione e organizzazione dei file, ma si è creato una serie di connessioni significative tra i materiali, affinché l'utente finale possa accedervi seguendo percorsi specifici e suggeriti.

ESEMPIO

L’archivio IPAD – GIAC è suddiviso in 12 collezioni, ciascuna rappresentante una tipologia artistica, come TELERACCONTI, TEATRO, VIDEOFONDALI, VIDEOARTE, PERFORMANCE/INSTALLAZIONI e COMPILATION.
Ogni collezione contiene opere specifiche, come H&GTV e Boccascena.
Questi AIP includono informazioni dettagliate: il titolo dell’opera, la tipologia dell’oggetto (ad esempio audiovisivo, sonoro, fotografico, testuale) e i rispettivi numeri, insieme a tutte le tracce digitali e i metadati della fonte.

L’obiettivo è che gli AIP possano essere pronti per un utilizzo da parte di futuri software, con informazioni dettagliate sulla disposizione, la sequenza di visualizzazione e le connessioni tra i diversi oggetti.
Il Gruppo di Ricerca ha sviluppato dei percorsi di lettura, basati su criteri specifici per ottimizzare l’esperienza di consultazione. Questi percorsi seguono una struttura che guida l'utente nella visualizzazione dei materiali in modo progressivo e ragionato. I criteri introducono un ordine prestabilito di visione:

1 - il video dello spettacolo nella sua versione migliore, ponendo attenzione sull’audiovisivo poiché curiamo un archivio video;
2 - testi dell’artista, che includono la descrizione del progetto, schede tecniche e bozzetti;
3 - fotografie che documentano le diverse rappresentazioni;
4 - locandine delle varie messe in scena;
5 - un video di una versione successiva dello spettacolo;
6 - articoli e recensioni dell’epoca;
7 - fotografie o ricostruzioni 3D del kit di oggetti utilizzati in scena.