Hvilke eksisterende data tænkes anvendt? | Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål) Hvem har ansvaret for disse data? Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...) Hvem kan få adgang til data? (betingelser) Hvor befinder disse data sig? Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer) Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …) Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet) Kræver data/værktøjer specifikt software/system? | Der skal analyseres på arkiv-data fra Netarkivet Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år. Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt Original-data bor hos Netarkivet på SB og KB og det er Netarkivet der har det juridiske ansvar for data Data i Netarkivet er personfølsomme og der er derfor meget begrænset adgang. Man skal være forsker (phd. niveau og opefter for i udgangspunktet at kunne få adgang) Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater. Der findes eksempelvis java-libraries til at læse/skrive/behandle både ARC og WARC (ex. jwat-tools) https://bitbucket.org/nclarkekb/jwat-tools/ |
Hvilke nye data tænkes genereret som en del af projektet? | Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?) Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel) Hvilke filformater tænkes de nye data at blive lagret i ? Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer) Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem) Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) Overvejes udvikling af nye værktøjer? | |