Hum_SB_Netlab

Overordnet casebeskrivelse


Titel	Netlab
Ansvarlig	Bolette Ammitzbøll Jurik og Knud Åge Hansen
Forskningsspørgsmål	Formålet med dette projekt er at kortlægge den historiske udvikling af hele det danske web, baseret på det tilgængelige materiale i Netarkivet. Det forskningsmæssige hovedspørgsmål er: Hvordan så det danske web ud tidligere, og hvordan har det udviklet sig? Et delmål med projektet er at udvikle den nødvendige forskningsinfrastruktur til at foretage en sådan undersøgelse, dvs. værktøjer og procedurer til at håndtere korpus-skabelse big data-analyser samarbejde mellem arkiver og forskere. I et længere perspektiv er det projektets formål at være hjørnesten i et europæisk projekt, der skal kortlægge og sammenligne de forskellige nationale web-domæner i Europa, inden for rammerne af RESAW (Research Infrastructure for the Study of Archived Internet Materials), muligvis finansieret af Horizon 2020. Projektet bygger oven på erfaringerne fra forskningsinfrastrukturprojektet DIGHUMLAB/NetLab og vil være showcase for, hvordan det kommende nationale kulturarvs-cluster etableret af DeIC og Statsbiblioteket kan benyttes i forbindelse med datamining af store digitale samlinger.
Involverede parter	SB, DigHumLab, Niels Brügger (Netlab), Ulrich (Netlab) Kulturarvscluster (Per og Asger)
Projektplan	Link til projektplan (begrænset adgang)

Case - Livscyklus for forskningsdata

Spørgsmål

Forklaring

Svar

Hvilke eksisterende data tænkes anvendt?

Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn

Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål)

Hvem har ansvaret for disse data?

Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...)

Hvem kan få adgang til data? (betingelser)

Hvor befinder disse data sig?

Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer)

Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …)

Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet)

Kræver data/værktøjer specifikt software/system?

Der skal analyseres på arkiv-data fra Netarkivet

Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år.

Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt

Original-data bor hos Netarkivet på SB og KB og det er Netarkivet der har det juridiske ansvar for data

Data i Netarkivet er personfølsomme og der er derfor meget begrænset adgang.

Man skal være forsker (phd. niveau og opefter for i udgangspunktet at kunne få adgang)

Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes

Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater.

Der findes eksempelvis java-libraries til at læse/skrive/behandle både ARC og WARC (ex. jwat-tools)

https://bitbucket.org/nclarkekb/jwat-tools/

Hvilke nye data tænkes genereret som en del af projektet?

Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?)

Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel)

Hvilke filformater tænkes de nye data at blive lagret i ?

Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer)

Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem)

Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet)

Overvejes udvikling af nye værktøjer?

Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet

Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk)

Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data)

https://github.com/vinaygoel/ars-workshop

Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet)

Presentation 160204: 3rd Project Meeting