Page Comparison

Panel

borderColor	black
bgColor	white
titleColor	black
titleBGColor	grey
borderStyle	solid
title	Overordnet casebeskrivelse


Titel	Netlab
Ansvarlig	Bolette Ammitzbøll Jurik og Knud Aage Åge Hansen
Forskningsspørgsmål	Formålet med dette projekt er at kortlægge den historiske udvikling af hele det danske web, baseret på det tilgængelige materiale i Netarkivet. Det forskningsmæssige hovedspørgsmål er: Hvordan så det danske web ud tidligere, og hvordan har det udviklet sig? Et delmål med projektet er at udvikle den nødvendige forskningsinfrastruktur til at foretage en sådan undersøgelse, dvs. værktøjer og procedurer til at håndtere korpus-skabelse big data-analyser samarbejde mellem arkiver og forskere. I et længere perspektiv er det projektets formål at være hjørnesten i et europæisk projekt, der skal kortlægge og sammenligne de forskellige nationale web-domæner i Europa, inden for rammerne af RESAW (Research Infrastructure for the Study of Archived Internet Materials), muligvis finansieret af Horizon 2020. Projektet bygger oven på erfaringerne fra forskningsinfrastrukturprojektet DIGHUMLAB/NetLab og vil være showcase for, hvordan det kommende nationale kulturarvs-cluster etableret af DeIC og Statsbiblioteket kan benyttes i forbindelse med datamining af store digitale samlinger.
Involverede parter	SB, DigHumLab, Niels Brügger (Netlab), Ulrich (Netlab) Kulturarvscluster (Per og Asger)
Projektplan	Link til projektplan (begrænset adgang)

Panel

borderColor	black
bgColor	white
titleColor	black
titleBGColor	grey
borderStyle	solid
title	Case - Livscyklus for forskningsdata

Spørgsmål	Forklaring	Svar
Hvilke eksisterende data tænkes anvendt?	Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål) Hvem har ansvaret for disse data? Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...) Hvem kan få adgang til data? (betingelser) Hvor befinder disse data sig? Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer) Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …) Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet) Kræver data/værktøjer specifikt software/system?	Der skal analyseres på arkiv-data fra Netarkivet Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år. Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt Original-data bor hos Netarkivet på SB og KB og det er Netarkivet der har det juridiske ansvar for data Data i Netarkivet er personfølsomme og der er derfor meget begrænset adgang. Man skal være forsker (phd. niveau og opefter for i udgangspunktet at kunne få adgang) Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater. Der findes eksempelvis java-libraries til at læse/skrive/behandle både ARC og WARC (ex. jwat-tools) https://bitbucket.org/nclarkekb/jwat-tools/
	Data Management Planning	Data capture, storage and documentation	Data identification, citation and discovery	Select and deposit for long term preservation	Training and marketing tool	Sustainability
Kontaktpersoner
Hvilke nye data tænkes genereret som en del af projektet?	Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?) Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel) Hvilke filformater tænkes de nye data at blive lagret i ? Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer) Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem) Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) Overvejes udvikling af nye værktøjer?

Panel

borderColor	black
bgColor	white
titleColor	black
titleBGColor	grey
borderStyle	solid
title	Case ifht. livscyklus

Denne case kan bidrage til temaet med... (lav-middel-høj relevans

Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet

Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk)

Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data)

https://github.com/vinaygoel/ars-workshop

Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet)

Panel

borderColor	black
bgColor	white
titleColor	black
titleBGColor	grey
borderStyle	solid
title	Kommentarer

Dato

Kommentar

Emne

title	Presentation 160419: Theme Workshop

View file

name	NetLabCase_ProjektMøde_20160419.pdf
height	250

Panel

title	Presentation 160204: 3rd Project Meeting

View file

name	NetLabCase_ProjektMøde_20160204.pdf
height	250

Versions Compared

Old Version 5

New Version Current

Key