Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Panel
borderColorblack
bgColorwhite
titleColorblack
titleBGColorgrey
borderStylesolid
titleOverordnet casebeskrivelse
  
TitelNetlab
AnsvarligBolette Ammitzbøll Jurik og Knud Aage Åge Hansen
Forskningsspørgsmål

i LARM-projektet bliver der arbejdet med mange forskellige forskningsspørgsmål i mange forskellige del-projekter

Projekterne arbejder med radio-data igennem interfacet larm.fm. Her kan forskerne arbejde med materialet og berige det med

  • Rettelser til metadata
  • Nye metadata
  • Annoteringer
  • Samlinger af programmer i "mapper"

I denne case skal der skabes overblik over de nye data
Der skal etableres en løsning der sikrer disse data for eftertiden, ved at de langtidsbevares et passende sted på en passende måde (format)
Data skal så vidt muligt kunne genbruges i andre sammenhænge (fx. mediestream.dk) og til nye forskningsprojekter.

 

Formålet med dette projekt er at kortlægge den historiske udvikling af hele det danske web, baseret på det tilgængelige materiale i Netarkivet.

Det forskningsmæssige hovedspørgsmål er:

  • Hvordan så det danske web ud tidligere, og hvordan har det udviklet sig?

Et delmål med projektet er at udvikle den nødvendige forskningsinfrastruktur til at foretage en sådan undersøgelse, dvs.

  • værktøjer og procedurer til at håndtere korpus-skabelse
  • big data-analyser 
  • samarbejde mellem arkiver og forskere.

I et længere perspektiv er det projektets formål at være hjørnesten i et europæisk projekt, der skal kortlægge og sammenligne de forskellige nationale web-domæner i Europa, inden for rammerne af RESAW (Research Infrastructure for the Study of Archived Internet Materials), muligvis finansieret af Horizon 2020.

Projektet bygger oven på erfaringerne fra forskningsinfrastrukturprojektet DIGHUMLAB/NetLab og vil være showcase for, hvordan det kommende nationale kulturarvs-cluster etableret af DeIC og Statsbiblioteket kan benyttes i forbindelse med datamining af store digitale samlinger.

Involverede parter

SB, DigHumLab, Iben Have, Jeanne Nielsen (på barsel fra August 2015), ChaosInsights (som driver larm.fm platformenNiels Brügger (Netlab), Ulrich (Netlab) Kulturarvscluster (Per og Asger)

ProjektplanLink til projektplan (begrænset adgang)
Panel
borderColorblack
bgColorwhite
titleColorblack
titleBGColorgrey
borderStylesolid
titleCase - Livscyklus for forskningsdata
SpørgsmålForklaringSvar
Hvilke eksisterende data tænkes anvendt?

Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn

Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål  og -mål)

Hvem har ansvaret for disse data?

Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...)

Hvem kan få adgang til data? (betingelser)

Hvor befinder disse data sig?

Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer)

Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …)

Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet)

Kræver data/værktøjer specifikt software/system?

RadioDer skal analyseres på arkiv-data fra DR

Radio-data fra Statsbiblioteket

Program-metadata fra DR

Program-metadata fra Statsbiblioteket (Ritzau)

PDF-filer med scannede program-oversigter (de hvide programmer)

DR har fungeret som underleverandør og er ikke længere en del af LARM-projektet efter overflytningen til DigHumLab, derfor er det Statsbiblioteket der har ansvaret for data

Alle data er beskyttet af ophavsret hvorfor der kun kan gives adgang til larm.fm for ansatte og studerende der er omfattet af Statsbibliotekets Mediestream-aftale med Copydan

Både eksisterende og nye metadata befinder sig i CHAOS-platformen som hostes hos Amazon (via ChaosInsights). Denne platform har en SQL-database som backend men også et rigt API der kan kommunikeres med

Der er så vidt vides 2-3 millioner objekter i CHAOS-databasen - det skal analyseres om alle disse skal bevares som et forskningsdatasæt eller det kun er det nye data forskerne har genereret der skal bevares. (tænke fremtidig brug i andre sammenhænge)

Filerne består af (XML-metadata, MP3-lydfiler (som streames fra Statsbiblioteket og nok IKKE skal indgå i forskningsdata-sæt), PDF-filer)Netarkivet

Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år.

Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt

Original-data bor hos Netarkivet på SB og KB og det er Netarkivet der har det juridiske ansvar for data

Data i Netarkivet er personfølsomme og der er derfor meget begrænset adgang.

Man skal være forsker (phd. niveau og opefter for i udgangspunktet at kunne få adgang)

Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes

Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater.

Der findes eksempelvis java-libraries til at læse/skrive/behandle både ARC og WARC (ex. jwat-tools)

https://bitbucket.org/nclarkekb/jwat-tools/

 

Hvilke nye data tænkes genereret som en del af projektet?

Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?)

Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel)

Hvilke filformater tænkes de nye data at blive lagret i ?

Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer)

Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem)

Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet)

Overvejes udvikling af nye værktøjer?

 
Panel
borderColorblack
bgColorwhite
titleColorblack
titleBGColorgrey
borderStylesolid
titleCase ifht. livscyklus
 
 Data Management Planning Data capture, storage and documentationData identification, citation and discovery Select and deposit for long term preservationTraining and marketing toolSustainability
Kontaktpersoner      
Denne case kan bidrage til temaet med... (lav-middel-høj relevans)
  

Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet

Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk)

Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data)

https://github.com/vinaygoel/ars-workshop

Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet)

 

 

 

 
Panel
borderColorblack
bgColorwhite
titleColorblack
titleBGColorgrey
borderStylesolid
titleKommentarer
DatoKommentarEmne 
    
    
    
    
    
    
    
    
    
    
   
titlePresentation 160419: Theme Workshop

View file
nameNetLabCase_ProjektMøde_20160419.pdf
height250

Panel
titlePresentation 160204: 3rd Project Meeting

View file
nameNetLabCase_ProjektMøde_20160204.pdf
height250