Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Data
Hvilke eksisterende data tænkes anvendt?

Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang.

 

 Samlingens navnNetarkivet
 Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål  og -mål)

Der skal analyseres på arkiv-data fra Netarkivet

Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år.

Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt

 Hvem har ansvaret for disse data?

Original-data bor hos Netarkivet på SB og KB og de 2 institutioner har det juridiske ansvar for data.

 Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...)

Data i Netarkivet kan være personfølsomme og det er ophavsret-beskyttet, og der er derfor meget begrænset adgang.


 Hvem kan få adgang til data? (betingelser)

Man skal have en individuelt udstedt tilladelse for at kunne få adgang.


 Hvor befinder disse data sig?SB og KB
 Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer)

Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes


 Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …)

Alle kendte fil-formater.

Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater.

Crawllogs, andre metadata-filer, som skal kunne forstås.


 

Hvilke værktøjer anvendes (navn, version og systemkrav)? (gerne link til værktøjet)

Hvilken platform og versionsnummer anvendes (windows, linux, mac)?

Per / Kulturarvscluster
Hvilke forsknings-data tænkes genereret som en del af projektet?

Hvad er forholdet mellem eksisterende data og de nye forskningsdata ?

Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet.

Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk)

 Skal alle datasæt bevares?Indeks skal bevares. Procedurebeskrivelse skal bevares + beskrivelse af anvendte værktøjer.Output indeholder kun afledte data.
 

Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel)


Grundlag for yderligere forskning. Dokumentation af data i projektet. Kopier fra ansøgning.
 Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer)Under 5 TB
 Har forskningsdata værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem)Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet)
 Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) 
 Overvejes udvikling af nye værktøjer? Ja, skaber et værktøj der kan udstille data på Clusteret. Værktøjet/værktøjerne ejes af??? Open Source???
Filfomat af forskningsdata

Filformater bør opfylde følgende kriterier:

  • Godkendt som en international eller national standard
  • Almindelig brugt
  • Accepteret som best practice indenfor fagområdet

 

 Hvilke filformater tænkes de nye data at blive lagret i ?

Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data)

https://github.com/vinaygoel/ars-workshop

 

Er der specielle software eller hardware krav for at benytte disse data?

Hvis ja, hvilke?

 Ingen ud over systemets.
Organisation af forskningsddata under projektetHvilke standarder og metoder vil du anvende? 
 Hvordan vil du strukturere og navngive dine mapper og filer? 
 Hvordan vil du håndtere versionering (f.eks. benytte versionsstyringsværktøj)? 
 Hvordan vil du kvalitetssikre dine data (f.eks. review hos kollega)? 
Ikke digitale data

Hvor opbevares evt. ikke digitale forskningsdata sikkert?

 
 Hvor lang tid vil ikke digitale forskningsdata blive bevaret sikkert? 

Dokumentation og metadata

Hvilken form for dokumentation og metadata vil følge dine data?

Hvilke informationer er nødvendige for at dine data kan læses og forstås i fremtiden?

 Beskrivelsen af indeksfilen og beskrivelse af procedure af proceduren hvordan man viser data.
 

Hvordan vil du skabe den nødvendige dokumentation og metadata?

 Beskrive proceduren.
 

Hvilke metadatastandarder vil du bruge og hvorfor?

 
 Beskriv den type dokumentation der vil følge dine data, sådan at
udenforstående kan forstå og genanvende dine data.
Som minimum skal der være nogle grundlæggende oplysninger, som vil
hjælpe med at finde data, inklusive hvem der har skabt data, en titel, en dato
og evt. adgangsbegrænsninger.
Dokumentationen skal også gerne inkludere oplysninger om metode, analyse,
variabeldefinitioner, vokabularer, målingsenheder, antagelser samt format- og
filtype. Overvej hvordan og hvor du vil redegøre for disse oplysninger. Det er
en god idé at følge eksisterende standarder.
 Tekstbehandlingsdokumenter, artikler etc.
Etiske og lovgivningsmæssige forhold

Hvordan vil du håndtere etiske overvejelser?

Etiske spørgsmål kan have betydning for hvordan du håndterer dine data. Både i forhold til hvordan de opbevares, hvem der har adgang til dem og hvor længe de er bevaret. Du bør vise, at du er opmærksom på evt. etiske problemstillinger, og at du har taget hensyn til retningslinjer udstukket af din institution (også dem der går ud over de rent lovmæssige forhold)

 

 
 

Har du tilladelse til at gemme og dele data?

 

:

Ja vi må gemme data, men ikke dele data. Se ovenfor. Deling af data og resultater skal overholde persondata- og ophavsret.
 

Hvordan vil du sikre anonymitet for evt. deltagere i forskningsprojektet?

 
Målet er ikke at behandle følsomme data. Skulle det ske, skal disse data ikke trækkes ud.
 

Hvordan vil du håndtere personfølsomme oplysninger, så du sikrer at de er opbevaret sikkert?

 
Hvordan vil du håndtere evt. spørgsmål om copyright og intellektuel ejendomsret?Hvem skal spørges om lov, hvis data skal genanvendes? 
 

Er der nogen adgangsbegrænsninger i forhold til genanvendelse af tredjepart?

 
 

Vil datadeling blive forsinket på grund af publikationer eller patenter?

 
 Beskriv hvem og hvor mange der skal spørges om lov i tilfælde af, at en tredjepart vil genanvende data 
 Er der dansk copyright på data? 
 Er der udenlandsk copyright på data? 
 Ejerskab af dataEjerskab af kilde-data 
 Ejerskab af data skabt i projektet (f.eks. et indeks) 
 Ejerskab af metadata skabt i projektet 
Tredje parts dataHvis andre ejer data, hvordan kom projektet i besiddelse af disse data og hvilke vilkår gælder der for tilgang til disse data. 
 Reference nummer til købte eller licenserede data 
 Reference nummer til data, der er opnået gennem en open access licens 
 Beskrivelse af vilkår for data opnået på anden vis 
Opbevaring og backup

Hvordan vil du opbevare og sikre backup af data under dit forskningsprojekt?

Er der tilstrækkelig lagerplads?

Ikke relevant, da både eksisterende data og nye data + metadata håndteres af SB?
 

Hvordan vil du sikre backup, så dine data ikke risikerer at gå tabt?

 Under Active DM ingen backup. I øjeblikket en backup at clusteret.
 

Hvem er ansvarlig for backup og genskabelse?

 
 

Hvordan vil du genskabe data i tilfælde af et uheld?

 
 

Beskriv hvor ofte og til hvilke lokationer du vil føre backup

 

Hvordan vil du håndtere adgang og sikkerhed?

Hvilke risici kan du forestille dig med hensyn til datasikkerhed og hvordan vil du håndtere dem?

--- " ---
 

Vil du foretage nogen særlige foranstaltninger i forbindelse med adgangskontrol?

 
 

Hvordan vil du sikre at dine samarbejdspartnere kan få sikker adgang til data?

 
 

Hvis du indsamler data ude, hvordan vil du så sikre, at data bliver overført til dit system på en sikker måde?

Ikke relevant
 

Hvis dine data er særligt følsomme er det en ekstra god idé eksplicit at redegøre for alle sikkerhedsforanstaltninger og formelle standarder

 

...