FAQ

FAQ - Research Data Management

Spørgsmål til ”Research Data Management i praksis”:	Svar
Hvordan vil danske forskningsresultater resultere i et større afkast ved brug af data management?	Mange forskningsdata har været dyre at producere og GENBRUG af dem vil dermed give et større afkast af danske forskningsresultater.
Skal SB også gemme data fra SAM, NAT og TEK områderne foruden HUM?	Måske på sigt. I DEFF-projektet fokuserer SB på HUM.
Hvem er det, der skal udarbejde den ”relevante dokumentation og best practices” (pkt. 14 Select and deposit for long term preservation)?	Vi udarbejder relevant dokumentation og guidelines med mest muligt input fra de forskellige cases. Måske kan vi få forskerne til at bidrage til dette.
Hvordan hænger LARM og Netlab sammen med Netarkivet?	LARM har ikke noget med netarkivet at gøre. Netlab derimod. LARM er i udgangspunktet forskning i radio-medier og Netlab er en paraply for internet-forskning.
Er der nogle udvikleropgaver eller er det guidelines/workflows?	Det primære resultat er nok mest det sidste, men der vil også være udvikler-opgaver. Måske skal der etableres nye systemer (ex. e-SciDoc / DSpace / Hydra)
Dansk Dataarkiv og Det Nationale Bitmagasin er eksplicit angivet som bevaringsløsninger. Men hvad med metadata-bevaring i forbindelse med Bitmagasin (pkt. 8.4 Select and deposit for long term preservation)?	"FIF" foreslår Hydra (og/eller Curate). Hvis vi sætter et bitmagasin op skal metadata bevares et andet sted.
Hvad er de ”globale løsninger” (pkt. 8.4 Select and deposit for long term preservation)?	Fx. EUDAT
Har du en anelse om hvad ”passende måde” og ”passende kanaler” er (pkt. 8.4 Select and deposit for long term preservation)?	Konkretisering kommer forhåbentlig Eksempelvis DDF Kunne også være data.statsbiblioteket.dk pure.au.dk Passende måde = tilgængelige og søgbare og citer-bare (PID)
Hvad er den forventede forbindelse med den Danske Forskningsdatabase og med Pure?	Se do.
Spørgsmål til Data Management SB cases:
Hvilke data kan vi langtidsbevare?	Langtidsbevaring af data kræver IT-system(er) Viden (ex. om formater) Kompetencer Ressourcer (ex. tid og penge) I vores cases skal vi hjælpe forskerne med at få bevaret de data de genererer. Det gør vi blandt andet ved at hjælpe dem med at vælge format.
Hvor mange datatyper kan/skal vi langtidsbevare?	Det beslutter vi i nogen grad selv. Kommer også an på ressourcer.
Skal casene udvides (f.eks. inspireret af KB)?	Ikke umiddelbart FLERE cases. MEN de services vi måtte etablere kunne måske bruges af andre OGSÅ inden for projektperioden. Omfanget af den enkelte case er meget afhængig af vores ressourcer.
Skal casene være forsker- eller biblioteks/kilde-rettet – dvs. skal f.eks. LARM allerede være tilrettet RDM-struktur (indeholde f.eks. en metadata mappe) eller er det forskernes egen opgave at sørge for det?	Vi skal sikre bevaring af data. Det kræver metadata. Vi skal hjælpe forskerne med bevaringen og det kræver måske at der skal laves flere metadata end forskerne umiddelbart har gjort Data skal måske konverteres til andre formater som en del af overleveringen til langtidsbevaring.
Hvor hurtigt vokser arkiverne og er det med konstant samme tempo?	Netarkivet: ca. 125 Tbytes per år Radio/TV: ca. 300 Tbytes per år. Tilvæksten bliver svagt større år for år.
Skal casene udarbejdes som use cases?	i JIRA opretter vi cases som komponenter så vi kan oprette opgaver der knytter sig til den enkelte case en case i projektet er nok for stor til at være en use case - så det vil sandsynligvis være flere use cases per projekt-case.
Skal vi tage højde for, at der kan komme andre datatyper end de allerede eksisterende i casene?	ja, helt sikkert.
Er det muligt at langtidsbevare data?	se tidl. svar.
Hvem skal sørge for langtidsbevaring (forskeren, universitetet, SB, DeIC)?	det skal projektet afdække. det er næppe forskeren det er sandsynligvis ikke universitetet men det er dog universitetet der har ansvaret for at det sker.
Nedenstående figur viser blot de 20 første datatyper fundet hos University of York, hvor de fortæller, at der er en lang hale af andre formater. Det kan godt være, vi siger, der kun skal være få datatyper, men skal vi kun acceptere dem, og risikere at miste data fra special-værktøjer, som forskerne benytter? Og hvis vi accepterer flere datatyper, hvordan holder vi så styr på hvilke datatyper, der forsvinder?	Meget godt spørgsmål. Vi kan ikke garantere at kunne bevare alle typer data så vores service vil koncentrere sig om nogle få relevante datatyper. Vi kan måske tilbyde bit-bevaring af mere generiske data.
Er der personer fra andre afdelinger, der også skal være involveret i RDM-projektet?	Måske - det kommer an på hvilke services vi eventuelt skal etablere. Fx. bitmagasin eller DOMS-lignende system
Er der en ISO-standard, vi skal følge?	Der kan være specifikke standarder vi gerne vil bruge (fx. på metadata) - nogle af dem kan også være ISO. Der er ikke noget krav om ISO-standard. Vi skal dog leve op til internationalt anerkendte best practices.
Kildedata skal vel bevares permanent, men hvor lang tid skal metadata bevares? Og er det alle metadata, der skal bevares?	Vores egne kildedata skal vi bevare - det gør vi allerede. Nye (meta)-data kan vi sammen med forskerne vælge at bevare. Det vil altid være et valg hvad der skal bevares. Tidsperioden for bevaring kan være politisk bestemt (fx. af universitetet eller af fundere) I projektet har vi bundet os til at bevare data i 10 år.
Listen over ting, som et bevaringssystem skal kunne - fundet i appendiks 1 i University of York's artikel.	Det kan vi lade os inspirere af. Helt overordnet tager vi udgangspunkt i DCC's life cycle model.
Hvordan skal metadata deles (Data Documentation Initiative (DDI), Metadata Encoding and Transmission Standard (METS), General International Standard Archival Description (ISAD(G)), Open Archival Information System Reference Model (OAIS), Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH))?	Meget godt spørgsmål - det skal projektet finde ud af. DDF har deres eget metadata-exchange-format (DDF-MX) som PURE kan levere over OAI-PMH
Jeg går ud fra, at det kun er lagring af data og metadata, vi skal behandle i casene?	NEJ. Helt overordnet tager vi udgangspunkt i DCC's life cycle model. Vi skal hele vejen igennem denne life cycle med vores cases.
Er det os, der skal fortælle om datasikkerhed (virus, hacking osv.)?	I vores cases er det os. Opsamling på tværs af cases står den tema-ansvarlige for. Måske ikke noget vi vil diskutere så meget med forskerne. Vi er selv interesseret i at vores egne systemer er sikre.
Er der lovgivning vedrørende opbevaring af data, vi skal være opmærksom på (eks. forbud mod opbevaring af data uden for Danmark)?	Helt sikkert. Hvis data er personfølsomme er der helt bestemte krav. Eksempelvis skal man anmelde sin datahåndtering til datatilsynet.
Kryptering af metadata?	Det plejer vi ikke. ift. langtidsbevaring er kryptering faktisk noget skidt. Rigsarkivet bruger kryptering systematisk. De har også meget mere hemmelige data end os.
Vejledning i sletning af (meta)data?	Ja. Vi vil sandsynligvis ikke bevare alting til evig tid så på et tidspunkt vil vi højst sandsynligt også fjerne forskningsdata fra arkiverne igen. Sletning af forskernes egne lokale data kan vi måske også vejlede i. Eksempelvis hvis de skal slettes slettes.
Copyright?	Ja - det skal vi have med i tankerne. Hvem ejer de nye data og hvordan bliver de tilgængelige Skal der bruges eksempelvis Creative Commons eller andre åbne licenser. larm.fm data er allerede CC
Versionskontrol?	Kan være relevant for nogle datasæt at der kan arbejdes med versionering. Når man citerer et datasæt SKAL det være en specifik version således at forskningsresultater kan efterprøves. Man bør derfor som minimum kunne linke mellem forskellige versioner af samme datasæt. Relevant i larm.fm casen hvor der jo stadig arbejdes med de data vi gerne vil bevare.
Er data indekseret med keywords?	Det kommer an på hvilket system og metadata-skema vi beslutter at anvende. Keywords lyder som en god ide - i hvert fald på datasæt-niveau.
Skal casene udarbejdes på dansk eller engelsk?	vores ekspertpanel er engelsk-talende så vi skal kunne præsentere resultater på engelsk. OK at arbejde på dansk i det daglige. Aftales med den enkelte case. Bolette og Knud Åge bestemmer.
Skal vi også tænke på fremtiden (såsom fil formater og gøre det let f.eks. at udføre Big Data analyse på data)?	Helt sikkert. Både fremtidig anvendelse og ikke mindst langtidsbevaring skal tages in mente når vi lagrer data.
Der vil også være en stor udfordring med at overtale forskere om at benytte RDM (iht. litteratur fra f.eks. Pascal Launois). Skal vi også tage højde for det?	i projektet kan vi forhåbentlig arbejde med de to cases Netlab er orienteret og har sagt ja tak til at være med I fremtiden vil der sandsynligvis blive tale om en kombination af pisk og gulerod Fundere stiller krav Større anerkendelse ved genbrug af data
Er der mere end de eksisterende 2 cases, der skal udarbejdes? Nej	NEJ - ikke umiddelbart
Så der skal ikke være en case for aviser?	NEJ
Links: http://www.data-archive.ac.uk/media/2894/managingsharing.pdf http://www.data-archive.ac.uk/media/54776/ukda062-dps-preservationpolicy.pdf