Indledning

En datamanagement plan er en vigtig del i din håndtering af de data, som du skaber, behandler eller indsamler i dit forskningsprojekt. Disse data er værdifulde og du vil sikkert gerne bevare dem i en længere periode. Måske vil du også gerne dele dine data – helt eller delvis - med andre forskere. Denne tjekliste er ment som en hjælp til at udarbejde en plan for din håndtering af data.

Tjeklisten kan bruges til at:

Dokumentere hvordan du håndterer dine data
Identificere områder, som udgør potentielle risici eller konflikter, som måske skal håndteres i samarbejde med din forskergruppe, samarbejdspartnere, kolleger eller ledelse.

Tjeklisten er nemmest at udfylde, hvis du er bekendt med Dansk Code of Conduct: http://ufm.dk/publikationer/2014/the-danish-code-of-conduct-for-research-integrity

Om tjeklisten

Du vil få mest gavn af tjeklisten, hvis den udfyldes i begyndelsen af projektet. Tjeklisten vil som nævnt kunne hjælpe dig med at udarbejde en datamanagement plan. Denne plan bidrager til at afklare behov for f.eks. hardware, software, relationer til samarbejdspartnere mm. Planen indeholder bl.a. hvordan data skal bevares og deles under hensyntagen til etiske og juridiske forhold.

Her er to steder, hvor du kan læse mere om data management planer og se eksempler på både tjeklister og planer:

Rigsarkivet: https://www.sa.dk/aflevering-arkivet/private-og-forskere/haandtering-af-forskningsdata-datamanagement
Digital Curation Centre: http://www.dcc.ac.uk/resources/data-management-plans.

Gode råd om håndtering af den udfyldte tjekliste og din datamanagementplan

Bevar en kopi af den komplette tjekliste og din datamanagement plan sammen med dine forskningsdata.
Tjeklisten vil være god at have ved hånden under samtaler med kolleger, samarbejdspartnere, ledelse m. fl. og andre om behov i forbindelse med data management.
Ændring i politikker, lovgivning osv. sker jævnligt. Metoderne i projektet udvikles og justeres sker også ofte Det kan derfor blive nødvendigt at ændre data managementplanen i takt med at vilkårene ændrer sig.

JURA?

Definition af data

Når du udarbejder din datamanagement plan er det nødvendigt, at du beskriver hvordan du vil håndtere dine data i løbet af forskningsprocessen. Da forskere ikke altid har de fornødne rettigheder til at bruge og dele deres data ubegrænset er vi i forbindelse med denne tjekliste være nødt til at bruge nedenstående definitioner for at sikre en dækkende datamanagement plan.

I sammenhæng med datamanagementplaner opereres med fire typer af data:

Kildedata/eksisterende data /originaldata er data, som eksisterede før forskningsprojektet startede, som f.eks. Statsbibliotekets kulturarvsdata.
Forskningsdata/afledte data er nye data, som bliver skabt i forskningsprojektet, f.eks. indsamlede primærdata, indekser over eksisterende data, statistikker eller grafer, måleresultater, eller evt. algoritmer, som ud fra givne kildedata og indekser, kan foretage statistisk bearbejdning.
Metadata er dokumentation for og beskrivelse af de nyskabte data. De letter overblikket over data og gør det muligt for samarbejdspartnere og andre at finde og forstå dine data. Det er en fordel at bruge internationalt udbredte standarder for metadata. Metadata indeholder eksempelvis oplysninger om hvilken software og hardware, der skal bruges til åbne en given fil, hvem der må åbne data etc.
Ikke- digitale data. Hvis der bliver skabt ikke-digitale data skal disse også behandles i planen.

Mere om tjeklisten

Tjeklisten er inddelt i følgende fem dele:

Første del vedrører basale oplysninger om projektet. Det vil sige titel, deltagende forskere, kontaktoplysninger etc.
Anden del indeholder dels hvem der ejer data samt hvem, der skal have adgang til disse under og efter forskningsprojektets afslutning. Dels jeres etiske overvejelser om indsamling, brug, bevaring og eventuel deling af data anvendt i og/eller skabt i løbet af forskningsprojektet.
Tredje del rummer oplysninger om data, som jeres forskningsprojekt eventuelt bygger videre på. Det vil sige kilde-data/eksisterende data/originaldata.
Fjerde del indeholder oplysninger om data, som skabes løbende i forskningsprojektet, men som ikke nødvendigvis skal arkiveres eller skal kunne tilgås efter forskningsprojekts ophør. Det vil sige forskningsdata/afledte data.
Femte del vedrører heroverfor de kilde-data/eksisterende data/originaldata som skal bevares. Altså oplysninger om udvælgelse af data til bevaring, i hvor lang tid og om data skal kunne deles – hvordan, i hvilket omfang og med hvem.

I forbindelse med de enkelte dele vil der være felter, hvor oplysningerne allerede er givet tidligere, men da de enkelte faser behandler forskellige institutioner og arbejdsprocesser, er gentagelserne nødvendige for at sikre et fyldestgørende billede. Men hvis oplysningerne er helt de samme, kan I bare henvise til tidligere udfyldte felter.

Tjekliste for "Probing a Nation's Web Domain"

Stamoplysninger
Projektnavn	Hvis du har søgt en bevilling, brug samme navn som i bevillingsansøgningen	Probing a Nation's Web Domain
ID	Et relevant ID, eventuelt bestemt af bevillingsgiver og/eller institution
Bevillingsgiver	Navn på bevillingsgiver, hvis det er relevant	Kulturstyrelsen, DEIC, Netlab
Bevillingsnummer	Reference til en bevillingsskrivelse, hvis det er tilgængeligt	FPK.2015-0049
Projektbeskrivelse	Fortæl kort, hvilken type studie, der er tale om, sådan så andre kan forstå formålet med at skabe dine forskningsdata:	Forskningsspørgsmål: Hvordan har .dk domænet udviklet sig over tid fra 2005-2015
	Hvilken type forskningsprojekt er der tale om?	internet-forskning, digital humaniora
	Med hvilket formål bliver data skabt?	For at analysere dem, og besvare forskning-spørgsmål
	Reference til projekt-ansøgning, hvis den er tilgængelig	links
Primærforsker	Navnet på projektets primærforsker(e)	Niels i samarbejde med Ditte , Janne
ForskerID	F.eks. ORCID
Kontaktperson	Navn (hvis andet end primærforskere), tlf.nummer, e-mailadresse	Niels
Organisationer	Involverede organisationer	Netlab, AU, IKK, Center for Internetforskning, SB
Version	Projektets tidsmæssige længde	open-ended, lige nu med finansiering til udgangen af 2016
	Dato for den første version af projektets datamanagementplan	14/9-2015
	Dato for senest ændrede version af projektets datamanagementplanen	14/9-2015
	Dato for næste planlagte version af projektets datamanagementplanenen	IFT. Netarkviet Senest 14/11 IFT. DMP projektet før.
Relaterede politikker	Nogle af de informationer, du vil skrive ind i din datamanagementplan vil formentlig bygge på forskellige politikker (f.eks. SB). Det er derfor en god idé at angive dem, sådan at du kan henvise til dem løbende
	Bygger datamanagementplanen på eksisterende procedurer? Hvis ja, hvilke?
	Har den institution, som projektet tilhører, nogen særlige regler vedr. datasikkerhed? Hvis ja, hvilke?
	Stiller bevillingsgiveren nogle krav vedr. datamanagement? Hvis ja, hvilke?
	Bruges nogle formelle standarder i forbindelse med datamanagement? Hvis ja, hvilke?
	Vilkår fra samarbejdspartnere, som skal overholdes? Hvis ja, hvilke?
Data Management	Anslået pris for data management gennem og efter projektet. Eksempelvis pris for opbevaring af data.

Data
Hvilke eksisterende data tænkes anvendt?	Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang.
	Samlingens navn	Netarkivet
	Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål)	Der skal analyseres på arkiv-data fra Netarkivet Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år. Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt
	Hvem har ansvaret for disse data?	Original-data bor hos Netarkivet på SB og KB og de 2 institutioner har det juridiske ansvar for data.
	Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...)	Data i Netarkivet kan være personfølsomme og det er ophavsret-beskyttet, og der er derfor meget begrænset adgang.
	Hvem kan få adgang til data? (betingelser)	Man skal have en individuelt udstedt tilladelse for at kunne få adgang.
	Hvor befinder disse data sig?	SB og KB
	Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer)	Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes
	Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …)	Alle kendte fil-formater. Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater. Crawllogs, andre metadata-filer, som skal kunne forstås.
	Hvilke værktøjer anvendes (navn, version og systemkrav)? (gerne link til værktøjet) Hvilken platform og versionsnummer anvendes (windows, linux, mac)?	Per / Kulturarvscluster
Hvilke forsknings-data tænkes genereret som en del af projektet?	Hvad er forholdet mellem eksisterende data og de nye forskningsdata ?	Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet. Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk)
	Skal alle datasæt bevares?	Indeks skal bevares. Procedurebeskrivelse skal bevares + beskrivelse af anvendte værktøjer.Output indeholder kun afledte data.
	Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel)	Grundlag for yderligere forskning. Dokumentation af data i projektet. Kopier fra ansøgning.
	Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer)	Under 5 TB
	Har forskningsdata værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem)	Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet)
	Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet)
	Overvejes udvikling af nye værktøjer?	Ja, skaber et værktøj der kan udstille data på Clusteret. Værktøjet/værktøjerne ejes af??? Open Source???
Filformat af forskningsdata	Filformater bør opfylde følgende kriterier: Godkendt som en international eller national standard Almindelig brugt Accepteret som best practice indenfor fagområdet
	Hvilke filformater tænkes de nye data at blive lagret i ?	Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data) https://github.com/vinaygoel/ars-workshop
	Er der specielle software eller hardware krav for at benytte disse data? Hvis ja, hvilke?	Ingen ud over systemets.
Organisation af forskningsddata under projektet	Hvilke standarder og metoder vil du anvende?
	Hvordan vil du strukturere og navngive dine mapper og filer?
	Hvordan vil du håndtere versionering (f.eks. benytte versionsstyringsværktøj)?
	Hvordan vil du kvalitetssikre dine data (f.eks. review hos kollega)?
Ikke digitale data	Hvor opbevares evt. ikke digitale forskningsdata sikkert?
	Hvor lang tid vil ikke digitale forskningsdata blive bevaret sikkert?
Dokumentation og metadata
Hvilken form for dokumentation og metadata vil følge dine data?	Hvilke informationer er nødvendige for at dine data kan læses og forstås i fremtiden?	Beskrivelsen af indeksfilen og beskrivelse af procedure af proceduren hvordan man viser data.
	Hvordan vil du skabe den nødvendige dokumentation og metadata?	Beskrive proceduren.
	Hvilke metadatastandarder vil du bruge og hvorfor?
	Beskriv den type dokumentation der vil følge dine data, sådan at udenforstående kan forstå og genanvende dine data. Som minimum skal der være nogle grundlæggende oplysninger, som vil hjælpe med at finde data, inklusive hvem der har skabt data, en titel, en dato og evt. adgangsbegrænsninger. Dokumentationen skal også gerne inkludere oplysninger om metode, analyse, variabeldefinitioner, vokabularer, målingsenheder, antagelser samt format- og filtype. Overvej hvordan og hvor du vil redegøre for disse oplysninger. Det er en god idé at følge eksisterende standarder.	Tekstbehandlingsdokumenter, artikler etc.

Etiske og lovgivningsmæssige forhold
Hvordan vil du håndtere etiske overvejelser?	Etiske spørgsmål kan have betydning for hvordan du håndterer dine data. Både i forhold til hvordan de opbevares, hvem der har adgang til dem og hvor længe de er bevaret. Du bør vise, at du er opmærksom på evt. etiske problemstillinger, og at du har taget hensyn til retningslinjer udstukket af din institution (også dem der går ud over de rent lovmæssige forhold)
	Har du tilladelse til at gemme og dele data?:	Ja vi må gemme data, men ikke dele data. Se ovenfor. Deling af data og resultater skal overholde persondata- og ophavsret.
	Hvordan vil du sikre anonymitet for evt. deltagere i forskningsprojektet?	Målet er ikke at behandle følsomme data. Skulle det ske, skal disse data ikke trækkes ud.
	Hvordan vil du håndtere personfølsomme oplysninger, så du sikrer at de er opbevaret sikkert?
Hvordan vil du håndtere evt. spørgsmål om copyright og intellektuel ejendomsret?	Hvem skal spørges om lov, hvis data skal genanvendes?
	Er der nogen adgangsbegrænsninger i forhold til genanvendelse af tredjepart?
	Vil datadeling blive forsinket på grund af publikationer eller patenter?
	Beskriv hvem og hvor mange der skal spørges om lov i tilfælde af, at en tredjepart vil genanvende data
	Er der dansk copyright på data?
	Er der udenlandsk copyright på data?
Ejerskab af data	Ejerskab af kilde-data
	Ejerskab af data skabt i projektet (f.eks. et indeks)
	Ejerskab af metadata skabt i projektet
Tredje parts data	Hvis andre ejer data, hvordan kom projektet i besiddelse af disse data og hvilke vilkår gælder der for tilgang til disse data.
	Reference nummer til købte eller licenserede data
	Reference nummer til data, der er opnået gennem en open access licens
	Beskrivelse af vilkår for data opnået på anden vis

Opbevaring og backup
Hvordan vil du opbevare og sikre backup af data under dit forskningsprojekt?	Er der tilstrækkelig lagerplads?	Ikke relevant, da både eksisterende data og nye data + metadata håndteres af SB?
	Hvordan vil du sikre backup, så dine data ikke risikerer at gå tabt?	Under Active DM ingen backup. I øjeblikket er der ingen backup at clusteret.
	Hvem er ansvarlig for backup og genskabelse?
	Hvordan vil du genskabe data i tilfælde af et uheld?
	Beskriv hvor ofte og til hvilke lokationer du vil føre backup
Hvordan vil du håndtere adgang og sikkerhed?	Hvilke risici kan du forestille dig med hensyn til datasikkerhed og hvordan vil du håndtere dem?	--- " ---
	Vil du foretage nogen særlige foranstaltninger i forbindelse med adgangskontrol?	Styres af SB og KB. Her Netarkivet og Clusteret.
	Hvordan vil du sikre at dine samarbejdspartnere kan få sikker adgang til data?
	Hvis du indsamler data ude, hvordan vil du så sikre, at data bliver overført til dit system på en sikker måde?	Ikke relevant
	Hvis dine data er særligt følsomme er det en ekstra god idé eksplicit at redegøre for alle sikkerhedsforanstaltninger og formelle standarder

Udvælgelse og bevaring
Hvilke data skal bevares og/eller deles?	Decide which data to keep and for how long. This could be based on any obligations to retain certain data, the potential reuse value, what is economically viable to keep, and any additional effort required to prepare the data for data sharing and preservation. Remember to consider any additional effort required to prepare the data for sharing and preservation, such as changing file formats.
	Overvej hvilke genanvendelsesmuligheder dine data har, både i forhold til at validere dine resultater, til at frembringe nye videnskabelige resultater og i forbindelse med undervisning.	.
	Hvilke data skal bevares eller slettes på grund af lovmæssige, kontraktmæssige eller andre lignende forhold?	Indeks og procedure for at skabe indeks
	Hvordan vil du beslutte, hvilke yderligere data, der skal bevares?
	Hvilke muligheder for genanvendelse af data kan du se?
	Hvor længe skal data bevares?	10 år.
Hvad er din plan for langtidsbevaring af data?	Outline the plans for preparing and documenting data for sharing and archiving. If you do not propose to use an established repository, the data management plan should demonstrate that resources and systems will be in place to enable the data to be curated effectively beyond the lifetime of the grant.
	Overvej om dine data har værdi på lang sigt og er egnet til arkivering.
	Hvor vil du langtidsbevare data?
	Hvad kræver det af dig at klargøre dine data til langtidsbevaring?

Datadeling
Hvordan vil du dele data?	Consider where, how, and to whom data with acknowledged long-term value should be made available. The methods used to share data will be dependent on a number of factors such as the type, size, complexity and sensitivity of data. If possible, mention earlier examples to show a track record of effective data sharing. Consider how people might acknowledge the reuse of your data.
	Kan SB anvende resultaterne fra forsknings-projektet i andre sammenhænge?	Ja
	Hvordan vil mulige brugere af dine data kunne finde dem?	Online
	Vil du dele data gennem et repository, eller vil du selv stå for delingen?
	Hvornår vil du gøre data tilgængelige?	Så hurtigt som teknisk og juridisk muligt.
	Vil du søge at få en persistent identifikation (F.eks. DOI) til dine data?
Delingsforhold	Deling vil ikke ske
	Intern deling
	Ekstern deling	Gerne API med adgang til forskningsresultatet.
Delingsmetode	Email	Nej
	Fysiske medier (DVD, USB, osv.)	Online
	Specialiserede data overførselsværktøjer (FTP, Hermes osv.)	API
	Beskrivelse af andre metoder
Datakontrol	Datatilgang kræver password	Ikke som udgangspunkt
	Data er krypterede	som ovenfor
	Data er fysisk sikrede - f.eks. i aflåst skab	Ja. Uddybes.
Er der nogen restriktioner i forbindelse med datadeling?	Beskriv alle de udfordringer du kan forestille dig i forbindelse med datadeling.
	Beskriv hvordan du forestiller dig at du kan overkomme disse udfordringer.
	Hvilke tiltag vil du gøre for at minimere restriktioner?
	Hvor længe har du behov for eneadgang til data og hvorfor?
	Er der behov for en formel datadelingsaftale?

Ansvarsområder og ressourcer
Hvem har ansvaret for datamanagement?	Beskriv roller og ansvarsområder for alle aktiviteter, f.eks. dataindsamling, produktion af metadata, kvalitetssikring osv.
	Hvem er ansvarlig for implementering, gennemsyn og tilpasning af datamanagementplanen?	SB
	Hvem er ansvarlig for de enkelte datamanagementaktiviteter?	SB
Hvilke ressourcer er nødvendige for at gennemføre din plan?	Carefully consider any resources needed to deliver the plan, e.g. software, hardware, technical expertise, etc. Where dedicated resources are needed, these should be outlined and justified.
	Har du brug fra udefrakommende ekspertise?	Måske
	Har du brug for ekstra hardware/software?	Måske
	Hvor meget koster det at bevare data på bevaringsstedet?	Ikke relevant i de næste 10 år.

Versions Compared

Old Version 17

New Version 18

Key

Indledning

Tjekliste for "Probing a Nation's Web Domain"

Page Comparison

Versions Compared

Old Version 17

New Version 18

Key

Indledning

Tjekliste for "Probing a Nation's Web Domain"