En Data Management Plan er en plan for håndtering af data i et forskningsprojekt. En Data Management Plan laves som regel i begyndelse af et projekt ud fra en Tjekliste. Planen hjælper med at afklare behov for hardware, software, politikker og kontrakter med partnere mm. Planen indeholder planer for bevaring og deling af data under hensyntagen til etiske og lovgivningsmæssige forhold. Planen kan også være et krav fra bevilgende myndigheder.
Læs evt. mere om Data Management Planer og se eksempler på tjeklister og planer hos Rigsarkivet eller Digital Curation Centre.
Følgende er Statsbibliotekets Data Management Plan Tjekliste. Den er udarbejdet i forbindelse med forskning-projekter, som bruger Statsbibliotekets kulturarvs-data. Vi definerer de forskellige typer data således
- Kilde-data / Eksisterende Data / Original-data Kilde-data er data, som eksisterede før forskningsprojektet startede, som f.eks. Statsbibliotekets kulturarvs-data.
- Forskningsdata / Afledte Data Forskningsdata er nye data, som bliver skabt i forsknings-projektet, f.eks. indekser over eksisterende data, statistikker eller grafer, eller evt. algoritmer, som givet kilde-data og et indeks, kan generere statistikker.
- Metadata Metadata er dokumentation af de nye afledte data. De gør det nemmere for dig selv undervejs, og de gør det muligt for samarbejdspartnere eller andre at finde og forstå dine data. Det er en fordel at bruge internationalt udbredte standarder for metadata.
- Ikke Digitale Data Der bliver også skabt ikke digitale data i nogen forsknings-projekter. Det bør der også være en plan for.
Stamoplysninger | ||
---|---|---|
Projektnavn | Hvis du har søgt en bevilling, brug samme navn som i bevillingsansøgningen | Probing a Nation's Web Domain |
ID | Et relevant ID, eventuelt bestemt af bevillingsgiver og/eller institution | |
Bevillingsgiver | Navn på bevillingsgiver, hvis det er relevant | Kulturstyrelsen, DEIC, Netlab |
Bevillingsnummer | Reference til en bevillingsskrivelse, hvis det er tilgængeligt | FPK.2015-0049 |
Projektbeskrivelse | Fortæl kort, hvilken type studie, der er tale om, sådan så andre kan forstå formålet med at skabe dine forskningsdata: | Forskningsspørgsmål: Hvordan har .dk domænet udviklet sig over tid fra 2005-2015 |
Hvilken type forskningsprojekt er der tale om? | internet-forskning, digital humaniora | |
Med hvilket formål bliver data skabt? | For at analysere dem, og besvare forskning-spørgsmål | |
Reference til projekt-ansøgning, hvis den er tilgængelig | links | |
Primærforsker | Navnet på projektets primærforsker(e) | Niels i samarbejde med Ditte , Janne |
ForskerID | F.eks. ORCID | |
Kontaktperson | Navn (hvis andet end primærforskere), tlf.nummer, e-mailadresse | Niels |
Organisationer | Involverede organisationer | Netlab, AU, IKK, Center for Internetforskning, SB |
Version | Projektets tidsmæssige længde | open-ended, lige nu med finansiering til udgangen af 2016 |
Dato for den første version af projektets datamanagementplan | 14/9-2015 | |
Dato for senest ændrede version af projektets datamanagementplanen | 14/9-2015 | |
| IFT. Netarkviet Senest 14/11 IFT. DMP projektet før. | |
Relaterede politikker | Nogle af de informationer, du vil skrive ind i din datamanagementplan vil formentlig bygge på forskellige politikker (f.eks. SB). Det er derfor en god idé at angive dem, sådan at du kan henvise til dem løbende | |
Bygger datamanagementplanen på eksisterende procedurer? Hvis ja, hvilke? | ||
Har den institution, som projektet tilhører, nogen særlige regler vedr. datasikkerhed? Hvis ja, hvilke? | ||
Stiller bevillingsgiveren nogle krav vedr. datamanagement? Hvis ja, hvilke? | ||
Bruges nogle formelle standarder i forbindelse med datamanagement? Hvis ja, hvilke? | ||
Vilkår fra samarbejdspartnere, som skal overholdes? Hvis ja, hvilke? | ||
Data Management | Anslået pris for data management gennem og efter projektet. Eksempelvis pris for opbevaring af data. |
Data | ||
---|---|---|
Hvilke eksisterende data tænkes anvendt? | Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. |
|
Samlingens navn | Netarkivet | |
Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål) | Der skal analyseres på arkiv-data fra Netarkivet Der skal analyseres på 10 tværsnitshøstninger - 1 for hvert år. Da en tværsnitshøstning i sig selv fylder mere end 30Tbytes er der ikke råd til at lave komplette udtræk af data til langtidsbevaring som forskningsdatasæt og der skal derfor tænkes i baner af eksempelvis at lave et index over en tværsnitshøstning som så kan gemmes som et datasæt en fremtidig forsker kan genbruge for at lave nye analyser på samme datasæt eller for at kontrollere forskningen i dette projekt | |
Hvem har ansvaret for disse data? | Original-data bor hos Netarkivet på SB og KB og de 2 institutioner har det juridiske ansvar for data. | |
Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...) | Data i Netarkivet kan være personfølsomme og det er ophavsret-beskyttet, og der er derfor meget begrænset adgang. | |
Hvem kan få adgang til data? (betingelser) | Man skal have en individuelt udstedt tilladelse for at kunne få adgang. | |
Hvor befinder disse data sig? | SB og KB | |
Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer) | Der skal behandles meget store mængder data (10 x 5-30Tbytes) - måske 200 Tbytes | |
Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …) | Alle kendte fil-formater. Original-data fra Netarkivet er lagret i ARC og WARC-filer hvilket betyder at der skal anvendes software der kan forstå disse formater. Crawllogs, andre metadata-filer, som skal kunne forstås. | |
Hvilke værktøjer anvendes (navn, version og systemkrav)? (gerne link til værktøjet) Hvilken platform og versionsnummer anvendes (windows, linux, mac)? | Per / Kulturarvscluster | |
Hvilke forsknings-data tænkes genereret som en del af projektet? | Hvad er forholdet mellem eksisterende data og de nye forskningsdata ? | Nye data vil bestå af indexer over bestemte corpora udtrukket af Netarkivet. Den første udfordring vil derfor være at få defineret dette index-format samt at få lave værktøjer der givet en række parametre kan lave et passende udtræk af "en tværsnitshøstning" (som også skal defineres både intellektuelt samt teknisk) |
Skal alle datasæt bevares? | Indeks skal bevares. Procedurebeskrivelse skal bevares + beskrivelse af anvendte værktøjer.Output indeholder kun afledte data. | |
Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel) | Grundlag for yderligere forskning. Dokumentation af data i projektet. Kopier fra ansøgning. | |
Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer) | Under 5 TB | |
Har forskningsdata værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem) | Da projektet bruger mange ressourcer på at udvikle udtræks-algoritmer mm. tænkes de nye datasæt at repræsentere en stor værdi for fremtidige forskere der vil kigge på nogle af de samme afgrænsninger (hele tværsnit af .dk-domænet) | |
Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) | ||
Overvejes udvikling af nye værktøjer? | Ja, skaber et værktøj der kan udstille data på Clusteret. Værktøjet/værktøjerne ejes af??? Open Source??? | |
Filfomat Filformat af forskningsdata | Filformater bør opfylde følgende kriterier:
|
|
Hvilke filformater tænkes de nye data at blive lagret i ? | Et bud på et index-format kunne være det såkaldte CDX-format som i forvejen anvendes som index under WayBack-maskinen. Men der er også andre kandidater (IA har en hel tool-suite der anvender 4 forskellige afledte dataformater: CDX, WAT, WANE, LGA-data) | |
Er der specielle software eller hardware krav for at benytte disse data? Hvis ja, hvilke? | Ingen ud over systemets. | |
Organisation af forskningsddata under projektet | Hvilke standarder og metoder vil du anvende? | |
Hvordan vil du strukturere og navngive dine mapper og filer? | ||
Hvordan vil du håndtere versionering (f.eks. benytte versionsstyringsværktøj)? | ||
Hvordan vil du kvalitetssikre dine data (f.eks. review hos kollega)? | ||
Ikke digitale data | Hvor opbevares evt. ikke digitale forskningsdata sikkert? | |
Hvor lang tid vil ikke digitale forskningsdata blive bevaret sikkert? | ||
Dokumentation og metadata | ||
Hvilken form for dokumentation og metadata vil følge dine data? | Hvilke informationer er nødvendige for at dine data kan læses og forstås i fremtiden? | Beskrivelsen af indeksfilen og beskrivelse af procedure af proceduren hvordan man viser data. |
Hvordan vil du skabe den nødvendige dokumentation og metadata? | Beskrive proceduren. | |
Hvilke metadatastandarder vil du bruge og hvorfor? | ||
Beskriv den type dokumentation der vil følge dine data, sådan at udenforstående kan forstå og genanvende dine data. Som minimum skal der være nogle grundlæggende oplysninger, som vil hjælpe med at finde data, inklusive hvem der har skabt data, en titel, en dato og evt. adgangsbegrænsninger. Dokumentationen skal også gerne inkludere oplysninger om metode, analyse, variabeldefinitioner, vokabularer, målingsenheder, antagelser samt format- og filtype. Overvej hvordan og hvor du vil redegøre for disse oplysninger. Det er en god idé at følge eksisterende standarder. | Tekstbehandlingsdokumenter, artikler etc. |
...