i LARM-projektet bliver der arbejdet med mange forskellige forskningsspørgsmål i mange forskellige del-projekter
Projekterne arbejder med radio-data igennem interfacet larm.fm. Her kan forskerne arbejde med materialet og berige det med
Rettelser til metadata
Nye metadata
Annoteringer
Samlinger af programmer i "mapper"
I denne case skal der skabes overblik over de nye data Der skal etableres en løsning der sikrer disse data for eftertiden, ved at de langtidsbevares et passende sted på en passende måde (format) Data skal så vidt muligt kunne genbruges i andre sammenhænge (fx. mediestream.dk) og til nye forskningsprojekter.
Involverede parter
SB, DigHumLab, Iben Have, Jeanne Nielsen (på barsel fra August 2015), ChaosInsights (som driver larm.fm platformen)
Case - Livscyklus for forskningsdata
Spørgsmål
Forklaring
Svar
Hvilke eksisterende data tænkes anvendt?
Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn
Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål)
Hvem har ansvaret for disse data?
Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...)
Hvem kan få adgang til data? (betingelser)
Hvor befinder disse data sig?
Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer)
Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …)
Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet)
Kræver data/værktøjer specifikt software/system?
Radio-data fra DR
Radio-data fra Statsbiblioteket
Program-metadata fra DR
Program-metadata fra Statsbiblioteket (Ritzau)
PDF-filer med scannede program-oversigter (de hvide programmer)
DR har fungeret som underleverandør og er ikke længere en del af LARM-projektet efter overflytningen til DigHumLab, derfor er det Statsbiblioteket der har ansvaret for data
Alle data er beskyttet af ophavsret hvorfor der kun kan gives adgang til larm.fm for ansatte og studerende der er omfattet af Statsbibliotekets Mediestream-aftale med Copydan
Både eksisterende og nye metadata befinder sig i CHAOS-platformen som hostes hos Amazon (via ChaosInsights). Denne platform har en SQL-database som backend men også et rigt API der kan kommunikeres med
Der er så vidt vides 2-3 millioner objekter i CHAOS-databasen - det skal analyseres om alle disse skal bevares som et forskningsdatasæt eller det kun er det nye data forskerne har genereret der skal bevares. (tænke fremtidig brug i andre sammenhænge)
Filerne består af (XML-metadata, MP3-lydfiler (som streames fra Statsbiblioteket og nok IKKE skal indgå i forskningsdata-sæt), PDF-filer)
Hvilke nye data tænkes genereret som en del af projektet?
Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?)
Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel)
Hvilke filformater tænkes de nye data at blive lagret i ?
Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer)
Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem)
Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet)
Overvejes udvikling af nye værktøjer?
Case ifht. livscyklus
Data Management Planning
Data capture, storage and documentation
Data identification, citation and discovery
Select and deposit for long term preservation
Training and marketing tool
Sustainability
Kontaktpersoner
Denne case kan bidrage til temaet med... (lav-middel-høj relevans)