Hum_SB_LARM
- Katrine Hofmann Gasser
- Jesper Boserup Thestrup
- Bjarne Søgaard Andersen
Titel | LARM |
Ansvarlig | Bolette Ammitzbøll Jurik og Knud Åge Hansen |
Forskningsspørgsmål | i LARM-projektet bliver der arbejdet med mange forskellige forskningsspørgsmål i mange forskellige del-projekter Projekterne arbejder med radio-data igennem interfacet larm.fm. Her kan forskerne arbejde med materialet og berige det med
I denne case skal der skabes overblik over de nye data
|
Involverede parter | SB, DigHumLab, Iben Have, Jeanne Nielsen (på barsel fra August 2015), ChaosInsights (som driver larm.fm platformen) |
Spørgsmål | Forklaring | Svar |
---|---|---|
Hvilke eksisterende data tænkes anvendt? | Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn
| Radio-data fra DR Radio-data fra Statsbiblioteket Program-metadata fra DR Program-metadata fra Statsbiblioteket (Ritzau) PDF-filer med scannede program-oversigter (de hvide programmer) |
Hvad påtænkes disse data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og -mål) | ||
Hvem har ansvaret for disse data? | DR har fungeret som underleverandør og er ikke længere en del af LARM-projektet efter overflytningen til DigHumLab, derfor er det Statsbiblioteket der har ansvaret for data | |
Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...) | ||
Hvem kan få adgang til data? (betingelser) | Alle data er beskyttet af ophavsret hvorfor der kun kan gives adgang til larm.fm for ansatte og studerende der er omfattet af Statsbibliotekets Mediestream-aftale med Copydan | |
Hvor befinder disse data sig? | Både eksisterende og nye metadata befinder sig i CHAOS-platformen som hostes hos Amazon (via ChaosInsights). Denne platform har en SQL-database som backend men også et rigt API der kan kommunikeres med | |
Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer) | Der er så vidt vides 2-3 millioner objekter i CHAOS-databasen - det skal analyseres om alle disse skal bevares som et forskningsdatasæt eller det kun er det nye data forskerne har genereret der skal bevares. (tænke fremtidig brug i andre sammenhænge) | |
Hvilke filformater indgår i samlingen? (TEI, JP2, MP3 | Filerne består af (XML-metadata, MP3-lydfiler (som streames fra Statsbiblioteket og nok IKKE skal indgå i forskningsdata-sæt), PDF-filer) - ind til videre tænkes kun XML-data at skulle gemmes i denne case da de øvrige arkiv-data er lagret på SB. Der skal selvfølgelig være passende referancer mellem XML-data i forskningsdata-sæt og de originale arkiv-data (ex. lydfiler) | |
Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet) | Pt bruges data kun gennem larm.fm så det bliver en af udfordringerne i denne case at finde ud af hvordan data kan bruges andre steder - bedste bud er nok et XML-format eller lignende generisk kontainer-format | |
Kræver data/værktøjer specifikt software/system? | ||
Hvilke nye data tænkes genereret som en del af projektet? | Hvad er forholdet mellem eksisterende data og de nye data ? ( Er det afledte data? Skal alle datasæt bevares?)
| De nye metadata og lign. er afledte data fra arkivdata (der kommer fra DR og SB). Der er ind til videre udelukkende tale om metadata i XML. Det skal undersøges om der findes andre data (f.eks. dokumenter forskerne kan uploade og knytte til specifikke programmer / objekter)
|
Hvad påtænkes de nye data anvendt til ? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel) | ||
Hvilke filformater tænkes de nye data at blive lagret i ? | De nye data tænkes lagret i XML eller andet passende format | |
Hvor store mængder nye data er der tale om ? (størrelse og antal objekter/filer) | Det er ind til videre usikkert hvor mange nye data der er tale om XML-data er her i udgangspunktet ret små filer på nogle få Kbytes så selvom der måtte være millioner af dem fylder det samlet set ikke så meget | |
Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem) | De nye data er alle manuelt inddateret i larm.fm så de repræsenterer en stor værdi i skabelsen. Det er umiddelbart vurderet at de også vil have værdi for andre forskere i fremtidige projekter samt ikke mindst værdi for arkiv-institutionerne hvorfra de arkiv-data de nye data omhandler kommer fra De nye data bør derfor bevares | |
Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) | ||
Overvejes udvikling af nye værktøjer? |
Data Management Planning | Data capture, storage and documentation | Data identification, citation and discovery | Select and deposit for long term preservation | Training and marketing tool | Sustainability | |
---|---|---|---|---|---|---|
Kontaktpersoner | ||||||
Denne case kan bidrage til temaet med... (lav-middel-høj relevans) |
Dato | Kommentar | Emne | |
---|---|---|---|
Dokumentation om LARM kan findes her: LARM blog | Info | ||