Hvilke eksisterende data tænkes anvendt? | Digitale data (samlinger) der eksisterer før forskningsprojektet går i gang. Fx samlingens navn Hvad påtænkes disse data anvendt til? (uddybende beskrivelse af forskningsspørgsmål og forskningsspørgsmål og -mål) Hvem har ansvaret for disse data? Er der særlige juridiske forhold? (personfølsomme oplysninger, patenter, ophavsret...) Hvem kan få adgang til data? (betingelser) Hvor befinder disse data sig? Hvor store datamængder tænkes behandlet (fx antal Gb / Tb samt antal objekter/filer) Hvilke filformater indgår i samlingen? (TEI, JP2, MP3, …) Hvilke kendte værktøjer tænkes anvendt? (gerne link til værktøjet) Kræver data/værktøjer specifikt software/system? | CALPIU’s storehouse indeholder 360 timers audio/videooptagelse. Heraf er ca. 28 timer optagelse transskriberet vha. linking software. I denne case udvælges et lille udsnit af de eksisterende data med henblik på at undersøge hvordan vi kan sikre langtidsopbevaring af denne type data. Der vil være særligt fokus på juridiske/tekniske aspekter vedr. adgangskontrol og anonymisering af audio- og videofiler. Det samlede storehouse fylder ca. 3,5 TB. I denne case forventer vi at køre et pilotprojekt der vedr. et udsnit heraf, formodentlig maksimalt i størrelsesordenen 500 GB. Data befinder sig fysisk på Roskilde Universitet. Filformater omfatter: Video: .mov, .mts, .avi Audio: .wav, .mp3 Tekst: .cha, .txt, .pdf Mediefiler (audio eller video) er knyttet til transskriptionsfiler (.cha) via programmet CLAN. Samtykkeerklæringer fra informanter findes som .pdf-filer (scans), og der findes i begrænset omfang log-filer fra involverede forskere i .txt-format. CLAN (freeware) er nødvendigt for at afspille sammenkædede transskriptioner og audio(visuelle) filer. |
Hvilke nye data tænkes genereret som en del af projektet? | Hvad er forholdet mellem eksisterende data og de nye data? ( Er det afledte data? Skal alle datasæt bevares?) Hvad påtænkes de nye data anvendt til? (uddybende beskrivelse af forskningsspørgsmål og tilgangsvinkel) Hvilke filformater tænkes de nye data at blive lagret i? Hvor store mængder nye data er der tale om? (størrelse og antal objekter/filer) Har de nye data værdi efter projektets afslutning, således at de bør bevares? (i givet fald hvilken værdi og for hvem) Hvilke kendte værktøjer tænkes anvendt på de nye data? (gerne link til værktøjet) Overvejes udvikling af nye værktøjer? | |