M3 Defn. af data der arbejdes med
Milestone M3 refererer til tema 2. Data capture, storage and documentation:
Der skabes repositories for de aktive forskningsdata, der understøtter metadatastandarder relevante for projektets cases, mulighed for citation af datasæt og digitale objekter (f.eks. til formidling af data). Optimale data capture teknikker (f.eks. integration med KUs nye tilbud om central lagerservice) efterforskes og implementeres.
I Hum_SB_Netlab casen vil der blive arbejdet med de aktive forskningsdata på SB's Kulturarvs-cluster, og vi samarbejder med Kulturarvs-cluster-projektet omkring dette tema.
Kort møde 2015-09-25
Eksisterende data i Netarkivet er ARC og WARC filer.
I første omgang har Ulrich arbejdet med 'afgrænsning af korpus'.
Det gøres ved at hente ARC-filer med metadata, og læse dem med Arc-Reader værktøjet, som kan pakke crawllogs mm (fx seeds.txt og host-report.txt) ud.
Tilføj jobid til crawllogs, og konverter til CSV, som kan bruges på Big Insights.
Der findes et metadata format for WARC filer som heder WAT (fylder omkring 10%), det kan måske bruges.
Ellers forventes det at korpus-definitionen bliver i CDX.
Det er dog stadig work in progress, og det forventes at der også vil være andre forsker-genererede data, som skal bevares.
2015-09-30
Vores første definition af /wiki/spaces/NETLAB/pages/11796582. Den forventes dog at blive opdateret løbende.