Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

I Hum_SB_Netlab casen vil der blive arbejdet med de aktive forskningsdata på SB's Kulturarvs-cluster, og vi samarbejder med Kulturarvs-cluster-projektet omkring dette tema.

Work in progressKort møde 2015-09-25
Eksisterende data i Netarkivet er ARC og WARC filer.
I første omgang har Ulrich arbejdet med 'afgrænsning af korpus'.

Det gøres ved at hente ARC-filer med metadata, og læse dem med Arc-Reader værktøjet, som kan pakke crawllogs mm (fx seeds.txt og host-report.txt) ud.
Tilføj jobid til crawllogs, og konverter til CSV, som kan bruges på Big Insights.
Der findes et metadata format for WARC filer som heder WAT (fylder omkring 10%), det kan måske bruges.
Ellers forventes det at korpus-definitionen bliver i CDX.
Det er dog stadig work in progress, og det forventes at der også vil være andre forsker-genererede data, som skal bevares.

Lige nu skriver Ulrich en side om data der arbejdes med på Netlab wikien. Det bliver vores første definition. Den forventes dog at blive opdateret løbende.