Processing and Reporting

Processing and Reporting
========================

Oplæggene var:
* Processing
    * Hadoop streaming (BAM)
    * Pig (NBR)
    * Bitmagasin HDFS-pillar (KTC+ABR)
* Reporting
    * R og Hadoop over data

I løbet af diskussionerne blev der blandt andet kigget på følgende vi kunne kigge på:
* Kunne vi lade SCAPE execution platform være den infrastruktur vi bruger til alt arbejde på vores samlinger?
* Hvordan skal vi organisere vores metadata for at gøre dem bedst tilgængelige for masseprocesseringsframeworks
* Vinder vi noget ved at bruge HDFS på statsbiblioteket, når vi altid har netop en kopi af data tilgængelig via netværk?
* Hvor nemt kan/skal vi kunne køre et hadoop-job, og hvordan?