Page Comparison

...

Ophavsret – introduktion og generelle principper
Særligt vedrørende forskningsdata og metadata
Personfølsomme data
Brug af Kulturarvscluster og repository
Særligt om Netarkivet
Opsamling

Spørgsmål

Kan vi i forbindelse med vores DSpace bevarings-service tale om tre niveauer af åbenhed?

1. data, som forskerne "lover" ikke indeholder personfølsomme data. Det er det niveau vi sigter efter lige nu.
2. data, som er anonymiseret. Meget svært!
3. data, som kan indeholde personfølsomme data. Hvilke nye juridiske aftaler kræver det? (og hvor lang tid tager det?)
Nyt spørgsmål om Netarkiv data: er "domæne-lister" personfølsomme - eller altså kan de være?
Emne: Aktive datasæt
Vi har nogle data, som vi gerne vil gemme, så vi kan vende tilbage til det. Vi forventer, de må ligge på KAC i projektets udstrækning. Vi kalder dem aktive datasæt. Nogle gange skulle folk kunne bruge disse datasæt igen, specielt hvis de er "kostbare", dvs. har krævet megen beregning. Kan vi få lov at gemme dem i DM repository? Licenser til data delivery frem og tilbage ml. KAC og DM repository?
Lidt flere spørgsmål i relation til vores LARM case:
- Radio- og TV-data kan indeholde personfølsomme data?
- Radio- og TV-data kan der være ophavsret på?
- Kan Radio- og TV-metadata indeholde personfølsomme data?
- Kan der være ophavsret på Radio- og TV-metadata? (Jeg tænker de primært stammer fra Ritzau og TVmeter.)

Fra Niels

1) PERSONOPLYSNINGER

Hvad betragtes som personfølsomme oplysninger? -- et foto?

2) PARAPLYGODKENDELSEN

Helt grundlæggende er udfordringen ift. datatilsynet og Persondataloven, at der her opereres med velstrukturerede data, i registre eller databaser, hvor der fx er anført personhenførbare ‘indgangspunkter’, så som fx personnummer. Netarkivets data er ikke strukturerede som hverken et register eller en database, og det giver en række særlige problemer, både forståelsesmæssigt og praktisk i omgangen med samlingens indhold, set i forhold til Datatilsynets regler.

Jeg er klar over, at Netarkivet bliver dataansvarlig, når materialet fra det online web kommer ind i Netarkivet, men det kunne være interessant indledningsvist at høre et bud på, hvilken rolle materialets proveniens kan spille i den forbindelse, altså at det er materiale, der ikke er afgivet til en offentlig eller lignende myndighed i fortrolighed og med henblik på opbevaring i et offentligt register, men derimod er data, som folk selv af egen drift har placeret i et offentligt rum, synligt for alle og enhver (materiale, der ikke skulle have været der, er naturligvis et særtilfælde). I for eksempel medie- eller samfundsvidenskab betragter jo ikke folks offentligt fremførte politiske meninger i aviser, radio, tv, foldere for politiske partier, mmm. som noget, der skal omgåes som personfølsomt, blot fordi det er kommet ind i SBs samlinger.

a) Selve Datatilsynets udtalelse:

— note 1, p. 1 + p. 3, pkt. 3: + p. 4, pkt. 3, d) 2): hvad betyder det i praksis? skal jeg så alligevel søge tilladelse hos Datatilsynet?

— “Aarhus Universitet har ansvaret” (p. 1), hvad betyder det i forhold til mig? delegerer AU med godkendelsen ansvaret videre til mig, så jeg ikke selv skal kontakte Datatilsynet? — det er i hvert fald sådan, jeg har forstået godkendelsen

— p. 3, hvor tilladelsen gives, herunder punktopstillingen: det lyder som om, AU får tilladelse til at videregive personoplysninger, men det er jo i vores tilfælde ikke AU, der har oplysningerne? Hvordan skal det forståes? Og hvem er i samme passager ‘modtageren’? — er det mig, som jo så ikke modtager oplysninger, som er AUs?

— i forlængelse af ovenfor: når oplysningerne skal videregives i en form, hvor de ikke er umiddelbart personhenførbare, hvordan kan AU sikre det? Oplysningerne er jo i Netarkivet, og de er personhenførbare, når jeg får adgang til dem.

— p. 5, pkt. 3: hvordan skal det forståes i praksis?

— p. 5, pkt. 4: det er vel praktisk umuligt med Netarkivet?

— p. 5, pkt. 5: vil anonymisering eller opbevaring krypteret med nøgle være muligheder?

— p. 5, pkt. 6: jeg går ud fra, det er denne overførsel til arkiv, vi arbejder for at få på plads som del af Research Data Management?

— p. 7, pkt. 8: kunne det være Netarkivet?

— p. 7, pkt. 10: kunne det være Kulturarvsclustret?

— p. 8, pkt. 14: Ind- og uddatamateriale, hvad er det?

b) Min korrespondance med Tove Bæk Jensen:

— her rejser jeg spørgsmålet om ‘ekstern databehandler’, hvilket berører nogen af spørgsmålene ovenfor — hvad gør vi her?

— og hvordan når der nu er to — ikke-overlappende — instanser involveret, Netarkivet og Kulturarvsclustret?

— i svar af 25. april skrev Hanne til mig, at en databehandleraftale var på vej — hvordan står det til med det?

c) Mål

At der udarbejdes en vejledning til forskere om, hvad man må/ikke må generelt i forhold til Netarkivets material, gerne med et par illustrative case-eksempler, samt mere detaljeret hvad paraplygodkendelsen kan hjælpe med (jf. også længere nede)

3) HYPERLINKS OG DOMÆNENAVNE

Hyperlinks kommer til at spille en væsentlig rolle i vores analyse af det danske web. Jeg forestiller mig, at når vi får en fil med alle hyperlinks fra Netarkivet, til at blive analyseret på Kulturarvsclustret, så laver vi vores analyse, hvis publicerbare resultater i udgangspuntet ikke vil indeholde oplysninger om enkelte personhenførbare hyperlinks og domænenavne, men vi kan ikke udelukke, at der vil optræde personhenførbare domænenavne. Et eksempel: jeg lavede i 2011 en række netværksanalyser af domænenavne i forbindelse med Folketingsvalget 2011, og i de netværksgrafer, der var resultatet, optræder der identificerbare personbårne domænenavne af typen 'thorning-schmidt.dk'. Domænenavnet er altså personhenførbart, men ikke på samme måde som fx et domænenavn i stil med ‘thorning_schmidts_cprnr_er_xxxxxxxxxx.dk’.

Hvis domænenavne af typen 'thorning-schmidt.dk' skulle optræde i vores analyseresultater, kan vi overveje at anonymisere, hvis det er nødvendigt. Domænenavne af typen ‘thorning_schmidts_cprnr_er_xxxxxxxxxx.dk’ mener jeg, vi skal anonymisere, men her tror jeg, vi er ude i ufatteligt små mængder domænenavne. Et eksempel på en netværksgraf over mine Folketingsvalgsanalyser kan ses her http://internethistorie.dk/networks/fv11/110905_parliamentary%20election_2011_Denmark_members_satelites%20_co-link_page-kopi.svg. Det er den type grafer, der vil kunne blive det publicerbare forskningsresultat.

Når analysen er færdig, skal filen med hyperlinks (og eventuelle arbejdsfiler) så videre i et Research Data Management flow og gemmes. Så langt skulle der, så vidt jeg kan se, ikke være nogen juridiske problemer, fordi jeg har fået paraplygodkendelsen til at behandle persondata, hvis der skulle være sådan nogen i listen med hyperlinks — og der vil så kunne anonymiseres i resultaterne, som i ovennævnte tilfælde.

Men vi kunne så overveje at videregive listen med hyperlinks, fx ved at lægge den frem offentligt, til brug af andre forskere (til download eller via API), hvilket ville være meget værdifuldt for andre forskere. Og da der sandsynligvis vil være tale om en liste med milliarder af hyperlinks, så vil det for mig at se være praktisk umuligt at checke alt og eventuelt anonymisere. Problemet med at få overblik over hele denne listes indhold vil så at sige svare til det generelle problem med Netarkivet i den forbindelse: vi ved ikke, hvorvidt der er personhenførbare oplysninger eller ej. Gode bud på hvad man så kan gøre for at lægge listen offentligt frem, er meget velkomne ;-)

4) TIDSFAKTOREN

Jeg tror, vi må tænke Research Data Management med flere tidsligheder, dvs. skelne mellem materiale, der analyseres, og herefter: a) kan pakkes væk, eller b) skal bruges igen inden for fx 0,5-1 år, og hvor det vil være resourcekrævende at skabe et korpus igen (materialet går så at sige i dvale), eller c) materiale, der analyseres fortløbende, fx hvis man monitorerer udviklinger løbende på materiale i Netarkivet. Og i mange tilfælde vil forskeren måske ikke helt være klar over, hvilken tidslighed, der gælder, og det kan muligvis ændre sig undervejs.

Jeg kan ikke lige gennemskue, hvilke juridiske problemstillinger, der er i disse forskellige tidsligheder, men hører gerne Hannes mening.

5) BEHOV FOR VEJLEDNING

Jeg kunne godt tænke mig at få en tegning med workflowet for analyser af Netarkivets materiale, både med hensyn til teknik, data management og jura: hvad er hvor hvornår, og hvad må man gøre med det som forsker?

...

1) PERSONOPLYSNINGER

Hvad betragtes som personfølsomme oplysninger? -- et foto?

2) PARAPLYGODKENDELSEN

Helt grundlæggende er udfordringen ift. datatilsynet og Persondataloven, at der her opereres med velstrukturerede data, i registre eller databaser, hvor der fx er anført personhenførbare ‘indgangspunkter’, så som fx personnummer. Netarkivets data er ikke strukturerede som hverken et register eller en database, og det giver en række særlige problemer, både forståelsesmæssigt og praktisk i omgangen med samlingens indhold, set i forhold til Datatilsynets regler.

Jeg er klar over, at Netarkivet bliver dataansvarlig, når materialet fra det online web kommer ind i Netarkivet, men det kunne være interessant indledningsvist at høre et bud på, hvilken rolle materialets proveniens kan spille i den forbindelse, altså at det er materiale, der ikke er afgivet til en offentlig eller lignende myndighed i fortrolighed og med henblik på opbevaring i et offentligt register, men derimod er data, som folk selv af egen drift har placeret i et offentligt rum, synligt for alle og enhver (materiale, der ikke skulle have været der, er naturligvis et særtilfælde). I for eksempel medie- eller samfundsvidenskab betragter jo ikke folks offentligt fremførte politiske meninger i aviser, radio, tv, foldere for politiske partier, mmm. som noget, der skal omgåes som personfølsomt, blot fordi det er kommet ind i SBs samlinger.

a) Selve Datatilsynets udtalelse:

— note 1, p. 1 + p. 3, pkt. 3: + p. 4, pkt. 3, d) 2): hvad betyder det i praksis? skal jeg så alligevel søge tilladelse hos Datatilsynet?

— “Aarhus Universitet har ansvaret” (p. 1), hvad betyder det i forhold til mig? delegerer AU med godkendelsen ansvaret videre til mig, så jeg ikke selv skal kontakte Datatilsynet? — det er i hvert fald sådan, jeg har forstået godkendelsen

— p. 3, hvor tilladelsen gives, herunder punktopstillingen: det lyder som om, AU får tilladelse til at videregive personoplysninger, men det er jo i vores tilfælde ikke AU, der har oplysningerne? Hvordan skal det forståes? Og hvem er i samme passager ‘modtageren’? — er det mig, som jo så ikke modtager oplysninger, som er AUs?

— i forlængelse af ovenfor: når oplysningerne skal videregives i en form, hvor de ikke er umiddelbart personhenførbare, hvordan kan AU sikre det? Oplysningerne er jo i Netarkivet, og de er personhenførbare, når jeg får adgang til dem.

— p. 5, pkt. 3: hvordan skal det forståes i praksis?

— p. 5, pkt. 4: det er vel praktisk umuligt med Netarkivet?

— p. 5, pkt. 5: vil anonymisering eller opbevaring krypteret med nøgle være muligheder?

— p. 5, pkt. 6: jeg går ud fra, det er denne overførsel til arkiv, vi arbejder for at få på plads som del af Research Data Management?

— p. 7, pkt. 8: kunne det være Netarkivet?

— p. 7, pkt. 10: kunne det være Kulturarvsclustret?

— p. 8, pkt. 14: Ind- og uddatamateriale, hvad er det?

b) Min korrespondance med Tove Bæk Jensen:

— her rejser jeg spørgsmålet om ‘ekstern databehandler’, hvilket berører nogen af spørgsmålene ovenfor — hvad gør vi her?

— og hvordan når der nu er to — ikke-overlappende — instanser involveret, Netarkivet og Kulturarvsclustret?

— i svar af 25. april skrev Hanne til mig, at en databehandleraftale var på vej — hvordan står det til med det?

c) Mål

At der udarbejdes en vejledning til forskere om, hvad man må/ikke må generelt i forhold til Netarkivets material, gerne med et par illustrative case-eksempler, samt mere detaljeret hvad paraplygodkendelsen kan hjælpe med (jf. også længere nede)

3) HYPERLINKS OG DOMÆNENAVNE

Hyperlinks kommer til at spille en væsentlig rolle i vores analyse af det danske web. Jeg forestiller mig, at når vi får en fil med alle hyperlinks fra Netarkivet, til at blive analyseret på Kulturarvsclustret, så laver vi vores analyse, hvis publicerbare resultater i udgangspuntet ikke vil indeholde oplysninger om enkelte personhenførbare hyperlinks og domænenavne, men vi kan ikke udelukke, at der vil optræde personhenførbare domænenavne. Et eksempel: jeg lavede i 2011 en række netværksanalyser af domænenavne i forbindelse med Folketingsvalget 2011, og i de netværksgrafer, der var resultatet, optræder der identificerbare personbårne domænenavne af typen 'thorning-schmidt.dk'. Domænenavnet er altså personhenførbart, men ikke på samme måde som fx et domænenavn i stil med ‘thorning_schmidts_cprnr_er_xxxxxxxxxx.dk’.

Hvis domænenavne af typen 'thorning-schmidt.dk' skulle optræde i vores analyseresultater, kan vi overveje at anonymisere, hvis det er nødvendigt. Domænenavne af typen ‘thorning_schmidts_cprnr_er_xxxxxxxxxx.dk’ mener jeg, vi skal anonymisere, men her tror jeg, vi er ude i ufatteligt små mængder domænenavne. Et eksempel på en netværksgraf over mine Folketingsvalgsanalyser kan ses her http://internethistorie.dk/networks/fv11/110905_parliamentary%20election_2011_Denmark_members_satelites%20_co-link_page-kopi.svg. Det er den type grafer, der vil kunne blive det publicerbare forskningsresultat.

Når analysen er færdig, skal filen med hyperlinks (og eventuelle arbejdsfiler) så videre i et Research Data Management flow og gemmes. Så langt skulle der, så vidt jeg kan se, ikke være nogen juridiske problemer, fordi jeg har fået paraplygodkendelsen til at behandle persondata, hvis der skulle være sådan nogen i listen med hyperlinks — og der vil så kunne anonymiseres i resultaterne, som i ovennævnte tilfælde.

Men vi kunne så overveje at videregive listen med hyperlinks, fx ved at lægge den frem offentligt, til brug af andre forskere (til download eller via API), hvilket ville være meget værdifuldt for andre forskere. Og da der sandsynligvis vil være tale om en liste med milliarder af hyperlinks, så vil det for mig at se være praktisk umuligt at checke alt og eventuelt anonymisere. Problemet med at få overblik over hele denne listes indhold vil så at sige svare til det generelle problem med Netarkivet i den forbindelse: vi ved ikke, hvorvidt der er personhenførbare oplysninger eller ej. Gode bud på hvad man så kan gøre for at lægge listen offentligt frem, er meget velkomne ;-)

4) TIDSFAKTOREN

Jeg tror, vi må tænke Research Data Management med flere tidsligheder, dvs. skelne mellem materiale, der analyseres, og herefter: a) kan pakkes væk, eller b) skal bruges igen inden for fx 0,5-1 år, og hvor det vil være resourcekrævende at skabe et korpus igen (materialet går så at sige i dvale), eller c) materiale, der analyseres fortløbende, fx hvis man monitorerer udviklinger løbende på materiale i Netarkivet. Og i mange tilfælde vil forskeren måske ikke helt være klar over, hvilken tidslighed, der gælder, og det kan muligvis ændre sig undervejs.

Jeg kan ikke lige gennemskue, hvilke juridiske problemstillinger, der er i disse forskellige tidsligheder, men hører gerne Hannes mening.

5) BEHOV FOR VEJLEDNING

Jeg kunne godt tænke mig at få en tegning med workflowet for analyser af Netarkivets materiale, både med hensyn til teknik, data management og jura: hvad er hvor hvornår, og hvad må man gøre med det som forsker?

...

Og så har Hanne delt oplægget med os alle sammen:

View file

name	Ophavsret forskningsdata præs 1606 2016.pdf
height	250

Versions Compared

Old Version 2

New Version Current

Key

Spørgsmål

Fra Niels