Gå til innhold

KRONIKK: Datatilsynets kortslutning om sikkerhet og automatiske strømmålere


Anbefalte innlegg

PS: Kan for ordens skyld legge til at jeg jobber i et selskap som driver med markedsanalyse, og vårt fagområde tilsier at tolking av AMS-data kan være et helt relevant oppdrag. Jeg personlig er registrert som foretakets Personvernombud hos Datatilsynet, og jeg ville aldri bifalt at vi analyserte AMS-data som ikke først er anonymisert.

 

Det er ikke så lett som du (kanskje) tror å anonymisere disse dataene. De fleste "trygge" anonymiseringsmetoder er grundig "knust" i dag.

 

Det man kan gjøre er å lage tjenester som holder dataene men lar deg kjøre spørringer som gir det svar med støy. Men det å "anonymisere" dataene og deretter gi dem til en tredjepart har vist seg gang på gang å ikke fungere.

 

Det finnes ingen teoretisk holdbar teknikk for anonymisering av data, kun anonymisering av svar på spørringer.

  • Liker 1
Lenke til kommentar
Videoannonse
Annonse

Det er ikke så lett som du (kanskje) tror å anonymisere disse dataene.

Jeg er godt kjent med nyanseforskjellene på avidentifisering og anonymisering, og ikke minst muligheter for reidentifisering der datasettet inneholder (for mange) bagrunns- og krysningsvariabler som brukes i profileringen.

 

Kan du nevne eksempler på noen "trygge" anonymiseringsmetoder som er "knust"?

 

 

PS: All den tid det er personvern som her er temaet, så tar jeg det for gitt at vi snakker om anonymisering av persondata?

 

https://www.datatilsynet.no/Sikkerhet-internkontroll/Hvordan-anonymisere-personopplysninger/

Lenke til kommentar

 

Det er ikke så lett som du (kanskje) tror å anonymisere disse dataene.

Jeg er godt kjent med nyanseforskjellene på avidentifisering og anonymisering, og ikke minst muligheter for reidentifisering der datasettet inneholder (for mange) bagrunns- og krysningsvariabler som brukes i profileringen.

 

Kan du nevne eksempler på noen "trygge" anonymiseringsmetoder som er "knust"?

 

 

PS: All den tid det er personvern som her er temaet, så tar jeg det for gitt at vi snakker om anonymisering av persondata?

 

https://www.datatilsynet.no/Sikkerhet-internkontroll/Hvordan-anonymisere-personopplysninger/

k-anonymity ble foreslått, men er mulig å angripe.

https://en.wikipedia.org/wiki/K-anonymity

 

så ble l-diversity foreslått, men den er også knust

https://en.wikipedia.org/wiki/L-diversity

https://en.wikipedia.org/wiki/T-closeness#Attacks_on_l-diversity

 

så ble t-closeness foreslått, men den er også knust så vidt jeg vet.

 

Den eneste fornuftige metoden er differential privacy, for det er den eneste metoden som har matematisk bevis. Dermed fungerer den over tid.

Lenke til kommentar

Den eneste fornuftige metoden er differential privacy, for det er den eneste metoden som har matematisk bevis. Dermed fungerer den over tid.

Som jeg sa i mitt første innlegg:

 

All annen bruk skal anonymiseres, man bør være varsom med profilering (for å sikre at husstander ikke kan reidentifiseres) og analyser skal kun gjøres på geografisk aggregerte data (minst grunnkretsnivå).

Hvis du tar bort alle variabler som åpner for reidentifisering, og aggregerer dataene før analyse (man får altså ikke tilgang til data på individnivå), så er datasettet for alle praktiske formål å regne som anonymisert.

Lenke til kommentar

 

All annen bruk skal anonymiseres, man bør være varsom med profilering (for å sikre at husstander ikke kan reidentifiseres) og analyser skal kun gjøres på geografisk aggregerte data (minst grunnkretsnivå).

Hvis du tar bort alle variabler som åpner for reidentifisering, og aggregerer dataene før analyse (man får altså ikke tilgang til data på individnivå), så er datasettet for alle praktiske formål å regne som anonymisert.

 

Disse eldre anonymiseringsmetodene var av den typen - hvis vi tar bort det som garantert identifiserer og vi trikser litt så ser det rimelig anonymt ut - "det funker sikkert".

 

Ja - aggregering av dataene er en bra metode, men aggregering pr geografisk område fungerer ikke for da vil områder med få mennesker eller lite aktivitet (f.eks. et hytteområde i lavsesong) vil da ha risiko for identifisering.

 

 

Hvis man analyserer aggregering via differential privacy så vil man se eksakt hvilken type aggregering man trenger, og hvor mye støy som må legge på hver enkelt aggregering. Da er man trygg.

 

I tillegg ser man ved bruk av differential privacy at man ikke kan gjøre gjentatte aggregeringer med ulik nedbrytning.

 

På en annen side - med differential privacy kan man utnytte dataene mye bedre enn ved å velge en fast aggregering. F.eks. bruker Apple differential privacy til å lære hvordan brukerne bruker tastaturet i iOS 10 og dermed forbedre det, samtidig som brukerne har garantier for at det de skriver inn ikke kan identifiseres.

 

Ren aggregering på et forhåndsdefinert sett gir ikke mulighet til det over, mens med differential privacy kan man f.eks. kjøre maskinlæring over dataene og kjøre akkurat de queries man har behov for.

 

Nå krever dette at målerenhetene implementerer differential privacy i sin protokoll, men det eplet burde man bare bite i og innse at det er dit vi er nødt til å komme.

 

Det samme gjelder e-tjenestens ønske om overvåkning - der kan også differential privacy brukes, men e-tjenesten, forsvaret og politiet virker totalt uinteressert i å se på teknikker som faktisk gir dem det de vil ha og også beskytter privatlivet til borgerne.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...