Syntetiske data: »Grayce« er ligeglad med GDPR

Grayce Monahan er 20 år. Hun bor i den lille by Holyoke i Massachusetts. Hun er født den 10.7.2000, hendes mor hedder Janie. Det står i Grayces patientjournal, som er en ud af en million patientjournaler, registreret i en database hos Synthea under den statsstøttede amerikanske nonprofitorganisation MITRE. Alle data er frit tilgængelige for forskere og firmaer inden for sundhed og teknologi. Og Grayce er ligeglad. Lige som alle de andre patienter i databanken eksisterer hun nemlig ikke i virkeligheden. Grayces patientjournal er et eksempel på syntetiske data, kunstigt skabte persondata, som til forveksling ligner den ægte vare, men aldrig kan linkes til konkrete personer.

Det kan være en fordel af to grunde. For det første fordi man kan operere uden for persondataloven. For det andet fordi syntetiske data kan vise sig at være mere anvendelige end anonymiserede data. Det er nemlig prisen for anonymisering, at jo flere data, man skal fjerne, maskere eller ændre, desto mindre virkelighedstro bliver det datasæt, som forskerne og andre har at arbejde med.

Lige nu har mange forskere, iværksættere og virksomheder derfor kig på syntetiske data, som de håber kan være med til at forløse potentialet i Big Data. Syntetiske personer som Grayce kan hjælpe med at teste ideer, træne algoritmer og være forsøgskaniner for nye sundhedsteknologiske løsninger.

Rigshospitalets nyudnævnte innovationsdirektør og professor ved Institut for Folkesundhedsvidenskab på Københavns Universitet Henning Langberg ser i syntetiske data en mulighed for at udbrede og lette adgangen til data, og nære et vækstlag af nye forskere og start-ups.

»Forskere kunne teste og udvikle hypoteser, og for studerende kunne det være fantastisk at have nogle »person«data at arbejde med. Start-ups kunne også udvikle nye sundhedsteknologiske løsninger til patienter og sundhedsvæsen på de syntetiske datasæt, og så kunne vi genteste dem på de oprindelige datasæt, inden vi sætter noget i produktion eller implementerer det. Især ser jeg muligheder i »secondary use«, altså hvor man anvender data til noget andet end det, de er indsamlet til. Det er ofte nødvendigt, når vi udvikler algoritmer og bruger maskinlæring, og det er svært at få lov til i dag«.

Også professor Thomas Hildebrandt fra Datalogisk Institut på Københavns Universitet ser et potentiale i syntetiske data.

»Det her er en måde, hvor firmaer kan prøve deres teknik og løsninger af, uden at man skal give dem data om personer. Hvis det fungerer og er pålideligt, så kan det åbne for, at langt flere kan udnytte de store datasæt og samarbejde om dem«, siger han.

Flere slags syntetiske mennesker

Syntetiske mennesker findes i flere forskellige versioner, ofte specialfremstillet til et bestemt formål for eksempel analyse af faktorer, som har betydning for behand lingen af en bestemt sygdom.

Flere private virksomheder tilbyder at generere syntetiske datasæt. Bl.a. det israelske MDClone, som kalder deres system for en »datasandkasse«: MDClone Healthcare Data Sandbox. Og universiteter ud vikler også syntetiske dataset, bl.a. har

forskere fra Washington University udviklet deres egen generator af syntetiske data: »DataSynthesizer«.

Syntetiske data kan være genereret ud fra rigtige patientdata, som først er renset for personlige oplysninger som cpr- eller social security-nummer, navn og adresser, ligesom man gør, når man anonymiserer data. I den proces fjernes også tilfælde, som adskiller sig markant fra resten. Dernæst køres data igennem en matematisk formel i en syntetiseringsproces, hvor et nyt datasæt genereres med de samme statistiske karakteristika, sammenhænge, fordelinger og afvigelser som i de oprindelige data. Men der er altså tale om nye data, som ikke har nogen forbindelse til det oprindelige datasæt.

Men syntetiske data kan også være konstrueret ud fra forskellige data og dermed endnu mere frakoblet virkeligheden. Det gælder for eksempel den syntetiske »befolkning«, som Grayce tilhører. Synthea er en open source-softwarepakke, en »simuleringsmaskine«, der bl.a. simulerer levetiden for syntetiske patienter med de ti hyppigste årsager til patientkontakt i sundhedsvæsenet og de ti kroniske tilstande med den højeste sygelighed i USA. Og Syntheas version af syntetiske data er konstrueret ud fra forskellige kilder. »Realistiske data om fiktive patienter«, fremgår det af hjemmesiden.

De syntetiske personer, hvis journaler inde holder oplysninger fra fødsel til død, er baseret på offentligt tilgængelige datasæt og statistikker og dannet bl.a. ud fra kliniske guidelines. Synthea har bl.a. syntetiske kohorter af patienter med hjerte-kar-sygdom, patienter med nyresygdom i slutstadiet og af veteranpopulationer. Systemet udbygges løbende med nye moduler, som omfatter forskellige specifikke sygdomme eller befolkningsgrupper.

Den 20-årige Grayce er således en ud af en million patienter i et modul, som udgør en syntetisk klon af befolkningen i staten Massachusetts, SyntheticMass. Journalerne er modelleret ud fra statens statistikker om demografi, sygdomsbyrde, vaccinationer, lægebesøg og sociale forhold. Systemet er hele tiden under udvikling, og justeres i forhold til den virkelighed, det skal afspejle. Ambitionen er intet mindre end at modellere hele USA's befolkning, og berige forsknings-, - uddannelses- og forretningsverdenen med 330 millioner syntetiske amerikanere.

Anonymisering er vanskelig

Ideen om syntetiske data har mindst et par årtier på bagen, men får stor opmærksomhed nu, fordi den teknologiske udvikling har gjort det relativt nemt og billigt at gennempløje millioner af data og træne algoritmer til at finde bestemte mønstre. Men samtidig med at vi nu har en enestående mulighed for at udnytte de omfattende patientdata, betyder den nødvendige beskyttelse af den enkeltes personlige data, at de teknologiske muligheder ikke udnyttes fuldt ud.

Den, som vil arbejde med persondata, skal igennem langsommelige og besværlige ansøgningsprocesser, og mange opgiver på forhånd, også fordi mulighederne for overhovedet at få adgang til data og til at dele dem er begrænsede. Det lægger en bremse på forskning i sygdomme og behandling og udvikling af ny sundhedsteknologi.

Dertil kommer skræmmende eksempler på re-identificering af ellers anonymiserede data og videnskabelige artikler om usikkerheden ved forskellige former for anonymisering, som også gør det påtrængende at finde mere sikre veje.

Et studie fra sidste år i tidsskriftet Nature Communications viste, at personer kan re-identificeres ud fra ganske få oplysninger. Alene fødselsdato, postnummer og køn kan anvendes til at sætte navn på alle amerikanere med en sikkerhed på 83 procent.

Eksperter i it-sikkerhed peger også på, at selv om det skulle lykkes at anonymisere et datasæt i dag, kan nye registre og nye teknologier i morgen måske bruges til at kompromittere anonymiteten.

Professor Thomas Hildebrandt, som bl.a. er ekspert i persondataforordningen, ser også anonymisering af data som en vanskelig disciplin.

»Problemet med anonymisering er, at samkøring af datasæt med andre oplysninger meget nemt kan re-identificere personer. Hvis du f.eks. har et datasæt fra et hospital uden alder på, men sammenkører med kommunale oplysninger, hvor det fremgår, at en person har fået et brev, som kun sendes til alle på deres 18-årsfødselsdag, så er alderen allerede afsløret«.

Thomas Hildebrandt er selv i gang med to projekter, som omfatter brug af kunstig intel ligens, hvor brug af syntetiske data overvejes. Det ene projekt undersøger brug af kunstig intelligens til beslutningsstøtte inden for offentlig sagsbehandling. Det andet projekt ser på, hvordan sådanne af gørelser kan forklares juridisk. Men det er ikke sikkert, at syntetiske data kan anvendes.

»Det er en mulighed, men vi er ikke langt nok til at se, om syntetiske data overhovedet kan bruges. Udfordringen kan være, at man skal kunne stole på, at data faktisk har de samme statistiske egenskaber som de virkelige data, de er skabt på baggrund af«, siger Thomas Hildebrandt.

Han kan dog godt forestille sig, at syntetiske data, hvis de viser sig valide og sikre, kommer til at spille en stor rolle i fremtiden.

»Inden for sagsbehandling i det offentlige ville det være en fordel at arbejde med konstruerede forløb men med samme sta tistiske sammensætning som befolkningen generelt. Og i den aktuelle situation med opsporing af smitte, kunne syntetiske data ligge til grund for modeller for, hvordan vi interagerer fysisk i forhold til smittespredning«, siger han.

Dansk projekt skal udvikle en model og testbatteri

Det store spørgsmål er selvfølgelig, om de syntetiske data kan leve op til forventningerne. Er de virkelig både valide og sikre? Det skal et dansk/finsk forskningsprojekt finde svar på. Professor Henning Langberg står i spidsen for projektet, Synthetic Health And Research Data (SHARED), som har base på Københavns Universitet. Det tæller forskere fra Turku University Hospital og Institute for Molecular Medicine Finland (FIMM)og har fået støtte af Novo Nordisk Fonden.

Indenfor en treårig horisont skal projektet levere to produkter: En model for generering af syntetiske datasæt til udvikling af algoritmer inden for sundhedsområdet. Og et testbatteri, som andre tilsvarende modeller kan køres igennem for at sikre deres validitet og »sikkerhedsniveau«.

»Udfordringen er, hvor mange parametre man kan have i et datasæt og stadig sikre sammenhængen mellem parametrene i den syntetiske version af datasættet. Det er ikke så svært, hvis du skal lave noget med fire parametre som for eksempel alder, køn, blodtryk og temperatur. Det er straks mere vanskeligt at sikre, at både distribution og mønstre er de samme i det syntetiske datasæt som i det oprindelige, når vi arbejder med 20 eller 150 parametre, som vi gerne vil i forbindelse med udvikling af algoritmer«, siger Henning Langberg.

Han tror på, at det kan lade sig gøre, men lige så vigtig som modellen til at fremstille syntetiske data er det testbatteri, han også skal være med til at udvikle.

»Vi skal stille samme krav til metoden omkring syntetiske data, som når vi implementerer noget i klinisk praksis: Vi skal sikre os, at den er valid. Det er helt afgørende, at vi kan teste, hvor godt det syntetiske data sæt ligner det oprindelige, og hvor sikre vi kan være på, at det ikke er muligt at re-identificere nogen«.

Testbatteriet kan også anvendes over for private udbydere af syntetiske data.

»Hvis man vil implementere en model fra en virksomhed, skal man kræve syn for sagen – at det er en model, som rent faktisk genererer resultater, som svarer nøjagtigt til resultaterne i det oprindelige datasæt. Det akademiske miljø skal have mulighed for at udfordre modellen, for jo mindre »black box«, der er omkring modellen, desto bedre. Og så har vi også behov for modeller, udviklet af de akademiske miljøer, som publicerer deres arbejde med åbenhed helt ned i maskinrummet. Kun på den måde kan processerne eftergøres og valideres«.

Næste skridt er at få strømlinet testbatteriet, og at teste teamets egen model til generering af syntetiske data, men også gerne andre modeller.

»Vi skal vise, at det er sikkert at bruge. Og det kunne være rigtig interessant at tage nogle datasæt, som ligger bag videnskabelige artikler, som er publiceret, og så gentage analyserne på syntetiske datasæt og se, om vi når frem til samme resultater«, siger Henning Langberg.

Allerede nu har Henning Langbergs team et bud på, hvordan et testbatteri skal se ud, og også et bud på en matematisk metode til at generere syntetiske datasæt. En oversigtsartikel med overblik over de forskellige måder at lave syntetiske data på er på vej inden for kort tid.

Endnu er de syntetiske datasæt så nye, at der ikke er overvældende mange undersøgelser af, om de fungerer som forventet – og hvorvidt de er »sikre« at anvende. De private aktører vil som regel ikke ud med, hvordan de omsætter data fra virkelig hedens verden til den syntetiske.

Syntheas syntetiske patientjournaler og MDClones »sandkasse« har dog begge været testet op mod originale datasæt. Og i begge tilfælde konkluderer forskerne, at resultaterne med syntetiske data ligger tæt op ad resultaterne med de originale data, men også at de har begrænsninger.

Syntetiske data har ikke samme kompleksitet som originale data, og de sparsomme erfaringer viser, at det er vigtigt, at datasættene har en vis størrelse for at de kan være tilstrækkeligt statistisk signifikante. Grayce og de andre syntetiske personer kan altså ikke erstatte virkelige mennesker, men kan træde til, hvor originale data ikke er tilgængelige, pålidelige eller sikre nok.

Rettelse: I printudgaven af denne artikel er desværre faldet et ord ud, så der står, at ambitionen er at modellere hele USA's befolkning »med 330 syntetiske amerikanere«. Der er naturligvis tale om 330 millioner syntetiske amerikanere.

Så (u)sikre er persondata

Rådata

Alle data inklusive personnummer

Sikkerhed: Ingen

Maskerede data

Rådata er ændret ved hjælp af en algoritme, så personen ikke kan identificeres.

Sikkerhed: Kender man algoritmen, kan det oprindelige datasæt afsløres.

Pseudonymiserede data

CPR-nummeret er erstattet med en kode.

Sikkerhed: Data kan re-identificeres, hvis man kender koden.

Anonymiserede data

CPR, navn og adresse er fjernet, og der kan være sat konstruerede data ind, for eksempel en anden alder eller andet køn.

Sikkerhed: Per definition skal anonymiserede data være umulige at re-identificere, men det har vist sig, at mange anonymiserede datasæt kun har få anonymiserede datapunkter, og det har derfor været muligt at re-identificere personer ved at kombinere de anonymiserede datasæt med andre datasæt.

Syntetiske data

Rådata fra flere kilder danner grundlag for konstruktion at et helt nyt datasæt, som ligner det oprindelige, men ikke indeholder nogle af de oprindelige data og derfor ikke giver mulighed for re-identifikation.

Der findes forskellige metoder. I MDClones version er rådata først anonymiseret og dernæst kørt gennem en matematisk modelalgoritme, som danner et nyt datasæt med samme statistiske karakteristika. I Syntheas version er det syntetiske datasæt konstrueret ud fra flere forskellige rådata: statistikker, guidelines m.v.

Sikkerhed: I teorien høj sikkerhed, men der er ikke foretaget mange test af sikkerheden i syntetiske datasæt.