Skip to main content

Vi har behov for test, 
dokumentation og gennemsigtighed ved klinisk anvendelse af medicinske maskinlæringsmodeller

Flere studier tyder på, at brugen af maskinlæring i sundhedsvæsenet muligvis er mere kompliceret end hidtil antaget. Dette skyldes blandt andet, at modellerne finder signal i kliniske formodninger frem for patologi. Vi har behov for skærpede krav til, hvordan modellerne testes og implementeres, samt nye muligheder til at forstå de komplekse modeller.

Civilingeniør i medicinsk billed­dannelse Simon Meyer Lauritsen, Enversion A/S, Aarhus E-mail: sla@enversion.dk
Interessekonflikter: Ansat som health data scientist ved Enversion A/S.

15. okt. 2018
6 min.

Maskinlæring (ML) stormer frem, og de teknologiske muligheder kan i øjeblikket synes at være ubegrænsede. De seneste år er der publiceret ML-forskning, som viser en klinisk faglighed på niveau med speciallægers på flere områder. Eksempler herpå er fint publicerede rapporter om diagnosticering af hudkræft på højde med dermatologers [1], konstatering af pneumonier på niveau med radiologers [2] og klassifikation af arytmier mindst lige så godt som kardiologers [3]. Der er altså tale om en tendens til, at der udvikles flere og flere systemer, som angiveligt kan erstatte vigtige dele af lægernes arbejde. Den primære årsag til ML-succesen på området kan tilskrives metoden deep learning (DL), der er en variant af ML. ML-modellerne udvikles på baggrund af et lille udsnit af data, og det er derfor helt afgørende, at data er repræsentativt for sundhedsvæsenet generelt, således at modellerne kan anvendes på kryds af f.eks. sygehuse og populationer – modellerne skal altså være generaliserbare. Desværre overvurderes DL-modellernes evne til at generalisere, hvilket bevirker, at mange implementeringsforsøg går i vasken, og penge bliver spildt. Hvorfor vil en it-mand som mig, der arbejder med ML og fascineres af mulighederne, dog komme med sådanne påstande? Det skyldes i høj grad, at jeg tror på, at ML kan løfte nutidens sundhedsvæsen, men at afgørende herfor er, at vi er ligeså bevidste om begrænsningerne, som vi skal lade os inspirere af mulighederne.

I Juni 2018 fremførte Benjamin Recht og kollegaer fra UC Berkeley bevis for, at mange ML-modeller muligvis generaliserer dårligere, end vi hidtil har antaget. Påstanden blev en måned senere understøttet af Zech et al [4], som undersøgte, hvad der var udslagsgivende for DL-modellers beslutninger på røntgenbilleder. Resultaterne viste, at modellerne ikke kun fandt signal i anatomi og patologi, men faktisk også blev betydeligt påvirkede af organisatoriske og procesorienterede elementer i billederne. Eksempelvis var blybogstavet, som markerede den korrekte anatomiske side på røntgenbilledet, en stærk prædiktor for, om patienterne havde kardiomegali. På samme måde var en synlig diafragma på billedet uheldigt associeret med pneumoni. Forfatterne fandt også, at skannerens billed- og støjprofil, som varierede imellem mobile skannere og fastmonterede skannere, var associeret med flere forskellige sygdomme. Disse fund har naturligvis ikke noget med årsagssammenhænge at gøre og er i stedet et udtryk for, at sygdommen man leder efter, er udslagsgivende for, hvilken skanningsmetode der vælges. Eksempelvis bliver den mobile skanner ofte brugt til meget syge patienter, som ikke kan flyttes, hvoraf mange f.eks. kunne være svært hjertesyge.

Et andet område, hvor der er stort potentiale for at anvende DL-modeller, er på de omfattende datamængder i den elektroniske patientjournal (EPJ). I et Nature-studie fra maj 2018 fremlagde Alvin Rajkomar et al stor succes med at anvende ML til forudsigelse af genindlæggelser og udskrivningsdiagnoser på bagrund af EPJ-data. Desværre forholdt de sig i studiet ikke til, hvordan modellernes beslutninger potentielt medieres af procesorienterede faktorer. Netop dette vigtige aspekt er belyst i en udgivelse fra marts 2018 af Agniel el al fra Harvard Medical School. I dette studie anvendte forfatterne data fra 272 laboratorietest til at forudsige patienternes treårsoverlevelse. Foruden selve blodprøvesvaret bestod datasættet også af en række procesvariable, som eksempelvis indikerede rækkefølge og tidspunkt for rekvirering af blodprøver [5]. Resultaterne viste, at data om tidspunktet for, hvornår blodprøverne blev bestilt, var vigtigere variable end selve blodprøveresultaterne til at forudsige overlevelsen. Fundet understreger, at EPJ-data er observatoriske data, som ikke kun afspejler patienternes helbred, men også deres interaktion med sundhedsvæsenet. En patient kan således have et skyhøjt C-reaktivt protein-niveau, men hvis der ikke er et lægeligt initiativ til at bestille prøven, vil blodprøven aldrig blive en del af datasættet, hvorfor en læges erfaring og intuition altså kan være en meget vigtigere påvirkningskraft i modellen end selve blodprøvesvaret.

Eksemplerne fra Zech et al og Agniel et al viser, at der implicit er gemt information om kliniske overvejelser og formodninger i sundhedsdata. Hvad enten det handler om, at der er bestilt en bestemt type skanning eller en bestemt kombination af blodprøver, er tilstedeværelsen af disse datapunkter et udtryk for klinikerens tanker. Der er altså en enorm stor risiko for bias i disse situationer. DL-modellerne lærer at diskriminere imellem syg og rask på baggrund af, om et røntgenbillede er optaget på en mobil eller en fastmonteret skanner, og hvornår blodprøven er bestilt – og ikke med baggrund i faktorer, der reelt set betyder noget.

Problemerne med bias er større for ML, end de nogensinde har været før. Dette skyldes i bund og grund de avancerede DL-modeller, som utvivlsomt er fremtiden. DL-modeller indeholder potentielt millioner af modelparametre, der optager, behandler og analyserer data. Det er denne kompleksitet, der tillader modellerne at komme med enormt præcise forudsigelser. Paradoksalt er, at det også er denne kompleksitet, som introducerer problemer med ikke-erkendte bias, idet DL-modeller i de fleste tilfælde endnu kan betragtes som en uigennemsigtig black-box. Vi er altså ofte ikke klar over, hvilke parametre der er udslagsgivende for modellens beslutninger – måske er det netop en bias, som timingen af hvornår en blodprøve bestilles?

Nutidens DL-modeller skal ikke forveksles med generel kunstig intelligens eller menneskelig kognition, men modellerne er derimod avancerede statistiske værktøjer, som er meget følsomme over for randbetingelser og antagelser, hvilket vi kontinuerligt bliver nødt til at have in mente i den kliniske anvendelse. I forhold til at vurdere modellernes prædiktive evner er vi hjulpet langt med evalueringsværktøjer som f.eks. area under the receiver operating characteristic curve. Også her, skal man dog være ekstremt opmærksom og ikke nødvendigvis lade sig forblænde af flotte resultater, idet der fortsat kan være generaliseringsproblemer i modellen. Udvikles modellen på et træningsdatasæt fra eksemplelvis Midtjylland, og man derefter tester generaliserbarheden i Nordjylland, er der fortsat større risiko for fejlagtige beslutninger i den øvrige del af Danmark. Modellerne skal altså testes omhyggeligt på både interne og eksterne datasæt, før de vil være troværdige i den kliniske hverdag. Disse udfordringer bevirker, at der må stilles større krav til dokumentation for evaluering af ML-modeller end der hidtil har været tradition for. Ideelt set skal evalueringsrapporter gerne akkompagneres af: 1) en begrundelse for de valgte evalueringsmetrikker, 2) en uddybende beskrivelse af test- og træningsdata, således at det kan vurderes, om der er tilstrækkeligt grundlag for at anvende modellen mere generelt, 3) samt en beskrivelse af en eventuel populationsafgrænsning, således at det kan vurderes, om denne afgrænsning er klinisk meningsgivende i en kommende anvendelsessituation. Vi har desuden behov for værktøjer til at åbne op for »the black box«, så vi kan gennemskue de algoritmiske beslutninger på individniveau. Vi vil ikke risikere, at en cancerramt person er ved at blive erklæret rask, fordi røntgenbilledet er optaget på en stationær skanner.

Referencer

LITTERATUR

  1. Esteva A, Kuprel B, Novoa RA et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;546:686.

  2. Rajpurkar P, Irvin J, Zhu K et al. CheXNet: radiologist-level pneumonia detection on chest X-rays with deep learning. arXiv, 2017;1711.05225.

  3. Rajpurkar P, Hannun AY, Haghpanahi M et al. Cardiologist-level arrhythmia detection with convolutional neural networks. arXiv, 2017;1707.01836.

  4. Zech JR, Badgeley MA, Liu M et al. Confounding variables can degrade generalization performance of radiological deep learning models. arXiv, 2018.

  5. Agniel D, Kohane IS, Weber GM. Biases in electronic health record data due to processes within the healthcare system: retrospective observational study. BMJ 2018;361:k1479-9.