Artikel

Maskinlæring og uforklarlighedsproblemet

Skal vi kunne forklare kliniske beslutninger taget af kunstig intelligens?

Foto: Foto: Alan Warburton-Medicine

Rune Nyrup¹ & Helene Scott-Fordsmand²

13. dec. 2022

22 min.

Forestil dig følgende:

Året et 2030. En patient sidder i konsultationen hos sin praktiserende læge og forklarer de symptomer, der bekymrer ham. Lægen laver nogle undersøgelser, indtaster nogle noter på computeren og beder derefter om samtykke til, at hun kan tilgå patientens elektroniske dataprofil: »Det er, for at vores algoritme kan give den bedst tilpassede anbefaling til dig«, forklarer hun. Patienten samtykker, og en række opfølgende spørgsmål dukker op på skærmen. Lægen indtaster de nødvendige svar i samarbejde med patienten. Efter et par minutter udskrives der en recept på noget medicin. Lægen læser på recepten: »Du skal tage den her pille en gang om ugen de næste seks måneder«. Patienten tøver lidt. Han har haft en bekendt med nogle af de samme symptomer, men den bekendte fik altså en helt anden behandling. Han spørger derfor lægen, hvordan det kan være, at han skal have lige præcis denne pille. Men det bedste svar, hun kan give, er, at anbefalingen er udregnet af en avanceret maskinlæringsalgoritme og baseret på en omfattende datamængde, og at medicinen derfor med stor sandsynlig vil forbedre hans helbred.

Det ovenstående scenarie er sat på spidsen. Det illustrerer én mulig fremtid – men en, som de fleste nok vil vægre sig lidt ved, og netop af den grund er det interessant; det afslører noget om, hvad vi forventer af sundhedsfaglig behandling og om, hvad der er vigtigt at tage i betragtning, hvis eller når kunstig intelligens skal tages i brug i klinisk praksis.

Kunstig intelligens – mere præcist den underkategori, der kaldes maskinlæring –har været under enorm udvikling i det seneste årti. Sammen med den gigantiske mængde digitaliseret data, der nu er til rådighed, og den stadigt voksende maskinelle processeringskraft ser det ud til at være en af de mest potente teknologier, vi har lige nu. Computerprogrammer er bedre til at løse problemer end mennesker indenfor en lang række områder. Nogen husker måske de spektakulære overskrifter i slut-90’erne da »Deep Blue« slog Garry Kasparov i skak [1, 2], eller 20 år senere, hvor AlphaGo slog Lee Sedol, en af de højstrangerede spillere af det mere komplekse spil Go [3, 4]. Men i dag implementeres maskinlæringsalgoritmer i mange praktiske henseender – fra generering af syntetisk tale til overvågning af kreditkortsvindel [5, 6]. Potentialet kan synes uendeligt. Og medicin er ingen undtagelse. Forskningslitteraturen bugner i disse år af studier, der mener at kunne vise, at en given algoritme kan overgå lægefaglige eksperter i at diagnosticere, prognosticere eller anbefale behandlinger [7]. Det er nok utvivlsomt, at maskinlæring vil komme til at spille en væsentlig rolle i fremtidens sundhedsvæsen og måske også i den kliniske konsultation. Hvilken rolle er dog stadig et åbent spørgsmål.

I det opsatte scenarie er det særligt lægens svar til patienten, der virker utilstrækkeligt – det er ikke en god forklaring. Her kunne vi selvfølgelig indvende, at hvis vi kan stole på, at behandlingen virker – hvis algoritmens anbefaling er pålidelig – er forklaringen ikke vigtig. Men når man ser nærmere på, hvilken rolle forklaring spiller i menneskelig erkendelse, viser det sig ikke at være så simpelt. Denne udgave af Etisk Stuegang ser derfor på kunstig intelligens, medicinske algoritmer og det såkaldte »uforklarlighedsproblem« for at forstå, hvad maskinlæring kan og ikke kan, og hvorfor det kan være værd at udfordre implementering af de nuværende systemer.

KUNSTIG INTELLIGENS, MASKINLÆRING OG UFORKLARLIGHED

Lægen i eksemplet ovenfor har, angiveligt, det rigtige svar på, hvilken behandling der vil forbedre patientens helbred, men hun har ikke adgang til det rationale, der ligger bag. Det skyldes blandt andet den måde, moderne maskinlæring adskiller sig fra tidligere paradigmer indenfor kunstig intelligens. For at forstå forskellen hjælper det med en kort historisk gennemgang.

Kunstig intelligens opstod som forskningsfelt i 1950’erne. De fleste tidlige gennembrud involverede det, der kaldes regelbaserede systemer: computerprogrammer, der er i stand til systematisk at følge eksplicitte instruktioner, som programmørerne har fastsat [8, 9]. Tag for eksempel et program baseret på de følgende regler:

»hvis en patient har symptomerne S1 eller S2, så har patienten enten diagnosen D1 eller D2«

»hvis en patient har diagnosen D1, så kan patienten ikke have symptomet S3«

Hvis en læge indtaster den observation, at en patient har symptomerne S1 og S3, vil computerprogrammet udlede, at patienten har diagnosen D2. I dette tilfælde vil lægen kunne give en forklaring af programmets svar ved at kende de eksplicitte instrukser, der udgør programmet. Lægen ville altså kunne redegøre for årsagen til, at programmet ikke har givet patienten diagnosen D1, hvis patienten spørger. Selvom disse regler er simple, og nødvendigheden af at indføre en algoritme i sådanne tilfælde måske er tvivlsom, illustrerede denne type programmer en vigtig og dengang overraskende pointe, nemlig at det er muligt at automatisere i hvert fald visse dele af menneskelig kognition.

De næste gennembrud kom i 1970’erne, hvor det, der kaldes ekspertsystemer, opstod [9, 10]. Ekspertsystemer er en videreudvikling af regelbaserede systemer, hvor programmørerne fastsætter regler baseret på ekspertviden inden for et bestemt område. Et eksempel er MYCIN, et ekspertsystem, der bestod af mere end 400 regler lig dem ovenfor (om end mere komplekse i struktur). Disse regler blev udarbejdet i et samarbejde mellem dataloger og læger fra Stanford University til at diagnosticere blodinfektioner [11], og da regelsættet var færdigt, viste det sig, at MYCIN var nogenlunde lige så pålidelig i at diagnosticere blodinfektioner som erfarne læger. Ved at designe computerprogrammer med et langt større antal af mere nuancerede regler, baseret på ekspertviden blev det altså for første gang muligt for kunstig intelligens at matche menneskelig kunnen. Der er dog stadig behov for eksperter med dybdegående viden om emnet og sammenhængen mellem symptomer, diagnose, prognose og behandling, for at man kan lave og løbende forbedre algoritmerne i ekspertsystemer, efterhånden som man får ny viden på området. Systemerne er kun akkurat så »intelligente« som de eksperter, der udarbejder dets regler. Samtidigt møder ekspertsystemerne den kritik, at formuleringen af deres regelsæt kun kan bygge på viden, der er eksplicit og tager en »hvis-så« form – i kliniske spørgsmål, hvor »tavs viden« eller implicit praktisk erfaring er mere afgørende, vil de derfor formentlig vise sig dårligere end eksperter. Til trods for det ser vi her tegnene på det første løfte om en »intelligent effektivisering«, hvor det bliver muligt at ekspertdiagnosticere patienter i langt større omfang med en relativt mindre gruppe reelle, menneskelige eksperter.

I slut-90’erne og i tiltagende grad op igennem det nye årtusind kommer det seneste gennembrud, nemlig skiftet fra regelbaseret programmering til maskinlæringssystemer [9]. Hvor ekspertsystemer som MYCIN vedvarende skal inspiceres, genovervejes og opdateres – så er tanken, at disse nye systemer skal fungere og lære uafhængigt af eksperter, og måske endda overgå dem. Håbet er også, at en algoritme, der er baseret på data frem for eksplicitte regler, inklusive data om kliniske beslutninger, vil kunne indfange noget, der ligner den tavse viden, læger har. Spørgsmålet om, hvorvidt tavs viden kan indfanges i statistiske modeller, er et særskilt filosofisk problem, der rækker ud over forholdet mellem maskinlæring forklaringsproblemet – se for eksempel [12] – og noget vi i denne omgang må lade ligge.

Et maskinlæringssystem er defineret som et computerprogram, der er i stand til automatisk at bruge data til at forbedre sin evne til at udføre en eller anden opgave [13]. I stedet for at indprogrammere eksplicitte instruktioner designer programmørerne en læringsprocedure, hvorigennem systemet kan konstruere – og rekonfigurere – en model af de mønstre, den kan finde i et givent datasæt. Læringsproceduren er ofte baseret på den metode, der kaldes »gradient descent« [13]. Dette er en såkaldt iterativ optimeringsalgoritme, hvor et computerprogram gentagne gange tester, hvor godt dens nuværende model forudsiger de kendte datapunkter, justerer modellen, tester igen, og så fremdeles.

Antag, for eksempel, at vi har et datasæt over tidligere patienter med symptomerne S1, S2 og S3, hvor det også er angivet, hvorvidt de viste sig at have diagnosen D1 eller D2. Maskinlærings¬systemet vil automatisk afprøve en række forskellige hypoteser om, hvad de statiske sammenhænge er mellem disse symptomer og diagnoser, indtil den finder en model, der giver de mest nøjagtige forudsigelser for de kendte data – uafhængigt af den viden eller teori om sammenhænge, der er tilgængelig blandt eksperter. Systemet kan så bruge denne model til at generere nye forudsigelser, når data fra et hidtil uset eksempel indtastes – hvis en læge for eksempel indtaster symptomerne for en ny patient. Målet er med andre ord, at systemet automatisk finder mønstre i de kendte data, der kan generaliseres til nye tilfælde.

Det, der særligt har gjort en forskel i de seneste år, er, at der nu er tilstrækkelige mængder digitaliseret data og computerkraft tilgængelig til at træne langt mere komplicerede modeller end i eksemplet overfor og derfor også faktisk noget at vinde ved at vælge maskinlæring over regelbaseret intelligens. De mest avancerede maskinlæringsmodeller har over hundrede milliarder, eller sågar over en billion, parametre – det vil sige individuelle værdier, der kan justeres for at optimere modellens præstation [14, 15]. Det er denne kompleksitet, der ligger til grund for uforklarlighedsproblemet.

Problemet har tre niveauer [16, 17]. For det første er det åbenlyst langt sværere at overskue en model med hundrede milliarder (eller flere) parametre end en model baseret på 400 regler. For det andet er pointen med maskinlæring, at det kan finde mønstre, der ligger ud over vores nuværende viden. Den kan for eksempel opdage, at der er en helt bestemt kombination af 30 forskellige symptomer rapporteret over 20 år, der viser sig – i de kendte data – at være karakteristisk for en bestemt diagnose. Endelig kan maskinlæring finde mønstre, der ikke har nogen meningsfuld fortolkning inden for eksisterende medicinske teorier. Hvor reglerne i et ekspertsystem som MYCIN per definition er designet til at tilsvare den viden læger allerede har, og dermed beskriver kendte sammenhænge mellem symptomer, diagnoser og så videre, vil et avanceret maskinlæringssystem i princippet kunne finde sammenhænge mellem et hvilket som helst aspekt af input-data. Hypotetisk set kunne det for eksempel vise sig, at der er en kompleks sammenhæng i de kendte data, således at nogle patienters journaler indeholder tilsyneladende ubetydelige mønstre i frekvensen og rækkefølgen af bogstaver (bogstavrækken »ildi« forekommer oftere end »idli«, og bogstavet j forekommer oftere end gennemsnittet), og disse korrelerer det med, at en bestemt pille har forbedret patientens helbred. Hvis dette er et robust mønster i de kendte data, vil et tilstrækkeligt avanceret maskinlæringssystem i princippet kunne bruge det som en af dets regler, når det fremover anbefaler behandlinger, selvom det ingen forbindelser har til de faktorer, vi normalt ville tænke var relevante at tage i betragtning, når vi skulle vælge en behandling.

For at opsummere er grunden til, at lægen i vort indledende scenarie ikke kan give en bedre forklaring på den anbefalede behandling: 1) at hun rent praktisk ikke ville kunne overskue den komplekse model, som anbefalingen er baseret på – hun ville måske skulle forklare patienten, hvordan udregninger baseret på mere end en million forskellige parametre gav netop dette og ikke et andet udfald, 2) at hun ikke nødvendigvis har viden, der kan forklare, hvorfor det mønster, systemet har fundet, leder til effektiv behandling med netop dette medikament, og 3) at mønsteret sågar kan være baseret på sammenhænge, der ikke har nogen meningsfuld forbindelse til eksisterende lægefaglige begreber. Selv hvis lægen kunne give forklaringen, ville den derfor stadig forekomme utilstrækkelig. Du kan måske forestille dig scenariet igen, men denne gang er lægens svar, at hun i nogle af patientens journaler fejlagtigt har skrevet »tildigere«, og at algoritmen har fundet statistisk belæg for at patienter i dette område med praktiserende læger, der laver den stavefejl, har gavn af netop denne medicinering...

ALGORITMISK TÆNKNING OG EVIDENS I MEDICINSK PRAKSIS

Inden vi går til spørgsmålet om, hvorvidt uforklarlighed er et problem i forhold til indførelsen af maskinlæring i klinisk beslutningstagen, er det også værd at kaste et blik på nogle af de elementer af klinisk praksis, der allerede eksisterer, og som måske i større eller mindre grad minder om den form for beslutningsproces. Her ser vi særligt på elementer, der har haft sit indtog med det, der er kendt som evidensbaseret medicin (EBM).

EBM har to centrale søjler: 1) evidens og 2) implementeringen af den evidens i klinisk praksis [18].

Kendetegnet for den første søjle er evidenshierarkiet, der udgør en systematisering af, hvordan forskellig evidens skal vægtes og integreres. En af motivationerne bag EBM er at videnskabeliggøre medicinsk praksis. Her tager EBM statistiske metoder fra klinisk epidemiologi og biostatistik som guldstandard, blandt andet fordi springet fra laboratoriet og biomedicinen til klinikken er for langt til, at det giver mening at tale om en evidensbaseret praksis baseret i laboratorieresultater [19]. Det betyder, at meget af den viden, der i EBM betragtes som øverst i evidenshierarkiet, er viden om statistisk signifikante sammenhænge – eller korrelationsviden – og ikke årsagsviden. I EBM er særligt randomiserede, kontrollerede forsøg (RCT) designet til at teste: virker det? Ikke til at kortlægge hvorfor. RCT’er er opstillet, så de tester en hypotese (en model, kan vi kalde det), og det er så tanken, at EBM som felt skal udvikle sin viden ved at syntetisere fundet af en lang række af test. Det lyder måske genkendeligt, og på nogle måder minder den viden, vi får fra RCT’er, om den viden, vi får fra maskinlæring: Den giver os et indblik i, hvilken hypotese/model, der bedst beskriver de data vi har. Til forskel fra maskinlæring er det dog ikke sådan, at hypoteserne, der testes i EBM, kan dannes rent tilfældigt. Det kræver som regel en begrundet mistanke om sammenhæng, før et studie kan gennemføres. Og ydermere er det stadig et ideal for EBM, at den viden, der kommer fra RCT’er, skal kunne integreres og forstås i sammenhæng med andre former for viden, herunder laboratorievidenskabelige fund [20, 21].

For den anden søjle, implementeringen, er det centrale værktøj i EBM de kliniske retningslinjer [22]. Når kliniske retningslinjer er bedst, fungerer de »algoritmisk« (frem for »heuristisk«), dvs. de er formuleret i entydige anbefalinger, der har tydelige anvendelseskriterier. Kliniske retningslinjer er til for at sikre, at selv når den enkelte læge ikke selv har al viden på området, behandler hun patienter efter den bedste viden, der er til rådighed. Vi forventer altså ikke nødvendigvis, at en læge til daglig skal kunne give det fulde svar på, hvorfor den ene behandling bliver anbefalet over den anden. Der er dog to store forskelle på brugen af kliniske retningslinjer og brugen af maskinlæring i vores indledende eksempel. Dels er kliniske retningslinjer ofte formuleret sådan, at de opridser forskellig evidens for forskellige handlemuligheder [22] – hvis evidensgrundlaget for valget af den ene behandling over den anden er meget lille, vil begge være nævnt, og lægen kan informere patienten om begge mulige behandlinger, så patienten selv kan vælge. Dels bør kliniske retningslinjer altid gøre det muligt for lægen at følge evidenssporet [22], således at svaret på patientens »hvorfor« aldrig bliver: »Fordi retningslinjen siger det«, men i stedet kan være: »Forskning viser, at folk i din aldersgruppe har bedst gavn af netop den behandling«.

Selvom vi altså også møder en vis pragmatisme i forhold til behovet for forklaring i den eksisterende EBM-model, er uforklarlighedsproblemet for maskinlæring langt dybere og mere vidtrækkende. Det er muligt, at et RCT påviser en hidtil ukendt, men statistisk signifikant sammenhæng, men det er altid på baggrund af en prædefineret hypotese og med et ideal om yderligere undersøgelse. Ligeledes vil kliniske retningslinjer i udgangspunktet indikere en række alternativer med højere eller lavere evidens. Maskinlæringssystemer kan derimod finde sammenhænge, der ligger langt ud over, hvad vi i forvejen forventer eller kan forklare, og som udgangspunkt er der kun ét forslag: resultatet af dens bedste model. Selvom der til dels allerede findes en grad af algoritmisk tænkning og accept af statistisk (ikke-kausal) evidens i nutidens medicinske praksis, indfører brugen af maskinlæring et langt mere radikalt tab af muligheden for at give forklaringer på valg af behandling.

Hvad skal vi med forklaringer?

Lad os vende tilbage til det oprindelige spørgsmål: Er det et problem, hvis læger i fremtidens sundhedsvæsen mister evnen til at kunne forklare anbefalinger? Eller måske mere reelt: Hvis vi kan vise, at maskinlæringssystemet rent faktisk finder mønstre, der giver mere pålidelige anbefalinger, bør vi så ikke bruge dem? Selvom manglen på forklaringer synes problematisk, vil mere pålidelige anbefalinger – og dermed i sidste ende lavere dødelighed og bedre helbred for patienter – synes at være en vigtigere prioritet [23, 24].

Der er to modsvar, som kan gives til dette argument: et videnskabsteoretisk modsvar, der problematiserer præmissen om, at vi kan stole på, at maskinlæringssystemets anbefalinger altid er pålidelige, når vi ikke kan forklare dem, og et humanistisk-etisk modsvar, der fremhæver vigtigheden af patienters forståelse, selv hvis anbefalingen er pålidelig.

Det videnskabsteoretiske modsvar sætter spørgsmålstegn ved, hvorvidt vi er i stand til at generalisere de korrelationer, et uforklarligt maskinlæringssystem baserer sine anbefalinger på. Maskinlæringssystemer (i deres nuværende form) beror udelukkende på empiriske data, ikke på medicinsk eller biologisk funderet viden om årsagssammenhænge. Men når vi generaliserer disse korrelationer til nye tilfælde, sker det altid ud fra en antagelse om, at de bagvedliggende årsagssammenhænge i det nye tilfælde er tilpas lig dem, der genererede de kendte data [25, 26]. Hvis læger mister evnen til at forstå og forklare anbefalinger, mister de netop den viden om årsagssammenhænge, der kan understøtte generaliserbarheden af vores observationer [17, 27].

Tag det hypotetiske eksempel med stavefejlen »tildigere«. Lad os sige, at grunden til, at korrelationen er pålidelig, er, at der har været et kemikalieudslip i de områder og tidsperioder, hvor de forudgående data blev indsamlet, og at dette kemikalie kan påvirke hjernens sprogcentre (hvilket viser sig som stavefejl i lægens noter). Patienter i området vil have været udsat for samme kemikalieudslip, og mange almene symptomer skyldes måske netop det kemikalie. Kemikaliets skadevirkninger kan modvirkes af det bestemte medikament. Ingen har vidst, at dette udslip fandt sted, men for den relevante periode er maskinens anbefalinger meget pålidelige. Nogle år senere, da det meste af kemikaliet er blevet nedbrudt, forringes systemets pålidelighed for de patienter, hvor lægen tilfældigvis alligevel laver stavefejl. De vil ikke have andet end placebogavn af medicinen. Fordi systemet nu konsekvent udskriver recept på pillen til denne patientgruppe, er der endvidere ikke en naturlig kontrolgruppe, der kan vise, at pillen ikke længere har en reel effekt. Maskinens anbefalinger er således umærkeligt holdt op med at være pålidelige. Fordi vi hverken har en idé om årsagen til, at pillen var effektiv i første omgang, eller ved, at den årsag ikke nødvendigvis er direkte repræsenteret i maskinens model, kan vi ikke vide, om maskinens anbefalinger faktisk er pålidelige for nye patienter.

Nogle vil måske indvende, at dette problem kan modvirkes ved at indbygge feedbackmekanismer i systemet, hvor lægen indtaster, om patienten havde gavn af pillen, og maskinlæringssystemet kan så bruge denne nye information til at forbedre sine forudsigelsiger. Dette kræver dog, at vi udskriver medicin basereret på systemets anbefalinger længe nok til, at en tilstrækkelig mængde nye datapunkter er indsamlet. Alt efter omstændighederne kan det dreje sig en længere periode. Hvis pillens gavnlige virkninger for eksempel kun viser sig på lang sigt, vil lægen ikke umiddelbart kunne indtaste nogen feedback. I mellemtiden vil det betyde, at alle patienter, der henvender sig, fejlbehandles (og i princippet er med i et medicinsk forsøg uden at kunne samtykke).

Hvor det videnskabsteoretiske modsvar ser på, hvorvidt maskinlæringssystemets anbefalinger er pålidelige, fokuserer det humanistisk-etiske modsvar på, hvad der tæller som »forbedret helbred« eller en »god behandling«. Som nyere patientcentreret medicin fremhæver, afhænger dette altid af en afvejning mellem behandlingens intenderede effekt mod de forskellige risici og potentielle bivirkninger, der kan være, på baggrund af den individuelle patients værdier og situation. Og ydermere at den enkelte patient selv bør være involveret i at bestemme denne afvejning, da det i sidste ende må være patientens valg, hvilke værdier de ønsker at prioritere i deres liv (også kendt som respekt for patientens autonomi). Det er blandt andet dette princip, der ligger til grund de senere års fokus på fælles beslutningstagen og patientinddragelse [28].

Tag for eksempel en bivirkning som køresyge. Hvor alvorlig den er, afhænger blandt andet af, hvor god mulighed patienten har for at ses med venner og holde sig aktiv uden at skulle køre i bil. For nogle patienter vil svær køresyge have stor betydning, mens det for andre stort set ikke vil gøre nogen forskel. Antag nu, at en patient klager over mavesmerter om morgenen. Et maskinlæringssystem forudsiger effekten af en lange række behandlinger og rangordner dem baseret livskvalitetsindikatorer, såsom patientrapporterede outcomes (PROM) eller quality-adjusted life years (QALY). Et muligt medikament forudsiges at have den største sandsynlighed for at modvirke mavesmerterne, men har samtidigt svær køresyge som en almindelig bivirkning. Medikamentet rangordnes derfor relativt lavt og bliver ikke foreslået. Patienten i dette tænkte tilfælde sætter virkelig stor pris på sine morgener. Var denne behandling blevet foreslået, ville han måske have sagt, at det var køresygen værd at slippe af med mavesmerterne. Selvom maskinlæringssystemet faktisk lavede den rigtige vurdering (dvs. korrekt forudså, hvad der ville gavne patient mest i forhold til informationer om effekt og bivirkninger), er det et problem, at patienten ikke får valget. Hvis lægers mulighed for at forklare patienten, hvilke antagelser – såsom antagelser om betydningen af alvorlige bivirkninger – der ligger til grund for behandlingsforslaget, undermineres, ville det betyde et tilbageslag for idealet om fælles beslutningstagen. Hvis lægen kun kan forklare, at anbefalingen med stor sandsynlighed i det store hele vil forbedre patientens helbred eller livskvalitet, indregnet oplyste bivirkninger, men ikke hvorfor eller hvordan, har patienten ingen mulighed for at vurdere og bekræfte, at denne vurdering faktisk svarer til de værdier, han ønsker at prioritere [27, 29, 30].

Foto: Explainable AI Alexa Steinbrück

Fremtiden er noget vi vælger

Som nævnt er det opstillede scenarie kun én mulig – og måske lidt radikal – fremtid. Forskere indenfor maskinlæring arbejder allerede nu på at udvikle metoder, der skal gøre det muligt at forklare maskinlæringssystemers anbefalinger. Det drejer sig for eksempel om forsøg på at visualisere vægtningen af forskellige data i algoritmens model. Udfordringen er, at »forklaringer« er flydende størrelser, og det, der forekommer som en god forklaring af algoritmens beslutning for en datalog, er ikke nødvendigvis en god forklaring af behandlingsanbefalingen for en patient. Og det er fortsat uklart, om de metoder, der indtil videre er blevet udviklet, giver klinisk tilfredsstillende løsninger [31]. Hvis klinisk brug af maskinlæring skal undgå uforklarlighedsproblemet, ligger der således stadig mange års samarbejde mellem dataloger, patienter og sundhedsfaglige eksperter forude.

Og her vil vi slutte med en vigtig pointe, nemlig at tilvalget af ny teknologi heldigvis sjældent er et enten-eller. Vi skal ikke nødvendigvis ofre forklaringer til fordel for bedre behandlinger, eller omvendt. For at finde de bedste løsninger kræver det dog, at vi ikke blot accepterer ny teknologi, men aktivt vælger en fremtid til, hvor vi udnytter nye muligheder med vedvarende øje på de potentielle tab, de kan medføre, og deres betydning for lægers vidensgrundlag og de centrale etiske værdier i medicinsk praksis. Som læge kan man selvfølgelig ikke egenhændigt sikre, at den nye teknologi ikke underminerer ens mulighed for at forklare og forstå de behandlinger, man anbefaler, men man kan stille sig selv og sine kolleger spørgsmål om, hvornår og i hvilken grad forklaringer er vigtige. Svaret på det spørgsmål er måske ikke ligetil – ikke mindst, fordi brugbarheden af svaret vil kræve viden om, hvad der er teknologisk muligt, men også fordi det i sig selv kan være komplekst at gennemskue, hvilke værdier forskellige typer af forklaringer tjener inden for sundhedsfaglig praksis [17]. Det vil kræve samarbejde på tværs af discipliner, hvor læger, dataloger, socialvidenskaberne og humanister sammen undersøger, hvordan vi designer fremtidens teknologier på en måde, der understøtter og fremmer de værdier, der ligger til grund for etisk klinisk praksis.

Summary

Machine learning and the problem of unexplicability: should we be able to explain clinical decisions made by artificial intelligence?

Machine learning is currently making tremendous progress, producing a host of promising clinical applications. These technologies will undoubtedly have a significant impact within future healthcare systems. However, machine learning suffers from an unexplainability problem: due to their complexity and data-driven nature, it can be difficult for clinicians to explain the outputs of an advanced machine learning system. While this seems problematic, it might be asked whether this is not a price worth paying. If machine learning systems can significantly increase the accuracy of medical recommendations and thereby reduce mortality and morbidity, why do explanations matter? To answer this question, we explore how medical machine learning differs from earlier forms of artificial intelligence and from evidence-based medicine. We suggest two reasons why explanations still matter. First, explanations help us reason about the extent to which the performance of a seemingly reliable machine learning system can be generalised. Second, explanations play an important role in supporting patient autonomy and supporting shared decision making. We conclude that doctors should take an active role in ensuring that we reap the potential health benefits of medical machine learning without sacrificing central ethical values that underpin good clinical practice.

Referencer

McCarthy J. AI as Sport. Science. 1997;276(5318):1518-9.
Ensmenger N. Is chess the drosophila of artificial intelligence? A social history of an algorithm. Soc Stud Sci. 2012;42(1):5-30.
Silver D, Huang A, Maddison CJ et al. Mastering the game of Go with deep neural networks and tree search. Nature. 2016;529(7587):484-9.
Silver D, Schrittwieser J, Simonyan K et al. Mastering the game of Go without human knowledge. Nature. 2017;550(7676):354-9.
Borsos Z, Marinier R, Vincent D et al. AudioLM: a language modeling approach to audio generation. https://arxiv.org/abs/2209.03143 (14. okt 2022).
Roy A, Sun J, Mahoney R et al. Deep learning detecting fraud in credit card transactions. I: 2018 Systems and Information Engineering Design Symposium (SIEDS): s. 129-34. https://ieeexplore.ieee.org/document/8374722/ (14. okt 2022).
Liu X, Faes L, Kale AU, Wagner SK, Fu DJ, Bruynseels A, m.fl. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit Health. oktober 2019;1(6):e271–97.
Ledley RS, Lusted LB. Reasoning foundations of medical diagnosis: symbolic logic, probability, and value theory aid our understanding of how physicians reason. Science. 1959;130(3366):9-21.
Yanase J, Triantaphyllou E. A systematic survey of computer-aided diagnosis in medicine: Past and present developments. Expert Syst Appl. 2019;138:112821.
Gillies D. Handling uncertainty in artificial intelligence, and the Bayesian controversy. I: Stadler F, red. Induction and deduction in the sciences [Internet]. Dordrecht: Springer Netherlands, 2004:199-216.
Shortliffe EH. Computer-based medical consultations: MYCIN. New York: Elsevier, 1976.
Braude HD. Clinical intuition versus statistics: different modes of tacit knowledge in clinical epidemiology and evidence-based medicine. Theor Med Bioeth. 2009;30(3):181-98.
Mitchell TM. Machine learning. New York: McGraw-Hill, 1997.
Brown TB, Mann B, Ryder N et al. Language models are few-shot learners. https://arxiv.org/abs/2005.14165 (14. okt 2022).
Du N, Huang Y, Dai AM et al. GLaM: efficient scaling of language models with mixture-of-experts. https://arxiv.org/abs/2112.06905 (14. okt 2022).
Selbst AD, Barocas S. The intuitive appeal of explainable machines. Fordham Law Rev. 2018;87(3):1085-139.
Nyrup R, Robinson D. Explanatory pragmatism: a context-sensitive framework for explainable medical AI. Ethics Inf Technol. 2022;24(1):13.
Guyatt G, Haynes B, Jaeschke R et al. The philosophy of evidence-based medicin. I: Guyatt G, Rennie D, Cook D, Meade M, red. Users’ guides to the medical literature. New York, USA: McGraw-Hill Professional Publishing, 2008.
Hanemaayer A. The impossible clinic: a critical sociology of evidence-based medicine. Vancouver Toronto: UBC press, 2019.
Sackett DL, Rosenberg W. On the need for evidence-based medicine. J Public Health. 1995;17(3):330-4.
Sackett DL, Rosenberg WMC, Gray JAM et al. Evidence based medicine: what it is and what it isn’t. BMJ. 1996;312(7023):71-2.
Guyatt G, Prasad K, Schunemann H et al. How to use a patient management recommendation. I: Guyatt G, Rennie D, Cook D, Meade M, red. Users’ guides to the medical literature. New York, USA: McGraw-Hill Professional Publishing, 2008.
London AJ. Artificial intelligence and black‐box medical decisions: accuracy versus explainability. Hastings Cent Rep. 2019;49(1):15-21.
Durán JM, Jongsma KR. Who is afraid of black box algorithms? On the epistemological and ethical basis of trust in medical AI. J Med Ethics. 18. marts 2021;medethics-2020-106820.
Pietsch W. Aspects of theory-ladenness in data-intensive science. Philos Sci. 2015;82(5):905-16.
Northcott R. Big data and prediction: four case studies. Stud Hist Philos Sci Part A. 2020;81:96-104.
Véliz C, Prunkl C, Phillips-Brown M, Lechterman TM. We might be afraid of black-box algorithms. J Med Ethics. 2021;47(5):339-40.
Jacobsen MH, Sommer C, Wernberg SA et al. Evaluation of a national programme to improve shared decision-making skills among junior medical doctors in Denmark: a mixed methods study of satisfaction, usefulness, and dissemination of learning outcomes in clinical practice. BMC Health Serv Res. 2022;22(1):245.
McDougall RJ. Computer knows best? The need for value-flexibility in medical AI. J Med Ethics. marts 2019;45(3):156-60.
Bjerring JC, Busch J. Artificial intelligence and patient-centered decision-making. Philos Technol. 2021;34(2):349-71.
Lipton ZC. The mythos of model interpretability: in machine learning, the concept of interpretability is both important and slippery. Queue. 2018;16(3):31-57.