Risikoen for forkerte kliniske beslutninger


Pernille Just Vinholt
En yngre patient indlægges med hovedpine og feber. Den kunstige intelligens, som er integreret i akutmodtagelsens system, foreslår straks »bakteriel meningitis«. Lægen følger anbefalingen og bestiller lumbalpunktur og opstarter antibiotika. Dette er en fantastisk hjælp – hvis modellen har ret.
Eksemplet stammer fra en afprøvning af, hvordan læger reagerer på et entydigt og simpelt forslag fra en kunstig intelligens i en akut situation. Deltagerne fik en kort case med en patient med hovedpine og upåvirkede vitale værdier, samt en modelforudsigelse, der alene bestod af teksten »bakteriel meningitis« uden forklaring. I deres diagnostiske overvejelser reagerede flere læger spontant og ville handle direkte på forslaget, mens andre først listede differentialdiagnoser. Casen viser, at kunstig intelligens let kan påvirke lægens beslutninger – og i værste fald lede til forkerte valg. Det er netop emnet for denne artikel: Hvordan fejl opstår og kan påvirke medicinske beslutninger.
Indledning
Kunstig intelligens, artificial intelligence (AI), er en samlebetegnelse for teknologier, der gør det muligt for computere at udføre opgaver, som sædvanligvis kræver menneskelig intelligens. AI-modeller kan behandle mange typer data, herunder billeder, lyd, sensordata og tekst. Inden for sundhedsvæsenet er interessen for AI stigende og mulighederne mange. AI kan i princippet håndtere al data og dermed anvendes til både kliniske og administrative beslutninger og til beslutninger af forskellig karakter. Nogle er solitære og træffes i konkrete kliniske situationer, mens andre beslutninger samtidig danner grundlag for statistik, planlægning, forskning og innovation. Nogle beslutninger er en del af en kæde, hvor ét valg får konsekvenser for de næste – f.eks. i diagnostik, behandling og opfølgning. AI kan understøtte disse beslutningstyper og bidrage til mere sammenhængende arbejdsgange [1].
Værdien af AI ligger ikke kun i den enkelte beslutning, men i at teknologien integreres i kliniske arbejdsgange, som dermed effektiviseres og forbedres. AI kan i denne sammenhæng ses som en metode til videnshåndtering, hvor algoritmer forbedrer processer for indsamling, lagring og anvendelse af klinisk information [2]. Den største effekt ses, når teknologien indgår i en repetitiv læringsproces, hvor brugen af algoritmen fører til mere data og dermed yderligere forbedringer [3].
Potentialet i AI er stort, ligesom forventningerne er, men ledsages af en risiko for en introduktion af fejl i beslutningerne. Det er afgørende at forstå, hvor og hvordan fejl kan opstå – så de i videst muligt omfang kan forebygges.
Typer af fejl i AI
Fejl i sundhedsteknologier kan få store konsekvenser – særligt når de gentages systematisk i mange beslutninger. Grundlæggende skelnes mellem to typer fejl [3, 4]:
Tilfældige fejl (støj) er uforudsigelige afvigelser, f.eks. forårsaget af tastefejl eller fejlaflæsning. De rammer typisk enkeltstående beslutninger og har primært betydning for den enkelte patient.
Systematiske fejl (bias) er skævheder, som gentager sig på tværs af mange beslutninger. De kan opstå som følge af et skævt datagrundlag, modeldesign, eller hvordan modellen anvendes i klinisk praksis – og kan dermed forstærke eksisterende uligheder i sundhed.
Både støj og bias kan introduceres i AI‑systemer gennem (a) de data, modellen trænes på, (b) selve modellens opbygning og træningsprocedure, eller (c) den måde, modellens output fortolkes og anvendes på, se Figur 1. Hvor støj typisk påvirker enkeltstående beslutninger, kan bias medføre systematiske skævheder, som rammer bredt og har konsekvenser for patientsikkerhed og retfærdighed. Her fokuseres derfor primært på bias.
Der er forskel på fejl i generative og ikkegenerative modeller. Generative modeller producerer ny information, som udfærdigelse af journalnotater i sundhedsvæsenet, hvor ikkegenerative modeller (klassifikationsmodeller) behandler information, f.eks. fra billeder eller tekst med det formål at lave klassifikationer eller forudsigelser, som f.eks. risikoen for genindlæggelse eller udpegning af en tumor på et scanningsbillede [1].
Bias i data – en klassisk udfordring i ny kontekst
Kvaliteten af modellens output afhænger direkte af kvaliteten af de data, modellen er trænet på. Som i epidemiologiske studier kan der opstå selektionsbias, hvis data ikke repræsenterer den patientpopulation, modellen skal anvendes på. Tilsvarende kan der opstå informationsbias, hvis oplysninger i data er fejlagtigt registreret, inkomplet eller inkonsistent kodet [5].
AI-modeller baserer sig ofte på historiske data, som er præget af eksisterende uligheder i sundhed [6]. Et velkendt eksempel er, at kvinder historisk er underdiagnosticerede for hjerte-kar-sygdom. Hvis sådanne data anvendes uden korrektion, risikerer man at inkorporere denne underdiagnostik i modellen. Derudover kan data fra forskellige kliniske settings medføre skævheder, bl.a. på grund af variationer i måleinstrumenter eller registreringspraksis.
Data til AI-modeller vurderes ofte af mennesker, som inddeler materialet i de kategorier, modellen senere skal genkende. Det er vist, at personers egne politiske holdninger og kulturelle forforståelser påvirker inddelingen og kan give ophav til bias [7]. Et tænkt eksempel: Symptomer tolkes oftere som psykisk betingede hos patienter fra minoriteter, mens de hos majoritetspatienter tolkes som somatisk relaterede. Denne forskel i fortolkning kan videreføres i AI-modeller. Hvis modellen skal anvendes til at identificere somatisk sygdom, vil den muligvis ikke finde sygdom hos minoritetsgruppen. Omvendt kan der findes reelle forskelle i symptomer eller sygdomsforløb hos minoriteter, som modellen risikerer at overse, hvis gruppen er underrepræsenteret i datasættet.
Når en model sættes i drift, er den afhængig af, at input ligner det, den er trænet på. Ændres der undervejs (målemetoden for en analyse, diagnostiske kriterier, diagnosekoder) kan modellen miste evnen til at genkende sammenhænge. Dette kaldes datashift og kan resultere i bias, hvor modellen leverer forældede eller misvisende svar [8].
Jo større og mere komplekse datamængder modeller trænes på, desto vanskeligere bliver det for lægen at gennemskue, hvilke faktorer og eventuelle skævheder der ligger til grund for modellens output. Bias er derfor særligt vanskeligt at kontrollere i generative modeller, trænet på meget store datamængder fra forskellige kilder. Generative modeller, som sprogmodeller fra Google eller OpenAI, er trænet på store dele af internettet og repræsenterer dermed dettes indhold med overvægt af engelsksproget og vestligt indhold. Data kommer derved til at afspejle samfundsmæssige stereotyper om f.eks. køn eller etnicitet, som videreføres i modellens output [9]. Idet de generative modellers output tilpasses med menneskelig feedback, vil nogle tendenser og mønstre forstærkes over tid.
Diskussionen om, hvilket output, der kan betegnes som det »mest korrekte«, er særligt interessant og kompleks for generative modeller. Figur 2 viser billedgenerering som resultat af de samme to prompt til en stor sprogmodel med fire måneders mellemrum. Ud over den øgede fotorealisme og dermed manglende reproducerbarhed af outputtet er det bemærkelsesværdigt, at barnet, som spiller fodbold, fremstilles som en stereotyp dreng, mens billedet af en legende pige skifter fra at lege med dukker i et værelse med lyserødt tema til at bygge med klodser i et mere neutralt beige/hvidt miljø. Under alle omstændigheder afspejler data udviklernes valg. Dette eksempel illustrerer, at output ikke er garanteret en retfærdig eller fyldestgørende repræsentation af væsentlig viden. Klinisk set kan det betyde, at modellerne producerer overbevisende, men ikkegeneraliserbare resultater med potentiel skævhed i vurdering af bestemte patientgrupper. Når generative modeller afspejler vestlige forhold, skyldes det, at vestlige træningsdata dominerer, samt at udviklerne har menneskelige annotatorer, der påvirker modellens output gennem bedømmelse, hvilket modellen derefter lærer af. Hvilke kriterier, der bedømmes ud fra, er uvist. Selv om en modelarkitektur i princippet kan genbruges på tværs af kontekster, er enhver model uløseligt præget af sit træningsdatagrundlag.
I dag er det i høj grad op til udviklerne selv at sikre overholdelse af lovgivning, som primært fokuserer på klinisk effektivitet og sikker håndtering af personoplysninger. Med udrulning af AI Act i EU stilles eksplicitte krav til, at modeller undersøges for bias [10], hvilket kan skabe en stærkere ramme for ansvarlig anvendelse, da anvendelsesmulighederne er omfattende.
Kritisk vurdering af datakilder, datadækning og populationsrepræsentativitet bør derfor være en integreret del af enhver vurdering af AI-systemer i sundhedsvæsenet. Dette handler ikke kun om at vurdere teknisk performance, men også gennemsigtighed i forhold til datas oprindelse og opmærksomhed på de medfølgende etiske problemstillinger. Det er afgørende, at modeller evalueres i den kontekst, de skal anvendes i, og den opgave, de skal bruges til, da dét vil afsløre mange af udfordringerne. Dette kan dog være svært ved særligt komplekse generative modeller, hvor modellens opgave ikke er klart defineret.
Modellen
Bias kan også opstå i modeludviklingsfasen og forstærke de skævheder, der findes i data, modellen trænes på. Det skyldes ikke kun selve data, men også de valg, udviklerne træffer undervejs. Eksempler herpå er valg om modellens formål, type og øvrige tekniske valg. Her spiller både praktiske begrænsninger og udviklernes egne antagelser en rolle. Målet er heller ikke nødvendigvis klart, idet der ikke findes en universel standard for, hvad der er »god nok« performance, da det afhænger af den intenderede anvendelse af modellen [11].
Bias kan forværres over tid, særligt i systemer, hvor modellen løbende opdateres med nye data. Hvis datagrundlaget ændrer sig f.eks. gennem ændret registreringspraksis, populationer eller kliniske arbejdsgange, kan data påvirkes, hvilket gør, at modellen ikke længere præsterer som oprindeligt forventet. En særlig udfordring opstår i lærende AI-systemer, hvor modellens egne beslutninger anvendes som input til fremtidige iterationer. Her risikerer man, at fejl i modellens vurderinger f.eks. over for underrepræsenterede grupper som ældre, eller patienter med sjældne sygdomme, systematisk indlejres i nye datasæt. Denne mekanisme kan skabe en selvforstærkende cyklus, hvor de samme typer bias gentages og forstærkes, fordi AI’ens tidligere beslutninger bliver morgendagens »sandhed« i træningsdata [11].
Generative modeller tilføjer igen en ekstra udfordring, da de kan udvikle nye og uforudsete adfærdsmønstre, hvor modellen på egen hånd skaber forbindelser i data, som kan resultere i diskriminerende eller fejlagtige konklusioner. En særlig problematik er »hallucinationer«, dvs. situationer, hvor modellen opfinder information for at udfylde huller i viden. Dette er en iboende egenskab ved generativ AI og kan ikke elimineres fuldstændigt [12]. Det kan naturligvis potentielt have fatale konsekvenser, hvis fiktive informationer pludselig introduceres i beslutningsprocessen.
Retrospektive datasæt anvendes hyppigt til evaluering af både generative og ikkegenerative modeller, og er en gængs metode til sammenligning af modelperformance. Selv om denne tilgang er nyttig, bør modeller også afprøves i den kliniske kontekst, de skal anvendes i [13, 14]. Det skyldes, at der ofte opstår uforudsete udfordringer i forbindelse med implementering, da virkeligheden i den kliniske kontekst ofte er mere kompleks end i det retrospektive datasæt, man har evalueret modellen på. Det er desuden særligt vigtigt at fokusere på potentielle bias og prædiktive værdier i evalueringsprocessen for at vurdere, hvor sandsynligt det er, at modellen har ret i sine forudsigelser.
Samlet set, er det vigtigt at tænke kontekst og klinisk anvendelse ind i hele udviklingsprocessen. Man bør gøre sig overvejelser undervejs og teste modellernes præstation initialt og løbende. Noget ansvar er placeret regulatorisk ved, at udviklerne skal dokumentere klinisk evaluering inden for det tilsigtede formål, og sundhedsvæsenet har overordnede rammer i form af medicinsk teknologivurdering, som adresserer klinisk effektivitet, brugeren, teknologien og det organisatoriske perspektiv. Der findes imidlertid ikke tilsvarende operationelle rammer for løbende evaluering af teknologi, som man kender fra laboratoriediagnostik, hvor kvalitetssystemer er en integreret del af sundhedsvæsenet. Dermed er det også svært for den enkelte bruger at forholde sig til AI.
Bias i beslutninger ved anvendelse af AI
Menneskelige beslutninger kan anskues som styret af to tankesystemer: System 1 er en hurtig, intuitiv proces baseret på mønstergenkendelse, og system 2 er en langsom, analytisk proces baseret på systematisk vurdering og sandsynlighedsberegning [3]. Læger anvender typisk disse to systemer i samspil ved klinisk beslutningstagen [15]. I klinisk praksis dominerer ofte System 1, hvilket sparer tid, men samtidig øger risikoen for kognitive bias. System 2 aktiveres, når lægen standser op og foretager en mere analytisk vurdering – ved komplekse, usædvanlige eller tvivlsomme tilfælde. Det kræver flere ressourcer, men reducerer risikoen for kognitive bias [4].
Forskning viser, at når læger bruger kliniske beslutningsstøttesystemer, kan de komme til at følge systemets forslag uden kritisk evaluering. Det sker, fordi hjernen vælger en hurtig og intuitiv genvej (System 1) i stedet for at aktivere den langsommere, analytiske tænkning (System 2). Denne mekanisme svarer til det, man kalder automation bias. Det er bl.a. vist at gælde ved ekg-beskrivelser, hvor læger har tendens til at anvende diagnoseforslaget, som ledsager ekg-udskrifter i stedet for egen gennemgang. Her har erfaring dog også en betydning, idet det hyppigst forekom hos uerfarne læger [16]. Ydermere kan komplekse outputs, som lange AI-genererede tekster, være svære at evaluere, hvilket forstærker tendensen til at acceptere outputtet ukritisk [17]. Bias kan dog omvendt også opstå ved »alert-fatigue«, hvor klinikere oplever gentagne eller irrelevante alarmer, og derfor begynder at ignorere systemets output, så vigtige signaler potentielt overses [18].
Generative modeller kan forstærke kognitive bias baseret på de spørgsmål (prompt), man stiller [19]. Modellerne er mere tilbøjelige til at give én ret i sygdomsforslaget, hvis promptet peger på et sandsynligt svar, f.eks.: »tidligere var du sikker på at det korrekte svar var … « eller »tidligere havde vi en patient med samme symptomer, som viste sig at fejle … «. Brugeren kan altså introducere bias i svar ud fra måden, spørgsmålet stilles på.
Bias kan opstå i beslutningen, hvis man ikke gør sig klart, hvilken viden modellen repræsenterer. En model får oftest ikke alle tilgængelige informationer f.eks. i et patientforløb, men en delmængde. Lægelige beslutninger bygger f.eks. ofte på tavs viden, som er den erfaringsbaserede og situationsafhængige forståelse, som ikke let lader sig sætte på formel [20]. Denne viden kan være nonverbale tegn hos patienten, kontekstuelle forhold eller den kliniske mønstergenkendelse, som er opbygget gennem mange års praksis. Tavs viden er svær at dokumentere og lader sig derfor ikke let overføre til AI-modeller, som forudsætter klart definerede input og entydige regler. Man risikerer fejlagtige beslutninger, hvis man ukritisk antager, at modeller »ser« det samme som klinikeren. AI er derfor et supplement ved at levere og håndtere relevant information, men bør ikke erstatte den samlede, helhedsorienterede vurdering.
I klinisk praksis må læger ofte handle på ufuldstændige data og uklare symptombilleder dvs. i situationer med manglende data. Erfarne klinikere tolker ikke kun det, der står i journalen, men forstår ofte betydningen af, hvis noget forventeligt mangler – f.eks. en undersøgelse eller måling, der burde være foretaget ved en given mistanke. Når bestemte informationer systematisk mangler hos bestemte patientgrupper, er fraværet i sig selv et signal om underudredning eller diagnostisk skævhed [15]. Selv om der findes statistiske og maskinlæringsbaserede metoder til at håndtere manglende data, er det en iboende begrænsning ved AI, at modellerne har svært ved at håndtere situationer, hvor fraværet af data i sig selv er informativt (missing not at random).
Da samspil mellem model og læge i praksis er kompleks, er det vigtigt, at man ved udvikling af AI-modeller både indtænker og tester, hvordan læger anvender AI-modellen i deres arbejdsgang og dermed i kombination med anden viden. Hvis modellen er transparent, er det lettere for brugeren at vurdere modellens anvendelighed og dens bidrag til en beslutning, og dermed understøtte lægen i at træffe beslutninger. Lægen bør også kende til modellens formål, styrker og begrænsninger for at bruge den ansvarligt i beslutningsprocessen. Manglende indsigt og utilstrækkelig forklarlighed kan i sidste ende betyde, at bias ikke opdages. Dertil risikerer man, at bias i beslutninger ikke blot påvirker behandlingen af den enkelte patient, men ophobes og forstærkes i de data, som anvendes til fremtidig læring, forskning og modeludvikling.
Applikationens rolle i beslutningen – design er aldrig neutralt
AI-modellen skal som oftest integreres i en software, f.eks. som et ekstra felt, en farvemarkering eller en anbefaling. Det visuelle og funktionelle design af softwareapplikationen, dvs. hvordan information præsenteres, og hvad brugeren inviteres til, påvirker i sig selv, hvilke beslutninger der træffes. Designet bør understøtte, at der træffes korrekte medicinske beslutninger. En model, som fremmer System 1-tænkning kan være lettest at anvende, men samtidig i sig selv øge risikoen for forkerte beslutninger, idet den nudger dig til et hurtigt valg i stedet for at ræsonnere grundigt [21]. Selve AI-modellen kan i princippet være velfungerende, men hvis dens anbefaling præsenteres som et stort, grønt standardvalg – f.eks. »Godkend forslag« – mens alternative muligheder kræver flere klik eller er gemt i undermenuer, vil man have tilbøjelighed til at vælge modellens forslag. I sådanne situationer stammer den systematiske skævhed ikke fra selve modellen, men fra brugergrænsefladen, der i praksis gør modellens output til default-beslutningen.
Design er med andre ord ikke blot æstetik eller funktion, men er en medskaber af beslutningen og dermed et selvstændigt sted, hvor bias kan opstå eller afhjælpes.
Systemisk sikkerhed – hvordan EU-regulering forebygger fejl med AI
Ifølge EU’s forordning om medicinsk udstyr (MDR) skal software, der understøtter kliniske beslutninger, vurderes som medicinsk udstyr. MDR lægger vægt på kvalitetsstyring og risikominimering gennem hele produktets livscyklus. Det indebærer dokumentation for ydeevne og patientsikkerhed samt en forpligtelse til at reducere kendte risici så vidt muligt. Men MDR fokuserer primært på selve produktet – altså modellen og dens funktion.
Med EU’s kommende AI Act udvides dette perspektiv: Her betragtes AI som en del af et system, hvor det ikke er nok at vurdere selve modellen. Det samlede system (som brugergrænseflade, integration, dataflow og organisatorisk anvendelse) skal vurderes. Særligt for højrisiko-systemer, som anvendes i sundhedsvæsenet, kræves dokumentation for risikostyring, menneskelig overvågning og gennemsigtighed i hele værdikæden.
Lovgivningen understøtter dermed risikominimering ved gennemsigtighed, risikominimerende design og implementeringsvalg. Det gælder både i udvikling og implementering, hvor design, brugeroplevelse og organisatorisk kontekst er lige så vigtige som modellens præcision. Både MDR og AI Act understreger således, at kvalitet i AI ikke kun omhandler algoritmen – men helheden, hvori den indgår.
Konklusion – hvordan undgås fejl med AI i klinisk praksis?
Kunstig intelligens har et betydeligt potentiale i sundhedsvæsenet – fra at effektivisere arbejdsgange til at understøtte komplekse kliniske beslutninger. Samtidig indebærer teknologien nye typer fejl og bias, som kan være vanskelige at opdage og afhjælpe. Fejl kan ikke undgås – hverken med eller uden AI. Ved fælles hjælp, hvor udviklere og sundhedsvæsen spiller sammen om at oparbejde en praksis, hvor man løbende evaluerer og forbedrer modeller, er der potentiale for store forbedringer i vores sundhedsvæsen.
For læger er det afgørende at opbygge viden om, hvordan AI virker, hvilke typer data modellerne er trænet på, og hvordan output skal fortolkes. Kendskab til modellens styrker og begrænsninger er en forudsætning for at kunne anvende teknologien sikkert og kritisk. AI bør anvendes som beslutningsstøtte, og der skal udvises opmærksomhed på, hvordan output præsenteres og påvirker mønstergenkendelse og beslutningsproces. Læger, som værende brugere af AI, har en vigtig opgave i at have en opmærksomhed på, om output passer til den konkrete patient og tilgængelige data, hvordan præsentationen af svaret kan farve vurderingen, og konsekvent rapportere oplevede skævheder eller fejl, så de kan bruges til at forbedre modeller og arbejdsgange.
Udviklere og »regulatorer« er nødt til systematisk at arbejde med bias gennem hele modellens livscyklus – fra valg og rensning af træningsdata og dokumentation af kendte skævheder til test af performance og fairness på tværs af relevante patientgrupper og kontekster. Det kræver gennemsigtighed og valg omkring data, modeldesign og brugergrænseflader samt faste procedurer for opfølgning og opdatering, så identificeret bias faktisk fører til konkrete forbedringer.
Sundhedsvæsenet som system er nødt til at tænke systematisk i kvalitetssikring af AI-løsninger, fordi bias kan ophobes over tid og gradvist påvirke både klinisk praksis og læring. Ledelserne bør derfor definere klare principper for, hvor AI kan automatisere eller understøtte beslutninger, og hvor mennesket bevidst skal være i loopet som en aktiv sikkerhedsbarriere mod systematiske skævheder – samtidig med, at AI primært anvendes til at reducere administrative byrder og frigøre tid til faglig vurdering.
This article discusses how artificial intelligence (AI) may influence clinical decision-making and introduce systematic errors, despite its potential to improve efficiency and support medical practice. It highlights how bias can arise from data, model design, clinical implementation, and human–AI interaction, particularly in complex and generative models. The article concludes that responsible use of AI in healthcare requires continuous evaluation, transparency, and human oversight. Regulatory frameworks such as the EU Medical Device Regulation and the forthcoming AI Act highlight the need to assess AI within a broader socio-technical system, where clinical context, design, and implementation are as important as algorithmic performance.