Skip to main content

Læge, patient og kunstig intelligens

– treklang eller dissonans? 

Eden

Af Anton von Hofacker

2. sep. 2025
15 min.

Året er 2035. Lisa træder ind ad døren hos en ung, vikarierende læge i en almen praksis i Vestjylland. Hun er 42 år og er ikke særlig glad for at gå til læge, men hendes smartwatch har de seneste to døgn varslet, at hendes krop opfører sig anderledes end normalt. Som led i et nationalt tilbud om genomsekventering har Lisa fundet ud af, at hun er bærer af MYH7-mutationen, som er associeret til hypertrofisk kardiomyopati (HCM). Resultater af tidligere kardiologiske undersøgelser har været normale. Hos lægen fortæller hun, at hun føler sig træt og har haft en smule uro i brystet. Lægen prøver at forstå Lisa efter bedste evne men er stresset og har svært ved at koncentrere sig. Heldigvis bliver den noget rodede anamnese optaget af et talegenkendelsesystem, der hjælper lægen med journalføring. Den objektive undersøgelse er normal. Lægen ser i Lisas stamdata, at hendes far døde i en trafikulykke som 50-årig. Hendes smartwatch er forbundet til lægens journalsystem og viser et saturationsfald (fra 98% til 93-94%), øget pulsvariabilitet, sporadiske ekstrasystoler og let takykardi i hvile, nedsat søvnkvalitet (hyppige opvågninger) og let forhøjet blodtryk (135/85 mmHg mod normalt 120/80 mmHg) gennem de seneste to døgn. Lægen er overvældet af mængden af information og i tvivl om, hvad han skal gøre. Han er alene i praksissen, bagud i programmet, og venteværelset er fyldt. For at få hjælp til at komme videre benytter lægen sig af en algoritmefunktion på sin computer. Algoritmen integrerer de tidligere journalnotater, den aktuelle anamnese og objektive undersøgelse, Lisas genetiske risikoprofil, familiære dispositioner og smartwatch-data. Algoritmen præsenterer en vægtet liste med syv differentialdiagnoser og fremhæver, at der er 85% sandsynlighed for, at patienten har begyndende hypertrofisk kardiomyopati. På den baggrund anbefaler computerprogrammet indlæggelse på kardiologisk afdeling. Den unge læge følger anbefalingen. På hospitalet foretages en række undersøgelser af hjertet, som bekræfter computerens diagnostiske mistanke, hvorfor Lisa får tilbudt en ICD og efterfølgende følges tæt af kardiologerne. 

Den fiktive case er et eksempel på, hvordan kunstig intelligens og personaliseret medicin potentielt ser ud om ti år. Vi er ikke nået dertil endnu, og måske ønsker vi det heller ikke, men nogle af teknologierne i eksemplet banker allerede på sundhedsvæsenets dør. Man kunne hævde, at en bestemt teknologi allerede er trådt ind ad bagdøren: udviklingen af kunstig intelligens (AI), herunder sprogmodeller, er sket så hurtigt, at det nu bruges flittigt blandt mange læger og patienter. Som KBU-læge i en akutmodtagelse og almen praksis har jeg de seneste måneder benyttet mig af især to sprogmodeller, som har fungeret som faglig sparringspartnere i en travl klinisk hverdag: ChatGPT og OpenEvidence (OE) [1, 2]. 

Disse modeller er to blandt mange såkaldte »generative large language models« (LLM’s), der genererer forskellige typer output, herunder hovedsageligt tekstsvar, ved at genkende mønstre i data og beregne det mest sandsynlige næste ord i en sætning. Sprogmodellerne er blevet beskrevet som »sorte bokse«, da ingen præcist kan forklare, hvad der foregår i modellernes indre. Lanceringen af ChatGPT-4 i marts 2023 var et kvantespring inden for kunstig intelligens. ChatGPT-4 er trænet på enorme mængder fri tilgængelig internetdata og kan derfor generere tekstsvar og andre typer output om nærmest alt. Nyere versioner kan inkorporere lyd og billedinput, analysere dokumenter og individualisere output til den enkelte bruger. Til sammenligning er OE en mere beskeden sprogmodel med et meget specifikt formål. Den er trænet udelukkende på medicinske videnskabelige artikler og udviklet med henblik på at assistere lægen med hurtigt at finde svar på kliniske problemstillinger. OE’s svartekst kondenserer en stor mængde information fra videnskabelige kilder, og der henvises direkte til artikler i PubMed med links. Idéen bag OE er at hjælpe læger med at holde sig forskningmæssigt opdateret. Forskningen fordobler sig hvert femte år (konservativt estimat), og lægerne er tiltagende pressede på tid. OE hævder, at over 100.000 (omkring 10%) af amerikanske læger har oprettet en brugerprofil, især læger i udkants-USA uden nem adgang til universitetshospitaler og forskningsmiljøer.

Med en metaforisk sammenligning kan man sige, at ChatGPT er som en interagerende forfatter. Forfatterskabet favner bredt og er funderet på inspiration fra et væld af traditioner rundt om i verden. Grænsen mellem sandhed og fiktion er ofte sløret. Til bogmesser er forfatteren en høflig og samtidig stimulerende samtalepartner. OE er derimod mere som en servicerende bibliotekar, hvis rolle er veldefineret og afgrænset. Bibliotekaren peger biblioteksbrugeren i retning af relevant litteratur, trækker på sin litterære viden og fortæller gerne brugeren lidt om teksten. Ved hendes side er man tryg men savner lejlighedsvis den uforudsigelige og inspirerende samtale. 

Hvordan kan sprogmodellerne understøtte lægers arbejde? En måde er, at sprogmodellerne assisterer med administrative opgaver og tidskrævende dokumentationsarbejde. Det er f.eks. journaloptagelser, udarbejdelse af forløbsresuméer og epikriser eller svarudkast på e-konsultationer. Mere interessant er det, at sprogmodellerne er overraskende dygtige til at udføre en af lægefagets kerneopgaver: at stille diagnoser. Når vi som læger diagnosticerer, sammenstykker og vægter vi information ved hjælp af medicinsk viden, analytisk tænkning samt erfaringsbaseret intuition. Tilsvarende processerer sprogmodeller informationsbidder til det mest sandsynlige bud på en diagnose. 

Erfaring og kontinuerlig læring kan styrke lægens evne til at diagnosticere korrekt, men selv erfarne klinikere begår fejl. Inden for den psykologiske og økonomiske forskning har man identificeret mere end 100 forskellige typer menneskelige bias [3], der potentielt kan opstå i mødet med en patient, når vi forholder os til information samt skal træffe beslutninger. Eksempler på typiske bias, som risikerer at føre læger på afveje i den diagnostiske proces, er »anchoring bias« (tendensen til at lægge for meget vægt på det første stykke information man modtager i en beslutningsproces), der ofte er efterfulgt af »confirmation bias« (tilbøjeligheden til at bekræfte de hypoteser, som udarbejdes tidligt i en beslutningsproces). Det er rimeligt at antage, at den fejldiagnostik, vi ser blandt læger, delvist kan forklares af kognitive og affektive bias [4]. Fejlene er ikke ligeligt fordelt blandt alle læger. Faktorer som erfaring, intelligens, motivation og evnen til kritisk selvrefleksion spiller en rolle. Men også adgang til supervision og faglig sparring samt type af lægeligt speciale med forskellige grundlag for den diagnostiske proces vil være med til at forklare forskelle blandt læger til at stille korrekte diagnoser. F.eks. vil intern medicinere eller psykiatere (specialer med meget patientkontakt) være udfordret af en større mængde støj og bias end radiologer eller patologer. Som KBU-læge vil jeg formentlig trække gennemsnittet for fejldiagnosticering i en negativ retning. Kunne sprogmodeller hjælpe med at reducere graden af fejldiagnostik ved at hæve bundniveauet blandt læger? Måske. ChatGPT har i et flertal af studier vist sit værd som diagnosticeringskyndig ved at bestå den amerikanske lægeautorisationseksamen, United States Medical Licensing Examination (USMLE), samt en række specialisteksamener rundt omkring i verden [5, 6]. Sprogmodellernes diagnostiske formåen må forventes at blive endnu bedre. Samtidig går det danske såvel som andre vestlige sundhedsvæsener en udfordrende fremtid i møde. Der venter en bølge af ældre og mere kronisk syge borgere. Antallet af patienter pr. læge i Danmark har de sidste år været stigende. Udviklingen vil komme til yderligere at belaste i forvejen tidspressede klinikere og skabe et miljø, der forstærker tendensen til bias og fejl: En udhvilet, rolig og glad læge med tid til reflektion og mulighed for sparring har bedre forudsætninger for at træffe gode beslutninger end en, der oplever mangel på tilsvarende vilkår. For at forbedre de nævnte forhold kommer man naturligvis ikke uden om strukturelle ændringer, men sprogmodellerne kunne være en del af løsningen ved at agere som lægens assistent i den fortravlede hverdag. F.eks. ville Large Language Model’s (LLM) veludviklede evne til at generere multiple differentialdiagnoser være en effektiv måde at udfordre klinikerens inklination til premature beslutninger og fiksationsbias. Relationen mellem sprogmodel og læge ville være bygget på gensidighed, men med lægen i førersædet. For at hjælpe lægen bedst muligt ville sprogmodellen være afhængig af lægen til at fodre den med solide kliniske data. Gode outputs kræver gode inputs. Det kliniske håndværk ville derfor være det bærende element i relationen: Hvis en overarbejdet eller doven læge tilbyder maskinen mangelfuld anamnestisk og objektiv information, vil maskinens ligesom lægens egne diagnostiske forslag naturligvis lide herunder. Sprogmodellen ville også kunne hjælpe med hurtigere adgang til viden og behandlingsforslag. Også her vil forudsætningen være, at lægen forholder sig kritisk til sprogmodellens forslag og bærer ansvaret for beslutningstagningen. 

Sprogmodellerne skal naturligvis benyttes med forsigtighed. Det er demonstreret, hvordan sprogmodellen selv er tilbøjelig til at udøve kognitiv bias. Sammensætningen af de ord, som sprogmodellen fodres med, afføder varierende grad af »framing effect«, »primacy effect« og »hindsight bias«. Et eksempel på dette er, at kirurgi oftere anbefales som behandling af lungekræft, hvis sprogmodellen bliver præsenteret for overlevelsesstatistik frem for dødelighedsstatistik »framing effect« [7]. 

Også systemisk bias skjuler sig i dybet af sprogmodellerne. Det er en kendsgerning, at ChatGPT-4 kan propagere og i værste fald amplificere systemisk bias, også i medicinske sammenhænge. F.eks. tenderer ChatGPT-4 til at overrepræsentere stereotyper af sygdomme, eksempelvis sarkoidose blandt sorte patienter og hepatitis B blandt asiatiske patienter [8]. Man fristes til at spørge sprogmodellen, hvorfor den forskelsbehandler, men man ville komme til at skyde skylden på den forkerte. ChatGPT er trænet og optimeret ved hjælp af det ocean af menneskelige data, som udgør internettet. Disse data afspejler på godt og ondt menneskelige stereotyper og fordomme, som bliver reproduceret af ChatGPT, når vi beder den om hjælp. For OE’s vedkommende er problemet mere afgrænset, men stadig relevant: Sprogmodellen er trænet udelukkende på videnskabelige kilder og afspejler derfor den bias, der findes i den medicinske litteratur. 

Sprogmodellerne er også kendt for at opdigte alt fra delvist forkerte til totalt meningsløse svar og præsentere dem som sandheder. Fænomenet kaldes ofte »hallucination« – et misvisende begreb, der menneskeliggør sprogmodellen ved at tilskrive bevidsthed. Man kunne mere nøgternt sige, at sprogmodellen genererer svar med faktuelle fejl. De nyeste, mest avancerede modeller af ChatGPT har noget overraskende vist sig at have en større tendens til at generere svar med fejl end de ældre modeller. Samtidig er det grafiske layout forbedret, og brugeren skal være på vagt for ikke at lade sig forføre af det misvisende output. 

I årevis har man talt om, at radiologer bliver erstattet af kunstig intelligens, men radiologerne findes stadig og er endda (som mange andre typer læger) en mangelvare. Frygten for, at kunstig intelligens erstatter læger, flytter fokus væk fra en mere væsentlig diskussion om teknologiens påvirkning af lægers arbejde og trivsel. Man kunne f.eks. være bekymret for, at den kommende generation af medicinstuderende og unge læger med tiden læner sig op ad sprogmodellerne i en grad, der afføder dovenskab og atrofi af lægens selvstændige diagnostiske evne. Vi ville gøre os selv sårbare for situationer, hvor teknologien svigter os. Desuden truer i forvejen en bølge af overdiagnostik og defensiv medicin: Sprogmodellerne genererer ofte en bred vifte af diagnose- og udredningsforslag. Uden en kritisk læge til at vurdere relevansen af disse forslag risikerer man at gå ned af diagnostiske blindgyder, som afføder overdiagnostik og ressourcespild. Ligesom man på medicinstudiet f.eks. lærer at fortolke et ekg (der analyseres af sensitive algoritmer, som lægen skal forholde sig kritisk til) bør man undervises i, hvordan man samarbejder med og forholder sig til en sprogmodel i den kliniske hverdag. Et andet spørgsmål er, om vi taber noget, når vi vænner os til, at sprogmodeller som OE gennemsøger litteraturen og serverer tilsyneladende relevant videnskab på et sølvfad. Den del af lægearbejdet, der handler om at slå op i retningslinjer og forskning, tager tid, men vi risikerer, at frugterne af den refleksionsproces, der hører med til litteratursøgninger og artikellæsning, går tabt. 

Til trods for faldgruberne: Brugen af generative sprogmodeller blandt læger er allerede udbredt. I en spørgeundersøgelse blandt 1.000 britiske praktiserende læger publiceret i BMJ [9] i 2024 svarede 20% ja til at have benyttet generativ kunstig intelligens i den kliniske hverdag og (28% af ja-respondenter) ikke sjældent for at modtage differentialdiagnostiske overvejelser eller 29% af ja-respondenter hjælp til dokumentationsarbejde. 

Men hvordan ser det ud, når sprogmodellen befinder sig i patientens hænder? Det har længe været kendt, at patienter benytter internettet for få et bud på, hvad de kunne fejle. Derfor er det ikke overraskende, at LLM’s som ChatGPT gradvist vil overtage funktionen som »netdoktor«. For et par måneder siden oplevede jeg, hvor effektivt sprogmodellen kan være til at løse svære diagnostiske problemstillinger, selv i ikkelægelige hænder: 

En ung mand trådte ind i min konsultation med sin mor. Efter noget tid lod moderen os være alene, jeg undersøgte manden, der over flere år havde haft udslæt i munden, på over- og underkroppen samt ulcerative sår i genitalområdet. Det gik op for mig, at en zebra var trådt ind på mit kontor, og jeg ledte febrilsk efter relevante differentialdiagnoser. Mine tanker gik på en bestemt venerisk sygdom, men jeg kunne ikke helt få pengene til at passe. Mens jeg tastede nummeret til vagthavende dermatolog, trådte moderen ind i lokalet med sin mobil i hånden. »Jeg tror, det må være en af de her to sygdomme«. Hun viste mig telefonen: ChatGPT havde foreslået to sandsynlige diagnoser, ingen af dem var mig bekendt. Jeg fremlagde historien og min egen tvivlsomme tentative diagnose for dermatologen, der grinede venligt og sagde, at vi havde at gøre med en sjælden reumatologisk sygdom, jeg ikke havde hørt om siden syvende semester på medicinstudiet. Til min overraskelse var den nævnte diagnose, som patienten i øvrigt fik bekræftet hos dermatologen få dage senere, magen til en af de to diagnoser, som patientens mor havde fundet frem til ved hjælp af ChatGPT. Da patienten var gået, bemærkede jeg en ambivalens. På den ene side var der spændingen over at have været involveret i at diagnosticere en sjælden sygdom og glæden over, at patienten nu var i gode hænder. På den anden side var jeg en smule pinligt berørt over, at patientens pårørende ved hjælp af en app havde formået at stille den korrekte diagnose, før jeg selv havde nået at overveje den. 

Der findes andre eksempler på patienter, der har løst uopklarede diagnostiske gåder ved at fodre ChatGPT med deres egne journalnotater og præsenteret det korrekte svar for en læge. Vil en gennemsnitlig patient med sprogmodellens hjælp blive lige så dygtig som en gennemsnitlig læge til at stille diagnoser? Næppe. Lægerne har den fordel, at ChatGPT er trænet på store mængder offentligt tilgængeligt internetmateriale, heriblandt medicinske vejledninger fra faglige selskaber samt opslagsværker som Lægehåndbogen, hvilket gør den i stand til at generere svar af høj kvalitet – særligt når den bliver fodret med lægefaglige termer. Når en læge stiller sprogmodellen et spørgsmål ved hjælp af medicinsk terminologi, vil modellen »styres« i retning af autoritative kilder og den del af sproget, der ligger tættere på evidensbaseret medicin. Derimod vil lægpersoner, der anvender upræcise eller hverdagslige beskrivelser af symptomer, typisk aktivere andre dele af modellens træningsdata – såsom patientfora – hvilket genererer mindre præcise svar. For hypokonderen og »the worried well« vil kombinationen af mange og upræcise svar åbne en afgrund af nye potentielle bekymringer og sandsynligvis medføre flere henvendelser til lægen. Kvaliteten af svarene forbedres dog markant, når patienten fodrer ChatGPT med deres egne journaldata bestående af tekst og parakliniske svar. Patienten vil kunne benytte sprogmodellen til at indhente en form for second opinion eller sågar bede den om at løse uafklarede sygdomsforløb for derefter at konsultere en læge til at be- eller afkræfte sprogmodellens forslag. En sådan udvikling vil potentielt ændre læge-patient forholdet: Patientens tillid til lægen som diagnostiker vil blive udfordret. Lægen vil i stigende grad skulle forholde sig til patienter, hvis forestillinger om sygdom og forventninger til udredning på godt og ondt er blevet formet af sparring med en sprogmodel. For bedst muligt at møde patienterne og bevare egen faglig integritet bør lægen derfor tilegne sig et minimum af kendskab til sprogmodellernes funktioner. 

Sundhedsvæsenets mangel på tid udfordrer naturligvis sundhedspersonalets evne til empatisk og udførlig kommunikation med patienter. Ikke sjældent har jeg af hensyn til en fuldt booket kalender måttet sende en patient ud af konsultationslokalet i tvivl om, hvor godt patienten egentlig havde forstået mit lægelige råd. Sprogmodellen derimod er ikke begrænset af tid eller menneskelige behov, der påvirker evnen til »at være« sammen med patienten. Har man strøm og internetforbindelse er sprogmodellen nærmest allestedsnærværende, og den bliver ved med at tale med én, til man stopper med at stille spørgsmål. Søger man »ChatGPT-medicine« på diskussionsforumet reddit, kan man læse historier fra mennesker, der efter at have talt med ChatGPT for første gang, oplever at forstå hvad de fejler, eller hvorfor de skal følge en given medicinsk behandlingsplan. Chatbottens konsistente evne til høflighed, validering, balancerede svar og uddybende spørgsmål ville kunne imponere en hårdnakket fortaler for patientcentreret kommunikation. Et noget omdiskuteret men hyppigt citeret studie i JAMA 2023 demonstrerede, hvordan ChatGPT med hensyn til kvalitet og empati udkonkurrerede læger, når det gjaldt om at generere tekstsvar på patientspørgsmål indsendt til et onlineforum [10]. Sprogmodellerne vil kunne hjælpe med at forbedre kvaliteten af tidskrævende opgaver som e-konsultationer og sundhedsedukative indsatser. Lægens forhastede tolinjers svar på henvendelsen fra en bekymret patient ville blive til en ti linjer lang høflig, indfølende besked, og den nysgerrige nydiagnosticerede hjertesyge patient ville kunne konversere med sprogmodellen for bedre at forstå sin lidelse. Med det sagt: Sprogmodeller er gode til at generere tekst, men empati kan ikke reduceres til sprogligt output. Empati forstås i dag typisk som indlevelsesevne, og ordets oprindelse kan spores tilbage til »sindsbevægelse, lidenskab« (græsk). Sprogmodellen mangler bevidsthed og subjektivitet, der er intet sind til at bevæge eller lideDerfor er den ikke i stand til at være empatisk, men kan blot give indtryk af at være det. Dette indtryk af empati kan være nyttigt, og menneskelig kommunikation inden for sundhedsvæsenet er heller ikke fri for at foregive empati. Men mødet med en velvillig og indfølende læge vil forblive uerstatteligt, især for ensomme eller patienter i eksistentiel nød. Skulle sprogmodellen mutere til en fysisk, menneskelignende robot, må antagelsen om Homo sapiens-lægens uerstattelighed som sjælesørger genovervejes. 

Som afrunding på dette essay har jeg givet ChatGPT ordet og bedt den lave en filosofisk slutning med et glimt i øjet. Jeg synes selv, at det er et ganske fint bud – døm selv: 
»Måske vil fremtidens læge ikke længere være den klogeste i rummet, men snarere den, der bedst forstår, hvornår man skal lytte – til både maskine og menneske. Og måske vil vi til den tid indse, at selv den mest avancerede algoritme aldrig helt kan erstatte den varme, tøvende sætning, som starter med: »Hvordan har du det egentlig?«. For selv i en verden af data og diagnoser er det stadig i det menneskelige mellemrum, at lægekunsten lever«.

Referencer

1.                   ChatGPT-4. https://openai.com/ (5. maj 2025)

2.                   OpenEvidence. https://www.openevidence.com/ (5. maj 2025)

3.                   Croskerry P. From Mindless to Mindful Practice — Cognitive Bias and Clinical Decision Making. N Engl J Med. 2013;368:2445-2448 https://www.nejm.org/doi/full/10.1056/NEJMp1303712 (10. maj 2025)

4.                   O'Sullivan ED, Schofield SJ. Cognitive bias in clinical medicine. J R Coll Physicians Edinb. 2018 Sep;48(3):225-232. https://doi.org/10.4997/JRCPE.2018.306

 

5.                   Chen Y, Huang X, Yang F et al. Performance of ChatGPT and Bard on the medical licensing examinations varies across different cultures: a comparison study. BMC Med Educ. 2024;24(1):1372. https://doi.org/10.1186/s12909-024-06309-x

6.                   Katz, U. GPT versus Resident Physicians — A Benchmark Based on Official Board Scores. NEJM AI 2024;1(5) https://ai.nejm.org/doi/full/10.1056/AIdbp2300192 (15. maj 2025)

7.                   Wang J, Redelmeier D. Cognitive Biases and Artificial Intelligence. NEJM AI 2024;1(12) https://ai.nejm.org/doi/full/10.1056/AIcs2400639 (15. maj 2025)

8.                   Zack T, Lehman E, Suzgun M et al. Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study. Lancet Digit Health. 2024 Jan;6(1):e12-e22. https://doi.org/10.1016/S2589-7500(23)00225-X
 

9.                   Blease CR, Locher C, Gaab J et al. Generative artificial intelligence in primary care: an online survey of UK general practitioners. BMJ Health Care Inform. 2024;31:e101102. https://doi.org/10.1136/bmjhci-2024-101102 

 

10.                 Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med. 2023;183(6):589-596. https://doi.org/10.1001/jamainternmed.2023.1838