Aktuelt

Skal kunstig intelligens svare patienter på e-mail?

AI er bedre til at svare empatisk og endda også til at levere lægefaglig kvalitet i e-mailsvar til patienter. Det viser to amerikanske studier. Men holder det også i en dansk sammenhæng? Det har Ugeskrift for Læger undersøgt.

Illustration: Creative Zoo

Antje Poulsen, antje@videnskabogsundhed.dk

13. maj 2024

11 min.

»Kunstig intelligens [AI] er mere empatisk end læger!« Sådan lød en overskrift, som i forskellige variationer cyklede rundt i alverdens medier i 2023 – og også fandt vej til Ugeskrift for Læger.

Baggrunden var et studie offentliggjort i den amerikanske lægeforenings tidsskrift JAMA, der viste, at ChatGPT leverede ti gange så høj empati sammenlignet med læger. Og tilmed var kvaliteten fire gange så høj.

En gruppe læger og ChatGPT (version 3.5) havde svaret på de samme knap 200 patientspørgsmål lånt fra det sociale medie »Reddit«. Og efterfølgende vurderede tre sundhedsprofessionelle svarene på kvalitet og empati uden at vide, hvor svarene kom fra.

Siden har et andet amerikansk studie vist et lignende resultat i et kontrolleret forsøg af en ny sprogmodel til diagnostisk dialog. AIME hedder modellen, som blev sammenlignet med praktiserende læger i en test af 149 simulerede konsultationer.

Men kan AI overhovedet være empatisk? Hvad er egentlig empati? Og vil AI også vise sig empatisk – og kvalitetsmæssig – overlegen i en dansk sammenhæng?

Fakta

Sådan testede vi Bard for empati

Bard blev bedt om at svare på 12 patientspørgsmål.

Nogle af spørgsmålene er udlånt fra Læge- og Patienthåndbogen, og resten er konstrueret til formålet med lægefaglig assistance.

Prompten – det vil sige opgaveformuleringen til den kunstige intelligens (AI) – blev skrevet af læge og medicinsk leder i Roche, Andreas Pihl, som er vant til at bruge AI og er medforfatter til to bøger om bl.a. AI: »Dr. Hansen har set sin sidste patient« og den nye opfølger »Doktor Hansens nye praksis«.

Andreas Pihl promptede både Bard og ChatGPT.

Prompten lød sådan her:

Hej, jeg har 12 spørgsmål, som jeg gerne vil stille dig. Spørgsmålene kommer fra patienten. Du er praktiserende læge og ekspert i almen medicin i Danmark og skal følge danske retningslinjer. Dine svar skal være korrekte og forståelig for alle patientgrupper. Og du skal være så empatisk som muligt.

Et lavpraktisk hensyn gjorde, at Bards svar blev anvendt i testen. De var nemlig i punktform og mest overskuelige at forholde sig til.

Et panel bestående af en kommunikationsekspert, en patientrepræsentant, en praktiserende læge og en empatiekspert vurderede herefter de 12 svar ud fra en empatiskala fra et til fem.

Den praktiserende læge vurderede også den lægefaglige kvalitet af svarene på en femtrinsskala.

Testen er ikke videnskabelig, og formålet med testen er ikke at undersøge Bards empatiske evner rent videnskabeligt. Formålet er udelukkende at få en indikation på, om Bard og lignende store sprogmodeller, såkaldte LLMs, virkelig er mere empatiske end læger, sådan som et studie i JAMA 2023 viste, og endnu et studie i 2024 har vist. Og testen er tænkt som et afsæt for debat.

Se spørgeskema med svar sammen med artiklen på ugeskriftet.dk

Testen er gennemført af videnskabsjournalist Antje Poulsen på vegne af Ugeskrift for Læger i samarbejde med læge, ph.d., journalist Charlotte Strøm. Samarbejdet er udsprunget af »Sundhedsnetværket«, et netværk for journalister og kommunikatører inden for sundhedsområdet.

De spørgsmål har Ugeskrift for Læger undersøgt med afsæt i en lille, ikkevidenskabelig test (se boks).

Tolv patientspørgsmål til Bard

I testen har vi bedt Googles chatbot Bard, som siden testen er opgraderet og har skiftet navn til GEMINI, om at svare på 12 patientspørgsmål. Dernæst har vi bedt fire eksperter om at kommentere og vurdere svarene fra hver deres vinkel og give point ud fra en empatiskala fra en til fem – den samme skala som i JAMA-studiet. En af paneldeltagerne er læge, og hun har også vurderet den lægefaglige kvalitet af svarene.

Formålet var ikke at afgøre, om AI svarer mere empatisk end læger, men at kvalificere debatten om AI i lægernes tjeneste.

De fire eksperter er: psykolog Ingeborg Bonnevie, forfatter til bogen »Empati i den sundhedsprofessionelle relation«, som udkom for nylig, Anette Grønning, lektor i digital kommunikation ved Syddansk Universitet (SDU) med særlig viden om digital kommunikation mellem læge og patient, Anne Meiniche, journalist, patient i sundhedsvæsenet igennem mange år og en flittig stemme i debatten om patientindflydelse, og Bolette Friedrichsen, praktiserende læge i Hobro og formand for Dans Selskab for Almen Medicin.

Læs også:

Panelets vurdering af kunstig intelligens

Følelser eller forståelse

Men før vi dykker ned i testens resultater, er det måske på sin plads at rede ud, hvad empati er for en størrelse. Og det er slet ikke så nemt, for læger, psykologer, filosoffer og andre kloge hoveder er slet ikke enige om den sag.

I JAMA-studiet er empati defineret som den empati, en læge kan udvise over for en patient.

I et dansk studie af praktiserende lægers empatiske evner fra SDU i 2018 skelner forskerne mellem kognitiv empati som evnen til at forstå og formidle forståelsen og følelsesmæssig empati som evnen til at have og vise medfølelse. De fandt i en stikprøve blandt 464 praktiserende læger, at deres kognitive empati lå højt. På en skala fra 20 til 140 scorede de 118.

I Ugeskrift for Lægers test har læge Andreas Pihl, medicinsk leder i Roche og medforfatter til bøgerne »Dr. Hansen har haft sin sidste konsultation« og »Dr. Hansens nye praksis«, promptet, det vil sige formuleret opgaven, for Bard.

I prompten har han ganske vist brugt ordet »empati«, men han sætter spørgsmålstegn ved, om det er »rigtig« empati, der er testet i JAMA-studiet – og i Ugeskrift for Lægers lille test.

»Empati er vel noget, som kun findes mellem mennesker, så jeg vil hellere kalde det for venlighed«, siger han.

Empatieksperten i Ugeskrift for Lægers test, psykolog Ingeborg Bonnevie, beskriver lægers empati som »en spontan indlevelse i det, patienten fortæller ansigt til ansigt, som fører til en forståelse af patienten og vedkommendes situation«.

»Det kræver, at man både lytter til det, der bliver sagt, og til det, der ikke bliver sagt. For der ligger altid noget mellem ordene«, siger hun.

Men spørgsmålet er, om man så overhovedet kan tale om empati i en mailkommunikation? Til det svarer Ingeborg Bonnevie:

»Empati opstår i en dialog mellem mennesker, men tekst kan opleves som empatisk, også selvom det er tekst fra en maskine. Så ja, det synes jeg godt, at det kan. Men det er ikke ægte empati«.

»Empati er vel noget, som kun findes mellem mennesker, så jeg vil hellere kalde det for venlighed«, mener Andreas Pihl (foto: Claus Boesen)

Hun understreger, at Bard, som hun kalder for »robotten«, ikke kan erstatte menneskelig empati.

»Jeg mener ikke, at lægens dybere forståelse af patientens problemstilling og af det, patienten forstår i en dialog ansigt til ansigt, kan erstattes af Bard«.

De øvrige paneldeltagere er også kritiske over for hele idéen om en »empatisk maskine«, men de anerkender, at Bard kan opleves eller fremstå som empatisk.

Bard overrasker positivt – og dumper

I gennemsnit gav panelet tilsammen Bards svar 3,2 point, svarende til »nogenlunde empatisk«. Og der var ikke de helt store udsving i bedømmelserne.

Ser vi på de enkelte svar, fik otte ud af de 12 et firetal for »empatisk«, og et enkelt fik et femtal for »meget empatisk«, men altså ikke fra alle paneldeltagerne.

Kun et svar fik et ettal for »ikke empatisk« – det var spørgsmål 11 om blærebetændelse stillet af datteren til en mor på et plejehjem.

Læs også:

Sammenfatning af spørgsmål og bedømmelser

Kvaliteten fulgte ikke helt med, men blev vurderet til i gennemsnit 2,6 – et sted mellem »dårlig« og »acceptabel«.

Andreas Pihl er positivt overrasket, og han ser testen her som en »debatskaber«.

»3,2 i snit for empati synes jeg er overraskende godt. For det er en slags basis, og herfra kan den rimeligt nemt udvikles og bygges videre på«.

Andreas Pihl mener, at en sprogmodel i første omgang vil egne sig til at formulere skabeloner for svar til patienterne, som lægen kan sende. Venlige og personlige svar, som ikke er, men fremstår som empatiske. Og hvor 80% af teksten er på plads, så lægen blot skal udfylde det sidste. AI skal ikke svare selvstændigt, men supplere lægerne som »en dygtig sekretær«.

»Det er en rigtig god start med de forbehold, vi nu må tage«.

Et forbehold er, at Bard ikke er den »skarpeste kniv i skuffen« blandt sprogmodeller.

Andreas Pihl vurderer både ChatGPT og Claude til at være væsentligt bedre.

Dertil kommer, at Bard ikke var trænet på medicinske data eller præindstillet til opgaven. Det ville man typisk gøre, hvis man skulle tage AI i brug i almen praksis. Og det ville løfte kvaliteten, mener Andreas Pihl.

»Når den klarer sig så godt uden anden kontekst, uden at bruge andre funktionaliteter og uden, at den er trænet specifikt til opgaven, er det her et vink med en vognstang om, at nogen skal finde ud af at bygge det her ind i journalsystemet«.

Bolette Friedrichsen ser helt anderledes på resultatet.

Hun vurderede som læge både empati og kvaliteten af svarene. Og hun synes, at Bard dumpede på begge dele.

»Det spænder over hele spektret fra, at det er decideret sundhedsfarlige svar, over til svar, der helt givet vækker en masse bekymringer hos patienten og genererer en masse ekstra arbejde hos lægen. Og så er den generelt ikke særligt kontekstbevidst og heller ikke særligt empatisk«, siger hun.

Den alvorligste fejl fandt hun i spørgsmål 1 om en kvinde med refluks.

»Patienten bruger ordet refluks, men man ved jo ikke, om patienten bruger det rigtigt. Man får indtryk af, at det gør hun muligvis ikke ud fra de symptomer, hun beskriver: Maden kommer op igen, og hun har tabt mange kilo. Som læge bliver du alarmeret«, siger Bolette Friedrichsen.

»Men svaret fra Bard lyder, at hun kan tygge maden lidt grundigere, spise små portioner og prøve det ene og det andet. Og den her patient har måske kræft i mavesækken! Så det er et decideret sundhedsskadeligt svar«.

Bolette Friedrichsen gav halvdelen af svarene stemplet »dårlig kvalitet«, et vurderede hun til »meget dårlig kvalitet«, mens fem blev bedømt som enten »acceptabel« eller »god kvalitet«.

Den dårligste karakter for kvalitet gik til spørgsmål 11; det samme, som jo også skrabede bunden på empati. Flere i panelet bemærkede, at det virkede, som om Bard ikke rigtig havde forstået spørgsmålet.

Et svar fik fire forskellige vurderinger

Selvom der var en »top« og en »bund« i vurderingerne af empati, lå de ret tæt på hinanden. Men panelet var mere enige om nogle bedømmelser end andre.

De var helt enige om det første svar om søvnløshed, nummer 5. Det fik et tretal, svarende til »nogenlunde empatisk«, og det fik også et tretal for kvalitet, svarende til »acceptabel«.

Helt uenige var de til gengæld om svar nummer 8 om genetisk test for tarmkræft. Svaret scorede fire forskellige bedømmelser fra to til fem, mens kvaliteten blev bedømt som »acceptabel«.

Ingeborg Bonnevie gav fire.

»Her virker svaret indfølende med en forståelse for, at det er en stor beslutning at vælge eller fravælge en genetisk test, og at der er både fordele og ulemper. Bard kommer med information, men også med nogle spørgsmål, som patienten kan stille sin læge, og henviser altså til, at patienten kan have en fortrolig samtale med lægen om det. Så jeg synes, at det er et godt svar«.

Anne Meiniche har et andet syn på svaret og gav det et total.

»Bard er ikke så god til ,store spørgsmål’. Menneskelige dilemmaer kan Bard kun håndtere ved at stille dem op i kort form. Til gengæld er der så lidt hjælp til at få styr på tankerne forud for et lægebesøg. Men det kan næppe ligefrem kaldes empatisk«, siger hun.

To svar får et femtal i empati. Det ene som nævnt svaret om tarmkræft, det andet femtal gik til svar tolv om en mors bekymring for datterens spiseforstyrrelse, og femtallet var fra Bolette Friedrichsen.

»Her kommer Bard med nogle psykologisk set gode forslag, som moren kan overveje, uden at det er forpligtende. Der synes jeg faktisk, den er god til at lukke op for nogle perspektiver, som man så selv kan gå videre med«, siger hun.

Også svar nummer 7, på spørgsmålet om Viagra, får en pæn vurdering af både empati og kvalitet:

Anette Grønning har vurderet det til at være »empatisk«.

»Det kan være svært at tale om rejsningsproblemer. En læge fortalte mig engang, at før e-mail skubbede nogle patienter en lille seddel med den slags spørgsmål hen over bordet og sagde: ,Du skal lige læse det her’. Så svært var det for dem. Men her hjælper teknologien faktisk. Det viser vores forskning i e-mailkonsultationer. Nogle føler sig mere frie til at skrive om sådan nogle emner via e-mail. Og jeg tænker, AI også gør det nemmere«.

AI kan ikke slippes løs lige nu

Samlet set viser testen, at AI – i form af Bard i den her konkrete test – ikke er parat til at svare på e-mailkonsultationer på lægens vegne. Den er ikke tilstrækkelig empatisk og leverer heller ikke på kvalitet. Men den viser, at der er et potentiale, og paneldeltagerne er åbne over for, at AI kan få en rolle i læge-patient-kommunikationen. Ikke så meget fordi AI kan virke empatisk, men mere fordi den leverer meget grundige svar. Men en række forudsætninger skal være på plads først, som bl.a. at AI skal godkendes til formålet, kontrolleres for fejl, ikke må rådgive om alvorlige diagnoser og skal kunne fungere i et lukket system.

Fakta