Aktuelt

Radiologer: Det kræver tid at spare tid med AI

Læger kan spare tid med AI-værktøjer, men kun hvis teknologien ikke indføres over hals og hoved. Det mener forskere fra RAIT, Radiologisk AI Testcenter.

Artikelserie om lægen og AI. Ugeskriftet undersøger, om AI kan levere: tid, kvalitet og empati. Illustration: Creativezoo. Illustration: Creativezoo

Af Antje Poulsen, antje@videnskabogsundhed.dk

29. apr. 2024

11 min.

Kunstig intelligens er her, der og alle vegne som granguirlander og julekugler i december. Og ofte lyder det i den offentlige debat, som om AI er et quickfix mod alle sundhedsvæsenets dårligdomme. Men kunstig intelligens tager tid at indføre. Og det er ikke en naturlov, at AI-værktøjer sparer tid og leverer bedre kvalitet end læger. Det ved radiologerne om nogen, for de er en slags AI-veteraner.

Hele første bølge af kunstig intelligens i sundhedsvæsenet skyllede ind over radiologien først, og forventningerne var store. Kunstig intelligens kunne potentielt sættes ind fra henvisning til behandling, og snart kunne radiologerne undværes, lød det. Sådan er det som bekendt ikke gået. Radiologerne har mere travlt end nogensinde og er efterspurgte som aldrig før, selvom de har taget AI-værktøjer i brug.

Nu ruller anden bølge af AI ind over os med de store sprogmodeller, de såkaldte LLMs (large language models), og forventningerne stiger til nye højder. Men hvordan høster man gevinsterne ved den nye teknologi – og undgår alle faldgruberne? Det har radiologiens »AI-veteraner« deres bud på. Og det handler i høj grad om at afsætte tid til at teste, validere og implementere den nye teknologi og finde en lokal klinisk værdi, som ikke er givet med hverken den europæiske CE-mærkning eller den amerikanske FDA-godkendelse. For det koster tid at spare tid.

Radiologerne har 90% af AI-værktøjerne

Vi finder nogle af »veteranerne« på Radiologisk AI Testcenter, RAIT (Radiologisk Artificiel Intelligens Testcenter) på Bispebjerg og Frederiksberg Hospital i København.

Centeret blev etableret i 2020 af Bispebjerg og Frederiksberg Hospital og Herlev og Gentofte Hospital for at understøtte udviklingen og implementeringen af AI-værktøjer inden for billeddiagnostik.

Flere af forskerne havde beskæftiget sig med AI, længe før centeret blev etableret.

»I modsætning til mange andre kliniske specialer er vi jo ,ramt’ i klinikken af alle de her teknologier. I dag har vi 80-90% af alle de CE- og FDA-godkendte AI-algoritmer i verden og har et fælles dataformat, så vi har øvet os og har en forståelse af, hvordan det er at implementere AI-modeller«, siger professor Mikael Ploug Boesen fra Røntgenafdelingen på Bispebjerg og Frederiksberg Hospital. Han er medstifter af RAIT og sidder i centerets styregruppe.

I den her sammenhæng har han inviteret tre andre medstiftere med og erklærer, at »RAIT er ikke persondrevet – vores forskning er drevet af en fælles forståelse af, at vi skal tænke og arbejde i nye baner, når vi taler om AI, for at få gevinsten ud af det her«.

De tre andre er ph.d.-studerende Mathias Willadsen Brejnebøl fra Bispebjerg og Frederiksberg Hospital og postdoc Felix Christoph Müller og overlæge Michael Brun Andersen fra Afdelingen for Røntgen og Skanning på Herlev og Gentofte Hospital.

De brænder for at dele ud af deres erfaringer og rydde ud i de mest udbredte misforståelser om teknologien. Og så vil de gerne være med til at teste og implementere nye AI-løsninger med afsæt i patientsikkerhed og klinisk værdi.

»Vi vil gerne være garant for, at den teknologi, vi udsætter vores borgere og patienter for, har den forventede effekt, og at de ikke bliver udsat for teknologi, der potentielt kan skade dem«, siger Mikael Ploug Boesen.

Radiologernes erfaring er, at kunstig intelligens kan spare tid og løfte kvaliteten – for eksempel har de været med til at implementere en algoritme som beslutningsstøtte til analyse af røntgenbilleder af knæ for artrose. Den kan beskrive sværhedsgraden af artrose på billederne på specialistniveau, så lægen kan begrænse antallet af patienter, som sendes videre til MR-skanning. På den måde reducerer algoritmen overdiagnostik, sparer tid og løfter kvaliteten. Kunstig intelligens kan altså være en kæmpe gevinst, men det er ikke givet.

AI-værktøjer kan lige så godt koste tid, skabe nye flaskehalse eller komme i karambolage med sundhedsvæsenets arbejdsgange eller it-systemer. Og i værste fald fejle, bringe datasikkerheden i fare eller skade patienterne.

Derfor er radiologerne så ivrige efter at deltage i udrulningen af den nye generation af kunstig intelligens.

Sprogmodeller er »varierende« AI

Den her anden bølge af kunstig intelligens er helt anderledes end den første, og det er vigtigt at forstå, mener RAIT-forskerne. De taler om henholdsvis »fastlåst« og »varierende« AI.

Første bølge af de godkendte AI-modeller i radiologien er »fastlåste«, fordi de er trænet til en bestemt afgrænset opgave som den algoritme, der analyserer røntgenbilleder af knæ. Sådan en algoritme giver samme svar på det samme spørgsmål hver gang.

Anden bølge af AI-modeller er »varierende« og udgør en helt anden type af kunstig intelligens: LLMs benytter mere avanceret maschine learning og er trænet på enorme mængder af data. De bygger på statistiske forudsigelser af det næste mest sandsynlige ord i en sætning ud fra kontekst. Mest kendt er ChatGPT4 og Gemini, men der findes flere.

»Drivkraften kan ikke være personalemangel. Hvis man starter med at bruge den her teknologi et sted, som er særligt ramt af personalemangel, så risikerer man at vælte det hele i løbet af en halv time«Mikael Ploug Boesen, professor

Den her uhyre komplekse AI kan give forskellige svar på det samme spørgsmål, afhængigt af hvordan spørgsmålet formuleres eller »promptes«, som det hedder. Den kan også opfinde noget vrøvl og ændre svar over tid, dels når den opdateres med nye data, dels når den »ældes«, for det gør sådan en model også.

Derfor er det vanskeligt at indføre en godkendelse af LLMs. Den version, der i givet fald får en godkendelse, har allerede ændret sig, når den bliver taget i brug.

»En LLM har i modsætning til de ,fastlåste’, godkendte AI-produkter ikke en ,intended use case’, som definerer forudsætninger, funktioner, og hvordan den skal bruges, og den er heller ikke regulatorisk godkendt til det. Den er ikke CE-mærket. Så spørgsmålet er, om man overhovedet må bruge LLMs i stor stil. Det er en udfordring, som jo ikke er løst. Nogen steder«, siger Mikael Ploug Boesen.

Udviklingen skal ske kontrolleret

RAIT-forskerne er optaget af, at de forskellige modeller og typer af kunstig intelligens skal indføres i sundhedsvæsenet under kontrollerede forhold.

»Vi mangler et generelt accepteret bud på, hvordan man skal bygge et sikkerhedsnet omkring den her teknologi. En LLM kan komme med et forslag til en diagnose, som er korrekt 99 gange ud af 100, men det er ikke sikkert, at nummer 100 er rigtig. Og det er fundamentalt anderledes end klassisk AI-læring fra første bølge, hvor vi kan teste, hvor og hvornår den potentielt fejler«, fortæller Felix Christoph Müller.

»Vi skal passe på, at vi ikke ruller noget ud, fordi der er hype omkring det her eller et politisk pres, og så står med noget, som vi ikke kan trække tilbage«, siger Mikael Ploug Boesen.

»Vi skal afdække lokalt, om teknologien kan indarbejdes i det eksisterende workflow eller kræver ny organisering, nye arbejdsgange eller en ny it-infrastruktur. Og vi skal vide, om den virker efter hensigten, og hvordan vi kvalitetssikrer den over tid, som vi gør med vores skannere og alt muligt andet«, siger Mikael Ploug Boesen.

Han forklarer, at det lokale perspektiv er vigtigt, fordi de kliniske specialer er samlet på få enheder, så patientsammensætningen, sygdomshyppigheden, de socioøkonomiske forudsætninger og patientforløbene er meget forskellige mellem hospitalerne.

»På mange områder kan man ikke med sikkerhed skalere og omsætte en værdi med en AI-model på et sygehus til samme værdi på et andet sygehus – ikke engang inden for den samme region. Og det gælder i øvrigt både med de eksisterende AI-algoritmer og de nye sprogmodeller«.

Inddæmning er vigtigt

AI-toget er et højhastighedstog, og selv nogle af verdens førende AI-udviklere er bekymrede for, om sikkerheden ryger i farten. Blandt andre den nyudnævnte CEO for Microsoft AI Mustafa Suleyman.

»Vi står i det absurde paradoks, at vi skal lukke ånden ind i flasken igen. Motoren bag fremskridtet i de sidste 2.000 år har været opfindelsen, videnskab, kreativitet, handel … nu er vi faktisk nødt til at lære, hvornår og hvordan man siger nej«.

Derfor tales der om inddæmning af teknologien. Inddæmning indebærer overvågning, kontrol og endda at lukke teknologier ned, som enten er under udvikling eller i brug.

RAIT-folkene arbejder også med inddæmning af AI-modeller, hvis de ikke har klinisk værdi.

De arbejder med skarpt afgrænsede AI-projekter, som kan udføres med egne datasæt og under kontrol.

»Vi mangler et generelt accepteret bud på, hvordan man skal bygge et sikkerhedsnet omkring den her teknologi«Felix Christoph Müller, postdoc

Et eksempel er et projekt, hvor en LLM skal hjælpe radiologerne med at visitere henviste patienter til de rette undersøgelser. Den kunstige intelligens skal blandt andet overtage det tidskrævende arbejde med at beskrive nøjagtigt, hvilke skanninger patienterne skal igennem. Det bruger speciallægerne dagligt flere timer på i dag.

»Vi vil se, om vi kan bruge LLM til visitation, i første omgang af patienter, som kommer på mistanke om lungecancer. Vi undersøger, om AI kan afgøre, om patienten opfylder kriterierne for kræftpakkeforløbet. Og om den kan beskrive, hvilken radiologisk undersøgelse patienten skal have. Vi undersøger også, om den i de tilfælde, hvor henvisningen ikke indeholder de relevante oplysninger, kan sende en venlig forklaring til den henvisende læge om, hvad der mangler, og om andre forløb kunne være mere relevante at henvise til«, forklarer overlæge Michael Brun Andersen.

LLM får kun lægens henvisning og de data, som er relevante for skanningerne, og den kan kun trække på de lokale protokoller for, hvordan en patient med en given mistænkt diagnose skal skannes.

Ny teknologi kræver overskud

Selvom forventningen er, at AI kan overtage mange rutineopgaver i sundhedsvæsenet, skal AI-løsninger ikke indføres som et quickfix mod lægemangel, mener Mikael Ploug Boesen.

»Drivkraften kan ikke være personalemangel. Hvis man starter med at bruge den her teknologi et sted, som er særligt ramt af personalemangel, så risikerer man at vælte det hele i løbet af en halv time. Vi skal starte der, hvor der er overskud, for det er både tids- og ressourcekrævende at implementere ny teknologi«.

Og her er vi ved det uundgåelige emne: ressourcer.

Erfaringen fra første bølge med AI – og mødet med andre nye teknologier i øvrigt – viser, at der skal særbevillinger og eksperter til at indføre nye tiltag, lyder det fra de fire RAIT-folk.

»Vi har ikke mulighed for at lave innovation eller implementering af ny teknologi i større skala som en del af driften. Man bliver nødt til også organisationsmæssigt og fondsmæssigt at sende midler i den her retning, til at vi kan øve os, få mere viden om det og implementere AI«, siger Michael Ploug Boesen.

Illustration: Creativezoo

Der skal også være ressourcer til at opretholde nogle af de eksisterende arbejdsgange, mens nye indføres, mener Felix Christoph Müller.

»Vi skal have en eller anden form for parallelitet. Så vi stadigvæk kan sige ,nej’, hvis det nye ikke fungerer. Vi kalder det en ,skyggeimplementering’. Og det kræver flere ressourcer i starten«.

»Hvis vi først sætter en AI til for eksempel at udføre visitation, så går der ikke lang tid, før vi længere ikke selv er i stand til at udføre den arbejdsopgave. Og der er ingen vej tilbage. Så vi skal være sikre på de løsninger, vi indfører«.

Kunstig intelligens kan altså betyde, at læger aflærer færdigheder. En anden afledt virkning er, at læger kommer til at stole mere på AI end på egne evner. Et velkendt fænomen, som kaldes for automation bias.

»Det er vist i flere studier, at hvis du er ekspert og begynder at stole på teknologien, så begynder du også at stole mere på, at den nok har ret i forhold til dig selv, selvom du egentlig er uenig med den«, siger Mikael Ploug Boesen.

Gold rush mod diagnostik

Ofte er der i medierne og fra AI-firmaers side stor fokus på, at AI klarer sig bedre i medicinske eksaminer end de studerende, og at kunstig intelligens kan diagnosticere bedre end lægerne – og potentielt kan erstatte dem. Men det er ifølge radiologerne ikke her, den store gevinst ligger.

»Der har været et ekstremt gold rush mod at løse de diagnostiske opgaver. Men det er faktisk ret svært for en AI at løse den diagnostiske opgave. Og vi er stadig nødt til at have radiologer ind over. Så det er ikke her, den store tidsmæssige gevinst i radiologisk afdeling ligger lige nu. Derfor kigger vi på visitation og i det hele taget en masse andet administrativt, som læger har et kæmpe ønske om at slippe for. Det er mere oplagt at starte her med nogle processer, som AI kan løse selvstændigt og patientsikkert«, siger Mathias Willadsen Brejnebøl.

Der er dog ingen tvivl om, at AI er stærk på medicinsk viden.

»Vi vil gerne være garant for, at den teknologi, vi udsætter vores borgere og patienter for, har den forventede effekt«Mikael Ploug Boesen, professor

»Den seneste version – ChatGPT 4 klarer sig markant bedre på casebaserede spørgsmål i den amerikanske lægeeksamen. Og ser vi på radiologiske eksaminer med multiple choice-cases består version 4 med bravur. Det samme med de japanske radiologiske eksaminer. Så den viden, den har, er på niveau eller overgår menneskelige radiologer«, siger Felix Christoph Müller.

Men én ting er at have adgang til viden, noget andet at bruge den i klinikken.

Sidste år udgav RAIT-forskere et studie, hvor de havde testet fire kommercielt tilgængelige AI-algoritmers evne til at diagnosticere tre af de hyppigste akutte forandringer på røntgen af thorax og sammenlignede dem med den radiologiske rapport fra hverdagen. Studiet viste, at algoritmerne især var gode til at diagnosticere enkelte forandringer og normale billeder, men de klarede sig markant dårligere, når der var mere end én forandring, som der ofte er. Studiet viste også, at radiologerne lavede færre falsk positive svar, bl.a. fordi de kendte patienternes sygehistorie og kunne sammenligne med tidligere billeddiagnostiske undersøgelser, som de nuværende algoritmer ikke kan. Studiet bekræfter, hvad forskerne også har erfaret: at der skal en grundig validering af AI-værktøjer til for at afgøre, om det giver mening at indføre dem.

Men det mangler der fokus på fra politisk hold, mener Mikael Ploug Boesen.

»AI er en gråzone med stort potentiale. Der er ingen midler afsat i klinisk drift til lokal validering og implementering, ingen regulatoriske krav og ingen systemer designet til kvalitetssikring og overvågning af AI-algoritmerne under klinisk drift, når data ændrer sig. Det bliver vi nødt til at have på plads. Og det haster«.

Faktaboks