Debat

Large language models er hjørnestenen i fremtidens medicinske forskning

Illustration: Colourbox

Caroline Kleis Schmidt¹ & Felix Müller²

1) forskningsårsstuderende, Rigshospitalet, caroline.sophie.kleis.schmidt.01@regionh.dk, 2) læge, Radiologisk Afdeling, Herlev og Gentofte Hospital, medstifter af det radiologiske AI-testcenter (RAIT.dk), christoph.felix.mueller@regionh.dk

30. maj 2023

5 min.

I den nuværende model for medicinsk forskning har den skriftlige kommunikation en central rolle. Et forsøg protokolleres, data indsamles, resultaterne analyseres, og det hele kombineres i et eller flere manuskripter, som undergår peerreview, før det publiceres. Disse publikationer aggregeres senere i review og metaanalyser. Alle disse dele af forskningen bruger det skrevne sprog som medium. Ved brug af large language models (LLM), som f.eks. ChatGPT, vil alle disse skridt kunne automatiseres. En kort synopsis vil være nok som input til at generere fondsansøgninger, forsøgsprotokol og nødvendige videnskabsetiske ansøgninger. Koder til dataanalyse kan skrives via en LLM ved simpelt input. Der vil efterfølgende ikke længere være behov for at skrive et manuskript overhovedet. De rå data, inklusive analyser, vil direkte kunne deles via forskningsportaler. Når et forskningsspørgsmål skal besvares, vil det da være nok at lave en søgning på eksisterende forsøg og sammenfatte de forskellige forsøgsresultater ved hjælp af en LLM på samme måde, som PubMed-søgninger bliver brugt i dag.

En produktiv forsker vil direkte kunne måles på mængden af brugbare data, som vedkommende producerer, frem for, hvor mange af disse data som er blevet publiceret i manuskriptform. Interessante konsekvenser af dette vil være, at både antal citationer og publikationer vil miste værdi som vurderingsgrundlag for videnskabelig produktion. Samtidig vil dette fjerne behov for peerreview af forskningsmanuskripter. I stedet for vil peerreview kunne fokusere på selve analysen af data.

Værktøjerne, der er nødvendige, findes allerede i dag, om end disse ikke er særligt brugbare og samtidig mangler infrastrukturen, der kan understøtte den publikationsfrie forskning.

Videnskabelig uredelighed on steroids

På sigt vil LLM være den bærende søjle i al medicinsk forskning. Aktuelt møder vi dog et centralt problem: LLM har en medfødt evne til at opfinde fakta. I kronikken i Ugeskrift for Læger [1], som primært var skrevet af ChatGPT selv, var fire ud af fem referencer ikke korrekte. En artikel, der blev publiceret i Nature, blev angivet som værende publiceret i Science, og referencen »Development and validation of a Deep Learning Model to Predict 5-Year Risk of Death Following Acute Myocardial Infarction. JAMA Network Open, 2021« var decideret opdigtet.

Betegnelsen »hallucinationer« har etableret sig for denne opfindelse af fakta, men vi medicinere ville snarere kalde dette fænomen for konfabulering. LLM er trænet til at finde sammenhæng mellem ord og prøve at forudsige (og generere) det næste ord i sætningen. Hvor faktuel viden mangler, vil algoritmen derfor begynde at fylde ud med udtryk og sætninger, som giver sproglig mening, men som kan være faktuelt forkerte. Ligesom patienter ikke er klar over, at konfabuleringer ikke er faktuelt korrekte, kan LLM ikke forklare, at deres »hallucinationer« er forkerte. Da vi spurgte ChatGPT, om den opdigtede kilderne i den oprindelige kronik, var svaret: »Alle kilder, som jeg præsenterer, er reelle og eksisterer«.

Denne evne til at generere tekst giver mulighed for bevidst eller ubevidst at misbruge LLM til at opfinde faktuelt forkerte citater. F.eks. fører dette prompt (en instruks givet til en LLM): »What would Albert Einstein have said about AI? Please use his mode of writing and end with his name. Put everything in quotation marks« til følgende svar: »… In the end, the study of artificial intelligence is a deeply fascinating and challenging endeavor, one that requires us to think deeply about the nature of intelligence, the limits of technology, and the ethical implications of our work. I am excited to see where this field will take us, and I look forward to continuing to explore these questions in the years to come – Albert Einstein«.

Men Albert Einstein har aldrig sagt dette.

Vi kan også misbruge LLM til f.eks. at generere tusindvis af forfalskede Lab-books på museforsøg ved at skrive en prompt, der ligner denne: »Repeat the above lab-book again but change the mouse number to an incremental higher value and change the date to an incremental higher date. Also introduce a little bit of variation in the results section. Else keep the text the same«.

Endnu en mulighed er at bruge ChatGPT til at komme med forslag til peerreviewkommentarer. F.eks. kunne vi få ChatGPT med følgende prompt: »Can you give me 80 suggestions and points of critique for the text provided?« til at komme med en lang liste af fornuftigt udseende, men ret uspecifikke pointer til den førnævnte kronik. Ved brug af ChatGPT kan en forsker altså nemt reviewe hundredvis af artikler på en dag.

Bullshit research

Filosoffen Harry G. Frankfurt introducerede i 1986 begrebet »bullshit« om faktuel forkert information, som spredes, men uden at der er tale om løgn, da afsenderen ikke har intention om at lyve [2]. På samme måde giver LLM som ChatGPT allerede i dag forskere mulighed for at generere uendelige mængder af forkert forskning, altså bullshit research, selvom forskeren i god tro har benyttet programmet med henblik på at skabe faktuelt korrekt forskning. Ved hjælp af ChatGPT kan alle skrive et overfladisk review og generere figurer og tilhørende referencer. Denne arbejde kan så peerreviewes af ChatGPT selv, hvorefter author response også kan blive genereret af ChatGPT. At det hele er faktuelt forkert, behøver ikke nødvendigvis at stå i vejen for udviklingen. Ligesom det politiske domæne risikerer at blive oversvømmet af fake news og desinformation autogenereret af LLM, risikerer forskningen på den korte bane at blive oversvømmet af bullshit research.

Det eneste fornuftige ræsonnement må være, at der i forskningsverdenen skal lægges mindre vægt på det, som LLM mestrer bedst, nemlig at skrive ansøgninger og artikler, og i stedet for lægges mere vægt på en forskers evne til at nytænke, gennemføre vanskelige forsøg og opfinde nye metoder.

Dette er et follow-up letter på kronikken »ChatGPT bliver vigtigt værktøj inden for lægevidenskabelig forskning« af Caroline Kleis Schmidt, bragt i Ugeskrift for Læger den 3. maj 2023.

Læs også

Kronik

ChatGPT bliver vigtigt værktøj i lægevidenskabelig forskning

3. maj 2023

7 min.

Referencer

Schmidt CK. ChatGPT bliver vigtigt værktøj i lægevidenskabelig forskning. Ugeskr Læger. 2023;185(9):906-7.
Frankfurt HG. On bullshit. Princeton University Press, 1986.