Originalartikel

Sprogmodeller i sundhedsforskningens tjeneste: bedre etik, mindre byrde

Kunstig intelligens i sundhed – eksempler på danske AI- løsninger

Fordele og ulemper ved samtykkeprocessen i 1) sin nuværende og 2) en mulig fremtidig AI-støttet form

Af Sebastian Porsdam Mann

3. mar. 2026

21 min.

På nuværende tidspunkt må enhver læge have hørt om generativ AI og tænkt over dens anvendelse i klinikken. Så stort et potentiale, men også så store risici! Den hurtige fremkomst af værktøjer som ChatGPT, Claude og specialiserede medicinske AI-systemer har udløst intens debat om deres passende rolle i sundhedsvæsenet. Alligevel, mens de fleste diskussioner har centreret sig om kliniske anvendelser, forbliver et lige så afgørende domæne underudforsket: etikken omkring generativ AI’s anvendelse i medicinsk forskning og videnskabeligt arbejde bredere set. Denne lakune er betydelig, fordi forskning udgør fundamentet, som al klinisk praksis ultimativt hviler på. Hvordan vi skaber, validerer og formidler medicinsk viden, former ikke blot individuelle patientresultater, men selve medicinens udviklingsbane.

De etiske overvejelser for AI i medicinsk forskning adskiller sig fra dem i klinisk praksis og kræver særskilte rammer og tilgange. I kliniske sammenhænge eksisterer det primære forhold mellem læge og patient med umiddelbare konsekvenser for individuelle sundhedsresultater. Forskningsetik omfatter derimod en bredere konstellation af interessenter: hovedforskere, forskningsdeltagere, fagfællebedømmere, finansieringsorganer, tidsskriftsredaktører og i sidste ende nuværende og fremtidige generationer af patienter, som vil drage fordel af eller blive skadet af den producerede viden.

For at maksimere fordelene og minimere skaderne ved anvendelsen af denne magtfulde teknologi må vi trække på multiple perspektiver og rammer – ikke blot de traditionelle biomedicinske principper om velgørenhed, retfærdighed, og autonomi [1], men også relevante menneskerettighedsperspektiver. Disse inkluderer retten til sundhed, som fastsat i artikel 12 i Den Internationale Konvention om Økonomiske, Sociale og Kulturelle Rettigheder, der kræver, at stater sikrer »det højest opnåelige niveau af fysisk og mental sundhed « – en ret som medicinsk forskning direkte understøtter gennem udvikling af nye behandlinger og forbedret forståelse af sygdomsmekanismer. Lige så relevant er retten til at deltage i og nyde godt af videnskabeligt fremskridt, som fastsat i artikel 15 i samme konvention [2]. Disse rettigheder skaber både et imperativ for at fremme medicinsk forskning og en forpligtelse til at sikre, at dens fordele distribueres bredt og retfærdigt.

Ud over at sætte afgørende standarder for ansvarlig implementering gør disse rettigheder og princippet om velgørenhed det klart, at der eksisterer en pro tanto moralsk forpligtelse, dvs. en forpligtelse der gælder alt andet lige og kan begrænses af konkurrerende hensyn, til også at tage højde for det positive potentiale ved denne teknologi – naturligvis afbalanceret mod risiciene, men ikke, som alt for mange tror, kun med fokus på de negative aspekter. Denne forpligtelse til at overveje både muligheder og risici står i kontrast til tilgange, der primært fokuserer på risikominimering, som eksempelvis EU’s nye AI-forordning, der hovedsageligt kategoriserer og regulerer baseret på risikoniveauer [3]. I den medicinske kontekst er dette fokus forståeligt, fordi medicinsk forskning traditionelt er struktureret omkring beskyttelse mod skade og respekt for individuelle rettigheder. Inden for allerede accepterede etiske og regulatoriske rammer kan der imidlertid også opstå etisk problematiske konsekvenser ved systematisk at undlade at realisere betydelige og realistiske fordele. Når teknologi har potentiale til dramatisk at accelerere udviklingen af livreddende behandlinger, demokratisere forskningskapaciteter, og forbedre kvaliteten af videnskabelig evidens, bliver det etisk problematisk kun at fokusere på forebyggelse af skade uden samtidig at facilitere realiseringen af disse fordele.

Lige så vigtigt som disse normative rammer er substantiel teknisk forståelse af moderne AI-systemers kapaciteter og begrænsninger. Uden denne trefoldige tilgang (etik, teknik, og ret) risikerer vi betydelig misforståelse og spild af velmenende indsats. Etiske retningslinjer uden teknisk forståelse kan føre til urealistiske krav eller oversete kritiske sårbarheder. Teknisk ekspertise uden etisk refleksion kan producere kraftfulde værktøjer, der undergraver forskningsintegritet eller forstærker eksisterende uligheder. Juridiske rammer uden kendskab til teknologiens faktiske funktion kan resultere i regulering, der enten kvæler innovation eller fejler i at beskytte mod reelle risici.

Særligt den tekniske forståelse er afgørende på grund af den ekstraordinære udviklingshastighed inden for generativ AI. Mange brugeres praktiske kendskab til generativ AI er i dag formet af dagligdags anvendelser, som ikke nødvendigvis afspejler den hastige tekniske udvikling i feltet. Dog har teknologien allerede udviklet sig dramatisk. Moderne systemer demonstrerer kapaciteter, der var utænkelige for blot to år siden: autonome forskningsagenter, der kan designe og udføre eksperimenter [4], chain-of-thought reasoning, hvor sprogmodeller guides via mellemliggende logiske skridt for at løse komplekse problemer [5], og retrieval-augmented generation [6], der dramatisk reducerer problemet med AI-hallucinationer. For at fremme både etisk ansvarlig og videnskabeligt produktiv integration af disse værktøjer vil denne artikel give et overblik over nogle af de mere avancerede tekniske fremskridt inden for generativ AI – men altid i lyset af, hvordan disse kan anvendes og er blevet foreslået anvendt til at fremme normative mål for medicinsk forskning.

Informeret samtykke

Et af de vigtige områder, hvor generativ AI kan forbedre medicinsk forskning, er måske lidt kontraintuitivt. Det handler ikke om avancerede analyser eller molekylær modellering, men om selve forudsætningen for al etisk forskning: samtykkeprocessen. I teorien er informeret samtykke designet til at respektere deltagernes autonomi og forhindre medicinske forskningsovergreb som dem, der har plaget historien – fra Tuskegee-syfilisstudiet til de nazistiske lægeeksperimenter, der førte til Nürnberg-kodekset. Dette er utvivlsomt et værdigt mål, fundamentalt for forskningsetikken. Men som enhver forsker ved, lever virkeligheden sjældent op til idealet.

Den ubehagelige sandhed er, at informeret samtykke ofte er blevet reduceret til en bureaukratisk øvelse, der tjener mere som juridisk ansvarsfraskrivelse end som meningsfuld dialog. Forskningsdeltagere præsenteres for dokumenter på dusinvis af sider, fyldt med teknisk terminologi og juridiske forbehold, som de fleste skimmer på få minutter før underskrift. Selv når forskere har de bedste intentioner, er udfordringen enorm: Hvordan forklarer man komplekse videnskabelige protokoller til lægfolk? Hvordan kommunikerer man usikkerhed og risiko uden at skræmme eller forvirre? Og i tilfælde som biobanking, hvor prøver kan bruges til endnu ukendte forskningsformål årtier frem, hvordan opnår man meningsfuldt samtykke til fremtidige anvendelser, som hverken forsker eller deltager kan forudse? [7].

Disse udfordringer forværres af praktiske begrænsninger. Forskere har simpelthen ikke tid til at bruge timer på dybdegående samtaler med hver enkelt potentiel deltager. Samtidig er de informationsmaterialer, der anvendes i samtykkeprocessen, typisk statiske og standardiserede, hvilket gør det vanskeligt i praksis at tilpasse informationen til deltagere med forskellige forudsætninger, fokuspunkter og bekymringer. Rekrutteringsmål skal nås, budgetter overholdes, og studiets videnskabelige arbejde venter. Resultatet er en strukturel udhuling af samtykkeprocessen, hvor den i praksis reduceres til en afkrydsningsøvelse, der opfylder regulatoriske krav uden at realisere sit etiske formål. Denne udhuling er ikke udelukkende forskernes skyld, men et strukturelt problem, der kræver strukturelle løsninger.

Det er her, generativ AI har enormt potentiale. Allen et al. [8] foreslår at bruge sprogmodeller som samtaleagenter til at supplere (og i afgrænsede tilfælde delegere) samtykkeproceduren forud for forskning – med en tydelig rollefordeling, hvor den behandlingsansvarlige læge fortsat bærer det endelige ansvar. I modsætning til »klik‑igennem«‑samtykke tilbyder en large language model (LLM)‑agent en dialogisk formidling, der kan tilpasse forklaringsniveau, ordvalg og rækkefølge til den enkelte deltagers forudsætninger og spørgsmål, indbygge opmærksomhedstjek og forståelseskontroller samt levere fuld transskriptionsdokumentation til journal og kvalitetskontrol. Foreløbige data peger på en kortere samlet gennemløbstid fra påbegyndt samtykkeproces til fuldført samtykke sammenlignet med konventionelle procedurer [9]. I en forskningskontekst er denne tidsreduktion ikke blot et spørgsmål om administrativ effektivitet, men kan have selvstændig etisk betydning, idet unødvendige forsinkelser i rekruttering og datagenerering kan forsinke udvikling og implementering af viden med konsekvenser for patienters sundhed og velfærd. I en forskningskontekst kan dialogbaserede AI-værktøjer fungere som et supplement i rekrutterings- og samtykkeprocessen ved at understøtte forståelig, tidsubegrænset og dokumenterbar informationsformidling. Anvendelsen forudsætter robuste og afgrænsede datagrundlag, tydelige fallback-mekanismer til menneskelig opfølgning samt klare ansvarslinjer; men under disse betingelser er det ikke urimeligt at antage, at sådanne værktøjer kan styrke autonomifremmende informationsudveksling sammenlignet med mange nuværende praksisser. Sådanne systemer kan implementeres på måder, der enten svækker eller styrker tillid og relation: anvendt som fuld erstatning for menneskelig kontakt risikerer de at underminere samtykkets relationelle og tillidsbaserede dimensioner, mens de som supplement kan frigøre tid til de aspekter af dialog og vurdering, der mest gavner af menneskelig interaktion [10].

Demostrated consent i biobanking: et dynamisk samtykke, hvor en biologisk prøve knyttes til et digitalt ID, som løbende opdateres med information om hvordan prøven faktisk anvendes til forskning, herunder links til publikationer

Hvor Allen et al. primært adresserer formatet for en enkelt samtykkehændelse, retter Barnes et al. [7] fokus mod, hvordan samtykket udfolder sig over tid i biobanking. De introducerer begrebet »demonstrated consent« som en videreudvikling af dynamisk samtykke, hvor hver biologisk prøve knyttes til en digital identifikator, der løbende opdateres med information om, hvordan prøven faktisk anvendes i forskning, herunder relevante protokoller, godkendelser og publikationer. Via en AI-baseret grænseflade kan disse oplysninger gøres tilgængelige for deltageren i en forståelig form og danne grundlag for løbende dialog om studier, præferencer, afgrænsninger og eventuel tilbagetrækning af samtykke [7]. I praksis antages dette for at reducere behovet for hyppig rekontakt og dermed consent fatigue samtidig med, at deltagere når som helst kan orientere sig om det egentlige brug af deres data og justere præferencer. Resultatet er, at et samtykke, der som udgangspunkt er bredt åbent for videre brug af data, kan gøres dybt informeret [confere (cf) 11] i praksis, uden at pålægge hverken deltagere eller forskere urealistiske, gentagne samtykkeforhandlinger [7].

Der opstår særlige etiske vanskeligheder, når deltagere mister beslutningskompetence. Earp et al. [12] foreslår her en Personalized Patient Preference Predictor (P4): en sprogmodel, der trænes videre »finjusteres« på personspecifikke data (såsom tidligere behandlingsvalg, journalnotater, egne tekster, samtaler med sundhedspersonale m.m.). Idéen er, at således personliggjorte sprogmodeller [cf 13] kan understøtte substitueret beslutningstagning ved at forudsige, hvad personen selv sandsynligvis ville have valgt. Forslaget er på nuværende tidspunkt konceptuelt og kontroversielt. En eventuel implementering forudsætter prototyper og komparative studier mod menneskelige stedfortrædere, men forslaget angriber et reelt, veldokumenteret problem: at pårørendes gæt om patienters præferencer ofte ikke er meget bedre end tilfældigt og samtidig er psykisk belastende [cf 14]. Indsat bevidst som supplement (ikke erstatning) til klinikere og pårørende kan P4 således styrke respekten for personens (forhenværende) autonomi og hjælpe med at aflaste pårørende [15].

Naturligvis rejser disse teknologier deres egne etiske spørgsmål. Hvordan sikrer vi, at AI-medieret samtykke ikke bliver subtilt manipulerende? Hvordan håndterer vi digitale uligheder, der kan ekskludere visse befolkningsgrupper? Disse bekymringer må vejes mod den nuværende virkelighed, hvor informeret samtykke ofte er en illusion – en juridisk formalitet, der sjældent hverken informerer eller sikrer ægte samtykke.

I dette afsnit har vi fremhævet, at informeret samtykke er en stærk idé med svag praksis: Det skal beskytte deltagernes autonomi og værdighed, men ender ofte som en hastet, formelt korrekt, men reelt uoplyst procedure. Generative samtaleagenter er blevet introduceret som et middel til at genetablere den dialogiske, dokumenterbare og personligt afpassede oplysning, som idealet kræver. Pointen er ikke at erstatte klinikeren, men at styrke processen og højne bundniveauet under klare ansvarslinjer. Den samme diagnose og det samme reformspor kan – og bør – anvendes på forskningens anden beskyttelsesmekanisme: hvordan studier udformes og godkendes, før nogen bliver inkluderet.

Anvendelsen af standard sprogmodeller (som ChatGPT) versus anvendelsesspecifikke modeller (RAG-modeller), der har adgang til et kurateret dokumentlager under tekstproduktionen, og derfor opnår mere troværdige svar

Design og godkendelse

Hvor samtykke beskytter den enkelte, skal protokoldesign og etisk godkendelse beskytte grupper af deltagere og den videnskabelige værdi af studiet; svagheder her kan ikke opvejes af selv den bedst gennemførte samtykkesamtale.

Set i det lys bliver forslagene om anvendelsesspecifikke sprogmodeller særligt interessante. Med »anvendelsesspecifikke« menes ikke en generel chatbot, men en model, der er tilpasset netop én opgave og dens normer: Den finjusteres på domænespecifikke data og får kontrolleret adgang til de relevante dokumenter via retrieval‑augmented generation, det vil sige opslag i et kurateret dokumentlager under selve tekstproduktionen. Pointen er jordnær: Ambitionen er ikke at opfinde nye standarder, men at gøre de eksisterende lettere at omsætte korrekt og ensartet – og dermed at forebygge de almindelige fejl, som gang på gang svækker studiers værdi [16].

Videnskabsetisk behandling af protokoller i sin nuværende form og en foreslået AI-assisteret form

Liddicoat et al. [17] beskriver dette greb for kliniske forsøgsprotokoller. De foreslår en trinvis, institutionelt forankret implementering: Først udvikler myndighederne grundmodeller, der er trænet på gældende regler, metodevejledninger og læring fra godkendte og afviste protokoller; derefter tilpasses de regionalt af sundhedsteknologivurderingsenheder til lokale praksisser og omkostningsdata; til sidst bliver disse modeller også tilbudt direkte til anvendelse af forskere og sponsorer, når disse skal skrive protokoller og ansøgninger. Den tilsigtede effekt er ikke at erstatte forskernes egen etiske refleksion, men at flytte velkendte normer og krav tidligere ind i processen, så forskere støttes i at identificere mangler, inkonsistenser og velkendte designproblemer på et tidligt tidspunkt. Modellen kan således bidrage til klarere inklusions- og eksklusionskriterier, synliggøre potentielle skævheder i rekruttering og pege på behov for mere konsistente planer for sikkerhedsmonitorering. Resultatet er formentlig ikke fejlfrie forsøg, men færre protokoller, der snubler over forudsigelige problemer, og dermed et bedre udgangspunkt for både forskerens videre refleksion og den efterfølgende etiske vurdering.

Et parallelt argument gælder for selve den videnskabsetiske vurdering. Det såkaldte Chat Institutional Review Board (IRB) »Chat‑IRB«-forslag [18] skitserer videnskabsetisk komitéspecifikke sprogmodeller, der ikke er tænkt som dommere, men som specialuddannede assistenter. De finjusteres på den enkelte komités materiale – lokale politikker, tidligere afgørelser, standardbreve og mødereferater – og får adgang til gældende lovgivning, nationale vejledninger og institutionelle manualer via samme dokumentopslagsteknik. I praksis tænkes en sådan model at kunne afhjælpe de mest ressourcetunge og inkonsistente led: forhåndsscreening for fuldstændighed og tydelige uoverensstemmelser, forslag til begrundede kategoriseringer (f.eks. om en sag bør behandles via fremskyndet/ekspederet etisk vurdering (expedited review) snarere end fuld komitébehandling, eller om den falder uden for anmeldelsespligt, identificering af afvigelser fra lokale præcedenser og udarbejdning af et resumé, der kan danne et klart udgangspunkt for den menneskelige behandling. Fordi modellen er trænet på netop denne komités sprogbrug, vurderinger og dokumentpraksis, og kun trækker på et kurateret korpus af relevante dokumenter, antages den at være både mere korrekt og kontekstfølsom end generelle sprogmodeller. Det afgørende princip er en eksplicit arbejdsdeling: klart afgrænsede, lavrisikoopgaver kan automatiseres under løbende kvalitetskontrol og stikprøvevis efterprøvning, mens normative afvejninger, grænsetilfælde og endelige afgørelser forbliver menneskelige og fuldt ansvarsbærende.

Denne måde at bringe generativ AI ind i forskningens »maskinrum« adresserer to velkendte svagheder. For det første variation og flaskehalse: meget tid går tabt, når ansøgninger eller protokoller rettes sent – og forskelligt – på tværs af enheder [19]. For det andet dokumentation og læring: Når udbedringer, faglige begrundelser og kildehenvisninger genereres og gemmes systematisk, bliver det enklere at skabe institutionel hukommelse og ensartet praksis over tid. Der er naturligvis væsentlige forbehold. Modeller kan arve skævheder fra deres træningsdata, og automatisering kan skabe en tendens til overtillid. Netop derfor er designkravene konstitutive: kuraterede vidensbaser; gennemsigtighed om, hvilke dokumenter en given vurdering bygger på; og procedurer, hvor menneskelig uenighed med modellens udkast ikke bare er tilladt, men forventet og anvendes som læring tilbage i systemet. Under disse betingelser er målet ikke at reducere dømmekraft, men at bruge AI til at sikre, at dømmekraften bringes i spil dér, hvor den gør størst forskel.

Forfatterskab og ansvar

Hvad betyder det at være forsker, når en maskine kan skrive dine artikler, analysere dine data og endda foreslå dine hypoteser? Dette spørgsmål, som for få år siden virkede som science fiction, konfronterer nu medicinske forskere. Den eksistentielle usikkerhed strækker sig fra praktiske karrierebekymringer til dybtgående spørgsmål om videnskabelig kreativitet. Når en yngre forsker bruger AI til at generere en litteraturgennemgang på timer frem for uger, fortjener hun så samme anerkendelse som hendes mentor, der brugte måneder på lignende arbejde? Når et AI-system identificerer et lovende lægemiddelmål, hvem kan så tage æren – eller skylden, hvis det fejler – og hvordan krediteres bidraget af AI?

Hvem kan tage æren for et forfatterskab, og det tilhørende ansvar for videnskabeligt indhold? Den traditionelle praksis er skitseret overfor ansvarsfordelingen i tilfælde hvor der er anvendt kunstig intelligens i den videnskabelige proces

Filosoffer har i denne sammenhæng peget på et fænomen, der på engelsk bliver kaldt »the credit-blame asymmetry« [20]. Denne består i, at mennesker, der bruger AI i deres arbejde, stadig bærer fuldt ansvar for eventuelle fejl, men modsat kun modtager formindsket anerkendelse for positive resultater [21]. Samtidig eksisterer der en mere generel normativ skævvridning, hvor bidrag, der kan beskrives som eksplicit menneskelige og metodisk transparente, vægtes højere end bidrag, der i væsentlig grad er medieret af AI, også når den intellektuelle styring og kvalitetskontrol fortsat ligger hos forskeren.

En forsker, der bruger AI til at identificere nye sammenhænge i genomiske data, kan finde sin opdagelse nedvurderet som »blot computerassisteret«, mens enhver fejl i analysen udelukkende tilskrives hendes manglende omhu. Denne asymmetri skaber perverse incitamenter, der kan afskrække innovation og risikovillighed. Yngre forskere, der er mest komfortable med AI-værktøjer, står over for særlige dilemmaer: Skal de nedtone deres brug af AI for at undgå stigmatisering, eller skal de være transparente og risikere, at deres bidrag undervurderes? [22].

Dette dilemma er ikke blot individuelt, men også institutionelt. Manglen på konsistente og forudsigelige tidsskriftspolitikker for brug af generativ AI betyder, at forskere i praksis kan opleve en risiko for sanktionering i form af afvisning eller forsinket sagsbehandling. En sandsynlig konsekvens er systematisk underrapportering af AI-anvendelse, hvilket i sig selv underminerer både åbenhed, ansvarlighed og muligheden for at udvikle mere retfærdige kredit- og ansvarsstrukturer.

En konkret måde at mindske asymmetrien er at øge forbindelsen mellem det menneskelige forfatterskab og den tekst, som produceres med AI. Personliggjorte modeller er ét greb. F.eks. i AI Unique Tailored Output GENerator (AUTOGEN)‑projektet [13] finjusteres en sprogmodel på en forskers egne publicerede tekster, så modellen frembringer prosa, argumentationsformer og begrebsbrug, der ligger tæt på forfatterens faglige »stemme«. Pointen er ikke at gøre forfatteren overflødig, men at forankre genereringen i hendes tidligere arbejde og dermed dokumenterede kunnen – og derved gøre det mere rimeligt at tilkende kredit, når arbejdet lykkes, og mere legitimt at placere ansvar hos den person, der faktisk kan vurdere, vedtage og stå inde for indholdet. Tidlige studier viste, at lægfolk tenderer til at tildele mere kredit, når en personliggjort model har været anvendt, netop fordi output i højere grad opleves som forankret i forskerens egen tidligere indsats [23, 24].

Den anden – og komplementære – vej går ikke via nye værktøjer, men via kendte standarder, anvendt på nye praksisser. En artikel i Nature Machine Intelligence [25] foreslår tre overordnede retningslinjer for LLM‑brug i forskning, som netop gør dette: For det første skal mennesker stå inde for rigtigheden af al AI‑hjulpet materiale, og produktet må ikke være ringere end, hvad gældende standarder kræver – en ikkeunderlegenhedsstandard, der placerer ansvaret utvetydigt hos menneskelige forfattere. For det andet skal der være et substantielt menneskeligt bidrag til selve forskningen og dens tekst i overensstemmelse med International Committee of Medical Journal Editors (ICMJE)’s forfatterskabskriterier; vigtigt er pointen, at brugen af LLM’er selv kan udgøre et intellektuelt, substantielt bidrag, hvis den faglige idéudvikling, den overordnede tilrettelæggelse, den kritiske revision og kvalitetskontrollen reelt varetages og kan dokumenteres.For det tredje skal der være gennemsigtighed – men proportionalt efter open‑science‑princippet: oplysning i det omfang, det er nødvendigt for, at andre kan evaluere, forstå, og bygge videre på arbejdet. Tilsammen gør disse tre principper det muligt at anvende nye værktøjer uden at sænke barren for kvalitet, ansvar eller forfatterskab. Retningslinjernes centrale greb er at undgå at behandle sprogmodeller som et normativt særtilfælde. Ved at indplacere AI-assisteret arbejde under allerede etablerede kriterier for forfatterskab, ansvar og transparens sigter de mod at normalisere brugen og dermed reducere den stigmatisering, der i dag kan føre til strategisk underrapportering. Samtidig synliggør dette en velkendt, men ofte overset interessekonflikt knyttet til transparens: forskere og tidsskrifter kan have incitamenter til begrænset transparens grundet netop denne stigmatisering, mens læsere og det videnskabelige fællesskab i visse tilfælde har en legitim interesse i indsigt i brugen af AI. Netop derfor er klare og proportionale transparenskrav afgørende for, at retningslinjernes normaliserende ambition ikke undergraves i praksis.

I medicinsk forskning er mere detaljerede, operationelle krav relevante. Generative Artificial intelligence tools in MEdical Research (GAMER)‑statementet i BMJ Evidence‑Based Medicine er et sådant praktisk supplement, udarbejdet for at omsætte generelle principper til konkret rapporteringspraksis for medicinsk forskning [26]. Det lægger bl.a. vægt på, at brugen af generativ AI skal beskrives med tilstrækkelig specificitet til, at andre kan forstå og vurdere indflydelsen: hvilke værktøjer, versioner og grænseflader blev anvendt; hvilke indstillinger og datakilder blev brugt; hvilken rolle spillede AI på tværs af forsknings‑ og skrivefaser; og hvordan blev output verificeret, herunder eventuelt gennem opbevaring og rapportering af uforarbejdede modeludfald, så påstande kan efterprøves.

Ingen af disse to forslag adresserer imidlertid et andet, ofte fremhævet problem ved idéen om AI som forskningsassistent: at forskeren ikke nødvendigvis selv tilegner sig den viden, som genereres gennem AI-støttede processer, f.eks. i forbindelse med udarbejdelsen af en litteraturgennemgang. I sådanne tilfælde kan AI-systemet akkumulere en bredere vidensbase, uden at denne viden i samme grad internaliseres af forskeren. Dette rejser bekymringer om langsigtede effekter på forskerens faglige udvikling og dømmekraft. Samtidig er dette i høj grad et spørgsmål om anvendelsespraksis snarere end teknologi i sig selv: AI kan både bruges på måder, der undergraver læring, og på måder, der understøtter refleksion, forståelse og faglig udvikling. Da denne problematik ikke direkte vedrører fordeling af ansvar og kredit for forskningsoutput, behandles den ikke nærmere her.

Ud over principper og tjeklister har vi også funktionelle analogier, som gør den etiske intuition mere konkret. I mange biomedicinske miljøer er seniorforfatterens rolle velkendt: den såkaldte »principal investigator« formulerer idé og design, sætter rammerne, giver løbende instruktion og feedback og godkender og påtager sig ansvar for det endelige produkt – selv om en juniorkollega kan have forfattet store dele af teksten. Her er brugen af en LLM en funktionelt analog: Forskeren idéudvikler, instruerer modellen, reviderer kritisk, retter og godkender og står inde for indholdet. Opfyldes de samme ICMJE‑betingelser – substantielt bidrag, kritisk revision, endelig godkendelse og ansvarlighed – er der, normativt set, ikke grund til at vurdere forfatterskabet anderledes, blot fordi »junioren« i processen er en sprogmodel [27]. Dette udelukker ikke, at visse anvendelser af sprogmodeller kan have uønskede konsekvenser for oplæring og vidensoverførsel, hvis de bruges som erstatning for menneskelig feedback; men dette er et spørgsmål om implementering snarere end om forfatterskabskriterier som sådanne, idet LLM’er også kan anvendes som lærings- og sparringsværktøjer for yngre forskere eller frigøre seniorforskeres tid til faktisk vejledning.

Den røde tråd er derfor ikke at afskrække brugen af sprogmodeller, men at sikre, at den sker på en måde, der ikke er underlegen i forhold til gældende standarder for kvalitet, ansvar og åbenhed. Personliggjorte, finjusterede modeller kan styrke forbindelsen mellem forfatter og tekst og dermed afbøde kreditskævheden; klare principper og domænespecifik rapportering kan sikre, at ansvar og open science-principper ikke udhules.

Konklusion

Den offentlige debat om generativ AI i sundhedsvidenskab er forståeligt nok domineret af risici: bias, hallucinationer (og deraf følgende fejl), ansvarstab og erosion af forskningsintegritet. Denne artikel har argumenteret for, at et fyldestgørende normativt overblik kræver en mere balanceret tilgang, hvor skadeforebyggelse suppleres af en forpligtelse til at forfølge realistiske muligheder for at forbedre forskningens kvalitet, tempo og retfærdighed, når dette kan ske uden at sænke etablerede standarder.

Set i dette lys peger artiklens tre hovedspor om AI-understøttet samtykke, anvendelsesspecifikke modeller i forskningens maskinrum og klare retningslinjer for forfatterskab og transparens på en fælles skabelon for ansvarlig brug af sprogmodeller i medicinsk forskning: bevar menneskelig ansvarskæde, forankr output i verificerbare kilder, og dokumentér anvendelsen proportionalt med dennes betydning for studiets metoder og generelle open science-principper.

Artiklen slutter derfor med en opfordring: Engagér jer direkte med teknologien under klare normer frem for at afvise den a priori eller anvende den i det skjulte. Kun gennem kvalificeret, åben og ansvarlig brug kan både risici reduceres og de betydelige gevinster for patienter og samfund realiseres.

Summary

Language Models Serving Health Research: Better Ethics, Less Burden

This article examines the ethical implications of using generative artificial intelligence (AI) in medical research. This area has received less attention than clinical applications despite its foundational role in shaping medical knowledge. It argues that ethical evaluation must balance risk prevention with a moral obligation to realize AI’s potential benefits for research quality, efficiency, and fairness. Focusing on informed consent, study design and ethical review, and questions of authorship and responsibility, the article shows how carefully designed, domain-specific AI systems may strengthen – not undermine – core research ethics principles, provided that human responsibility, transparency, and oversight are preserved.

Referencer

Beauchamp TL, Childress JF, Principles of biomedical ethics. 1991. Oxford University Press
United Nations. International Covenant on Economic, Social and Cultural Rights (ICESCR). Resolution 2200A (XXI). 1966. https://www.ohchr.org/sites/default/files/cescr.pdf. (8. jan 2025)
EUR-lex. Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) (Text with EEA relevance). https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng (8. jan 2025)
Swanson K, Wu W, Bulaong NL, et al. 2024. The virtual lab: AI agents designs new sars-cov-2 nanobodies with experimental validation. BioRxiv, 2024. https://doi.org/10.1101/2024.11.11.623004
Wei J, Wang X, Schuurmans D, et al. 2022. Chain-of-thought prompting elicits reasoning in large language models.36th Conference on neural information processing systems, 1-14 https://openreview.net/pdf?id=_VjQlMeSB_J (8. jan 2025)
Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Curran Associates Inc. 2020(3):9459-9474. https://dl.acm.org/doi/abs/10.5555/3495724.3496517
Barnes C, Aboy MR., Minssen T, et al. 2025. Enabling demonstrated consent for biobanking with blockchain and generative AI. Am J Bioeth. 2025;25(4):96-111. https://doi.org/10.1080/15265161.2024.2416117
Allen JW, Earp BD, Koplin J, Wilkinson D. Consent-GPT: is it ethical to delegate procedural consent to conversational AI?. J Med Ethics, 2024;50(2):77-83. https://doi.org/10.1136/jme-2023-109347
Smith ED, Savage SK, Andrew EH, et al. "Development and Implementation of Novel Chatbot-based Genomic Research Consent". BioRxiv [Preprint]. 2023.01.23.525221. https://doi.org/10.1101/2023.01.23.525221
Allen JW, Schaefer O, Porsdam Mann S. et al. Augmenting research consent: should large language models (LLMs) be used for informed consent to clinical research? Res Ethics. 2025(4):644-670. https://doi.org/10.1177/17470161241298726
Mikkelsen RB, Gjerris M, Waldemar G, Sandøe P. 2019. Broad consent for biobanks is best–provided it is also deep. BMC Med Ethics. 2019;20(1):71. https://doi.org/10.1186/s12910-019-0414-6
Earp BD, Porsdam Mann S. Allen J, et al. A personalized patient preference predictor for substituted judgments in healthcare: Technically feasible and ethically desirable. Am J Bioeth. 2024;24(7):13-26. https://doi.org/10.1080/15265161.2023.2296402
Porsdam Mann S, Earp BD, Møller N, et al. 2023. AUTOGEN: A personalized large language model for academic enhancement–Ethics and proof of principle. Am J Bioeth. 2023;23(10):28-41. https://doi.org/10.1080/15265161.2023.2233356
Rid A, Wendler D. Use of a patient preference predictor to help make medical decisions for incapacitated patients. J Med Philos. 2024;39(2):104-129. https://doi.org/10.1093/jmp/jhu001
Earp BD, Porsdam Mann S, van Veenendaal T. et al. Respecting formerly autonomous persons: clarifying the role of the Personalised Patient Preference Predictor (P4) in substituted judgement. J Med Ethics. https://doi.org/10.1136/jme-2025-110729
Moher D, Glasziou P, Chalmers I, et al. Increasing value and reducing waste in biomedical research: who's listening? Lancet. 2016;387(10027):1573-1586. https://doi.org/10.1016/S0140-6736(15)00307-4
Liddicoat JE, Lenarczyk G, Aboy M, et al. A policy framework for leveraging generative AI to address enduring challenges in clinical trials. NPJ Digit Med. 2025;8(1):33. https://doi.org/10.1038/s41746-025-01440-5
Porsdam Mann S, Seah JJ, Latham S, et al. Chat-IRB? How application-specific language models can enhance research ethics review. J Med Ethics. https://doi.org/10.1136/jme-2025-110845
Whitney SN, Schneider CE. Viewpoint: a method to estimate the cost in lives of ethics board review of biomedical research. J Intern Med. 2011;269(4):396-402. https://doi.org/10.1111/j.1365-2796.2011.02351_2.x
Danaher J, Nyholm S. Automation, work and the achievement gap. AI and Ethics. 2021(1):227-237. https://doi.org/10.1007/s43681-020-00028-x
Porsdam Mann S, Earp BD, Nyholm S, et al. 2023. Generative AI entails a credit–blame asymmetry. Nature Machine Intelligence. 2023;(5):472-475. https://doi.org/10.1038/s42256-023-00653-1
Kim HJ, Hong JW, Han S. Dark Side of Ai Labels: Effect of Stigmatization About Ai Labels on the Reluctance to Use Ai Content. SSRN 5385910. http://dx.doi.org/10.2139/ssrn.5385910
Earp BD, Porsdam Mann S, Liu P, et al. Credit and blame for AI–generated content: Effects of personalization in four countries. Ann N Y Acad Sci. 2024;1542(1):51-57. https://doi.org/10.1111/nyas.15258
Khan MA, Mikalonytė ES, Pordam Mann S, et al. 2025. Personalizing AI Art Boosts Credit, Not Beauty. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5218833
Porsdam Mann S, Vazirani AA, Aboy M, et al. Guidelines for ethical use and acknowledgement of large language models in academic writing. Nature Machine Intelligence. 2024;(6):1272-1274. https://doi.org/10.1038/s42256-024-00922-7
Luo X, Tham YC, Giuffrè M, et al. Reporting guideline for the use of Generative Artificial intelligence tools in MEdical Research: the GAMER Statement. BMJ Evid Based Med. 2025;30(6):390-400. https://doi.org/10.1136/bmjebm-2025-113825
Hurshman C, Porsdam Mann S, Savulescu J, Earp BD. Authorship Without Writing: Large Language Models and the “Senior Author” Analogy. Preprint: https://www.researchgate.net/publication/395272964_Authorship_Without_Writing_Large_Language_Models_and_the_Senior_Author_Analogy