Udviklingen af behandlingsundersøgelsens metodologi

Introduktion: Formålet med undersøgelsen var at belyse udviklingen i de metoder, der gennem 1900-tallet herhjemme er blevet anvendt i forbindelse med behandlingsundersøgelser.

Materiale og metoder: En stikprøve af behandlingsundersøgelser publiceret i Ugeskrift for Læger i perioden 1910-2000 blev gennemgået. I hver tiende årgang udvalgtes tilfældigt 13 artikler om behandlingsundersøgelser. Antallet af forfattere, patientmaterialets størrelse samt oplysninger om det anvendte undersøgelsesdesign blev registreret.

Resultater: I løbet af perioden sås et stigende antal forfattere pr. artikel uden samtidig stigning i patientantallet i den enkelte undersøgelse. Forsøg med en kontrolgruppe forekom med stigende hyppighed, men udgjorde dog aldrig mere end halvdelen af de publicerede undersøgelser. Det første randomiserede forsøg sås i 1970. Antallet af behandlingsundersøgelser publiceret i Ugeskriftet toppede i 1980 for derefter at falde. Indtrykkene fra gennemgangen af artiklerne beskrives.

Diskussion: Det er påfaldende, i hvilken grad forholdet mellem antallet af forfattere og antallet af patienter i den enkelte undersøgelse er steget. Det forhold, at antallet af behandlingsundersøgelser, som publiceres i Ugeskrift for Læger, nu synes at være faldende, kan skyldes, at forskerne foretrækker international publikation og undgår parallelpublikation. Vigtigheden af at bibeholde et dansk tidsskrift med høj standard præciseres. Desuden udtrykkes undren over, at der fortsat publiceres så mange ukontrollerede undersøgelser.

Det har altid været et af de vigtigste formål med klinisk forskning at vurdere effekten af forskellige behandlinger, og som bekendt har de anvendte metoder udviklet sig i tidens løb. Blandt de første, der stillede krav om en statistisk analyse ved sammenligningen af resultaterne af to behandlinger er Gavaret , som i 1840 anbefalede, hvad man kaldte »den numeriske metode« [1]. Gavarets bog blev oversat til dansk, og i 1898 publicerede Fibiger herhjemme et forsøg med difteriantitoksin, der næsten lever op til vor tids standard [2]. Anvendelse af blindprincippet har også tidlige forløbere, og her kan nævnes Bingels store dobbeltblinde forsøg med børn med difteri [3]. Det første egentlige randomiserede forsøg publiceredes først i Storbritannien i 1948 [4, 5].

På denne baggrund fandt jeg det interessant at registrere udviklingen af de metoder, der herhjemme er blevet anvendt til vurderingen af forskellige behandlinger i løbet af 1900-tallet. Tidligere har Jørgensen et al [6] undersøgt tendensen, men deres gennemgang handlede ikke specielt om behandling og omfattede en kortere periode. Desuden har man på Det Nordiske Cochrane Center foretaget en håndsøgning af samtlige numre af Ugeskrift for Læger 1948-1995, men undersøgelsen omfattede kun kontrollerede forsøg [7]. Der findes også internationale undersøgelser. Således har Fletcher & Fletcher [8] gennemgået de forskningsdesign, der benyttedes ved forskellige typer forskning i tre internationale tidsskrifter, men deres undersøgelse var også tidsmæssigt begrænset. En spansk undersøgelse med stikprøvedesign er lavet over perioden 1962-1992 [9].

Materiale og metoder

Der blev udvalgt artikler fra Ugeskrift for Læger i perioden 1910-2000. Valget faldt på denne periode, da forskningen inden for fysiologi, mikrobiologi m.m. først begyndte at give praktiske resultater efter århundredeskiftet. Ugeskriftet valgtes som det førende dansksprogede lægevidenskabelige tidsskrift i perioden.

Artiklerne blev udtaget efter følgende inklusionskriterier: Der skulle være tale om et originalarbejde, hvor forfatteren/
forskeren underkastede et antal patienter en eller anden behandling med henblik på en vurdering af dennes effekt. Oversigtsartikler, metaanalyser og kasuistikker (forstået som artikler kun omhandlende én patient) blev ikke medtaget. Desuden ekskluderedes artikler om profylaktiske forsøg med raske og med patienter indlagt af en anden årsag (f.eks. vaccinationer), artikler om aborter, sterilisering og antikonception, artikler uden patientdeltagelse, artikler, hvor forfatteren ikke selv var forskeren, samt tandlægers og dyrlægers forsøg.

I hver tiende årgang af Ugeskrift for Læger (dvs. årgang 1910, 1920, 1930 osv.) optaltes antallet af artikler, der opfyldte disse kriterier. Dernæst udvalgtes fra hver af disse årgange den første brugbare artikel fra hvert fjerde nummer, dvs. nummer 1, 5, 9 osv., hvilket gav 13 artikler pr. årgang. Hvis der ikke fandtes en brugbar artikel i det pågældende nummer, blev førstkommende artikel i det efterfølgende nummer valgt. Den samlede stikprøve omfattede dermed 130 artikler.

For hver artikel blev der indhentet følgende oplysninger: behandlingens art, diagnose (eller andet indgangskriterium), antal forfattere, antal patienter, mål for behandlingseffekt og oplysninger om undersøgelsesdesign (ukontrollerede undersøgelser, gruppesammenligningsforsøg og overkrydsningsforsøg). Hvis der forelå en kontrolgruppe, registreredes det anvendte kontrolprincip (historisk kontrol fra samme behandlingssted, patienter fra andet behandlingssted, randomisering eller andet kontrolprincip) og anvendelse af blinding (ingen blinding, enkeltblinding eller dobbeltblinding). Desuden registreredes oplysninger om brug af statistisk analyse (ingen, signifikanstest med p-værdi eller beregning af sikkerhedsgrænser).

Resultater

I Figur 1 vises totalantallet af artikler over hele perioden. Antallet var stigende frem til 1980 (efter et dyk i 1970), hvorefter det faldt frem til 2000.

I Figur 2 ses, at stort set alle artikler fra 1910 til 1940 kun havde én forfatter. Herefter optræder artikler me d 2-4 forfattere og fra 1980 artikler med over fem forfattere. Fra 1990 sås artikler med ti forfattere, mens der til gengæld i 2000 kun var en enkelt med én forfatter. Stigningen i forfatterantal var statistisk signifikant (p(ensidet) < 0,0001, Jonckheere-Terpstra-test) [10].

I Tabel 1 vises det mediane antal patienter og spændvidden for hver årgang. Der fandtes ingen tendens til et stigende patientantal (p(ensidet) = 0,18 Jonckheere-Terpstra-test), hel- ler ikke når de to artikler fra 1920 med meget store patientgrupper fraregnedes. I nogle artikler spredt over perioden frem til 1970 var der ingen oplysning om patientmaterialets størrelse.

I Tabel 2 ses, at antallet af undersøgelser med kontrolgruppe var ringe (ca. to pr. årgang) indtil 1970. Herefter steg antallet (p < 0,01, χ2 -test for trend), men undersøgelser uden kontrolgruppe var dog fortsat det almindeligste. I tabellen vises også fravær af statistisk analyse i artiklerne til og med 1940. I de følgende to årgange fandtes kun to artikler med statistisk analyse af resultaterne, men forfatterne til den ene nævnte blot, at resultatet var nonsignifikant uden at angive en p-værdi, mens de i den anden beregnede en ukonventionel p-værdi. Fra 1970 steg forekomsten af statistisk analyse frem til 2000, hvor ni ud af 13 forsøg var underkastet en sådan. Kun ganske få artikler frembød udregning af sikkerhedsgrænser på helbredelsesforskellen.

I Tabel 3 ses, at de første randomiserede forsøg fandtes i 1970. I alt identificeredes 16 randomiserede forsøg, og i ni af disse blev metoden til generering af allokeringssekvensen ikke angivet, i to angav forfatterne, hvilket computerprogram der blev anvendt, og i de resterende blev metoden beskrevet som et »statistisk tilfældighedsprincip«, »randomiseret rækkefølge« eller lignende. I ingen af artiklerne stod der noget om, hvorvidt der var foretaget skjult allokering. I de øvrige forsøg, hvor der forelå en kontrolgruppe, benyttedes historiske kontroller fra samme behandlingssted, sammenligning med patienter med anden diagnose, patienter med sværere sygdom eller fordeling efter andre principper, såsom allokering efter fødsels- eller indlæggelsesdato. Stikprøven omfattede seks overkrydsningsforsøg (to i 1980, to i 1990 og to i 2000, tallene er ikke vist). Blinding indførtes nogenlunde samtidig med de randomiserede forsøg, idet der med enkeltblinding forstås forsøg, hvor det var patienterne, der var blindet og ved dobbeltblinding patienter og undersøger. Dog fandtes et enkelt blindet forsøg fra 1910, som omtales senere. I 13 af de 16 randomiserede forsøg, der identificeredes, anvendtes blinding.

De kvantitative resultater muliggør imidlertid kun et ufuldstændigt billede af udviklingen, og jeg vil derfor supplere med en beskrivelse af mine indtryk ved gennemgangen af artiklerne.

Den typiske artikel fra udvalgte dele af perioden

I 1910 handlede de fleste artikler om operationer og behandling af infektiøse sygdomme som tuberkulose og syfilis. Dog sås også studier om behandling af andre sygdomme f.eks. diabetes mellitus, og det, vi i dag kalder livsstilssygdomme, såsom adipositas. Nogle af de benyttede behandlinger anvendes stadig, mens andre forlængst er forladt og erstattet af nye, eksempelvis vibrationsmassage mod kronisk faryngitis. Det effektmål, man benyttede, var som regel en af den behandlende læge konstateret »bedring« i tilstanden, oftest uden nærmere forklaring.

Som eksempel tjener Saugmans artikel om pneumothoraxbehandling af lungetuberkulose [11]. Forfatteren var en stor fortaler for denne behandling, da erfaringen havde vist, at »den er enhver anden Behandling overlegen«. Selv havde han undersøgt 33 patienter, hvoraf 12 måtte udgå af opgørelsen, enten fordi det ikke lykkedes at forårsage pneumothorax, eller fordi patienterne ikke tålte behandlingen. Der var ingen kontrolgruppe. Efter opgørelsen af materialet, hvor effektmålet var bedring (ikke nærmere specificeret), fulgte en beskrivelse af teknikken samt dens indikationer og kontraindikationer. Da det »drejer sig om Patienter med meget smaa eller slet ingen Chancer ved almindelig Behandling, kan man ikke lave Statistik deraf, men maa bedømme hver Patient for sig«, og der foretoges derfor ingen statistisk analyse. Resultatet blev, at en var relativt helbredt, syv betydeligt bedrede, to bedrede og 11 behandlet med negativt resultat, og det konkluderedes, at behandlingen burde »faa den Udbredelse den fortjener«. Det var dog langtfra alle artikler fra den del af perioden, der overhovedet havde bemærkninger om, hvorvidt statistisk analyse var nødvendig eller ej.

En artikel fra perioden, der skilte sig ud, er Jansens arbejde om behandling af gigtiske lidelser med radioaktivt drikkevand [12]. Forfatteren var ganske bevidst om, at andre forhold end selve terapien kunne påvirke resultatet, og han havde derfor gjort sig nogle tanker om, hvordan disse forhold kunne udelukkes. De pågældende forhold var ifølge ham tilfældighedernes spil, virkningen af andre samtidigt indtrådte forandringer i patientens situation (f.eks. indlæggelse, kost og sengeleje) samt suggestion. I artiklen beskriver han, hvordan han forsøgte at undgå sidstnævnte. Enten betegnede han over for patienterne behandlingen som noget andet, f.eks. »det ny Aspirin uden Smag« eller også gav han dem først destilleret vand, hvorefter han gik over til radioaktivt vand uden at fortælle, hvornår dette skete.

Frem til midten af perioden begyndte nogle af forskerne at gøre sig overvejelser over, hvor mange patienter der burde inkluderes i undersøgelserne, samt hvordan patienterne skulle fremtræde så sammenlignelige som muligt. I en artikel fra 1940 faldt jeg første gang over bemærkninger om nødvendigheden af en kontrolgruppe, der ikke er historisk [13]. Effektmålene var stadig dårligt definerede, og det var ofte nødvendigt at nærlæse de fremlagte sygehistorier for at regne ud, hvad forfatteren anså som mål for behandlingssucces. I en enkelt artikel fra 1940 kunne måske spores en begyndende anerkendelse af nødvendigheden af analytisk statistik [14].

En artikel om lungeresektion for cancermetastaser fra 1960 var typisk for midten af perioden [15]. Der fremlagdes resultater fra 17 patienter (18 operationer) uden kontrolgruppe. Patienterne var udførligt beskrevet, så læseren kunne genkende dem, om end de var underkastet fire forskellige resektionstyper og derfor ikke fremtrådte helt sammenlignelige. Resultaterne blev dels vist vha. et diagram, dels vha. udvalgte sygehistorier. Det sidste var ret kendetegnende for denne og tidligere perioder. Effektmålene syntes at være dødelighed og recidiv, idet det oplystes, at otte patienter levede på efterundersøgelsestidspunktet, fire af dem med tegn på recidiv. Forfatteren konkluderede, at »efter metastasefjernelse i udvalgte tilfælde lever 70-80% i mere end 1 år. Dette forhold støtter den operative behandling«. Der var ikke foretaget statistisk analyse, og det blev ikke forklaret, hvad der skulle forstås ved udvalgte tilfælde.

I omkring halvdelen af artiklerne fra 2000 fandtes en kontrolgruppe, i de fleste tilfælde kombineret med randomisering og blinding for at mindske risikoen for henholdsvis selektions- samt rapporterings- og vurderingsbias. Som tidligere nævnt var metoden til generering af allokeringssekvens dog langtfra altid angivet. Effektmålene var blevet ret sofis tikerede og bestod som regel af en bred vifte af objektive undersøgelser, som sammen med spørgeskemaer eller forskellige scoringssystemer brugtes til vurdering af graden af symptomreduktion. Ni artikler fra 2000 indeholdt en eller anden form for statistisk analyse, men kun i fem af disse var der en kontrolgruppe.

Der fandtes artikler, der nærmer sig vor tids guldstandard: Som eksempel kan nævnes en publikation om behandling af tinnitus med lavenergilaser fra 2000 [16]. Forsøget blev gennemført som et dobbeltblindt, placebokontrolleret, randomiseret studie. Halvtreds patienter inkluderedes, idet inklusionskriterier blev beskrevet kort. Der nævntes dog ingen eksklusionskriterier. Effektmålene og disses validitet blev beskrevet udførligt; de bestod bl.a. af psyko-akustiske målinger og visuelle analogskalaer. Der redegjordes nøje for de anvendte statistiske metoder, og forfatterne konkluderede, baseret på det nonsignifikante resultat, at man ikke havde påvist nogen effekt af behandlingen sammenlignet med placebobehandling. En sådan kritisk holdning til behandlingen fandtes sjældent i de tidlige publikationer.

Diskussion

I opgørelsen fandtes en klar tendens til et stigende antal forfattere pr. artikel, hvilket er et fænomen, der tidligere er beskrevet [6, 9]. Der er formentlig flere grunde hertil, herunder et større arbejde med den enkelte patient (indhentning af informeret samtykke, udførelse af flere undersøgelser), travlhed på arbejdsstedet og indførelse af good clinical practice , således at arbejdet med forsøget må fordeles på flere. Samt måske også, at et medforfatterskab til en artikel anses for kvalificerende. Antallet af patienter i de enkelte undersøgelser er ikke øget, en tendens andre forskere ellers har fundet i de store tidsskrifter [17].

McDonald et al fandt i en undersøgelse af randomiserede forsøg i 18 tidsskrifter, at 1986 var det år, hvor der publiceredes flest sådanne forsøg [17]. Jeg fandt noget tilsvarende, idet antallet af publicerede behandlingsundersøgelser i Ugeskriftet synes at toppe i 1980, men det behøver ikke at betyde, at der nu genereres færre sådanne artikler i Danmark end tidligere. Forklaringen kunne være, at de snarere publiceres i internationale, fagspecifikke tidsskrifter end i Ugeskrift for Læger. Internationale tidsskrifter anses givetvis for at være »bedre og finere«, og forskernes lyst til at parallelpublicere i Ugeskrift for Læger er måske faldende, på trods af at Ugeskriftets redaktion direkte opfordrer hertil [18]. Dette kan imidlertid vise sig at blive et stort problem, da Ugeskriftet er et vigtigt medie for danske læger og når en bredere kreds af standen end de internationale tidsskrifter. Disse forhold burde udforskes nærmere.

Som anført publiceredes det første klinisk randomiserede forsøg i England i 1948, og i 1950'erne gennemførtes flere sådanne forsøg. Undersøgelsen synes at vise, at udviklingen herhjemme slog igennem noget senere. Det skal dog understreges, at udvælgelsen af stikprøven af artikler i denne undersøgelse kun muliggør en vurdering af de store linjer i udviklingen og ikke en nøjagtig tidsfæstelse af indførelsen af et nyt metodologisk princip. Det første randomiserede forsøg fandtes i stikprøven fra 1970, hvilket dog som nævnt skyldes designets karakter, idet man i Det Nordiske Cochrane Centers håndsøgning af Ugeskriftet identificerede det første sådanne forsøg i 1953 [7].

Anvendelse af blinding ses at være slået igennem samtidig med indførelsen af randomiserede forsøg. I den forbindelse er det interessant, at der som nævnt ovenfor anvendtes blinding i en enkelt undersøgelse allerede i 1910 [12]. Man kan nok rette etiske indvendinger mod informationsniveauet i det pågældende forsøg, men på den tid fandtes kun spredte eksempler på blindede forsøg [19].

I undersøgelserne med statistisk analyse uden kontrolgruppe må man umiddelbart undre sig over formålet med den analytiske statistik. Det viste sig, at forfatterne benyttede den til at teste, om forskellen mellem symptomerne før og efter behandlingen var signifikant, hvilket naturligvis ikke kan tjene som bevisførelse for en behandlings effekt.

Selv om den metodologiske standard i artiklerne fra 2000 er højere end tidligere, er det noget overraskende, at der fortsat publiceredes undersøgelser uden kontrolgruppe. I seks af otte sådanne undersøgelser var der tale om opgørelser over operationsresultater, typisk foretaget retrospektivt på et ringe antal patienter. Det er svært ikke at få den tanke, at disse forsøg måske først burde have været publiceret, når der var indhentet større erfaring. De fleste forsøg er dog nu kontrollerede med anvendelse af randomisering, men det er fortsat ikke normen, at artiklerne detaljeret beskriver fremgangsmåden ved allokeringen. Det er uheldigt, da det er påvist, at forsøg, hvor randomiseringen er utilfredsstillende eller randomiseringsmetoden ufuldstændigt oplyst, tenderer til at overvurdere effekten af nye behandlinger [20]. Samme risiko løber man ved manglende anvendelse af dobbeltblinding, om end overvurderingen er knap så udtalt [20]. Brug af dobbeltblinding er nu også almindelig, men det er jo ikke i alle tilfælde mulig.

Lene Andersen , Slangerupgade 22, 1. th., DK-2200 København N.

Antaget: 22. juni 2004

Interessekonflikter: Ingen angivet

Taksigelser: Tak til Henrik R. Wulff for vejledning.

Gavaret, J. Principes Généraux de Statistique Médicale. Paris 1840. Citeret i: Wulff HR, Pedersen SA, Rosenberg R. Medicinsk filosofi. København: Munksgaard, 1990:51-4.
Hróbjartsson A, Gøtzsche PC, Gluud C. The controlled clinical trial turns 100 years: Fibiger's trial of serum treatment of diphteria. B

Udviklingen af behandlingsundersøgelsens metodologi

Referencer