Skip to main content

Kritisk læsning af artikler om randomiserede kliniske forsøg

Anders Granholm1, Morten Hylander Møller1, Christian Gluud2, 3, Andreas Lundh4, 5, 6, Asbjørn Hróbjartsson4, 6, Ove B. Schaffalitzky de Muckadell7 & Anders Perner1

6. nov. 2023
12 min.

Hovedbudskaber

Artiklens vigtigste nye budskaber

Du går stuegang hos en 67-årig mand, som har svær pneumoni og har udviklet sepsis. I nat på intensivafdelingen blev der påbegyndt behandling med bredspektrede antibiotika, mekanisk ventilation og noradrenalin. Du overvejer at ordinere intravenøst givet C-vitamin, da en tidligere systematisk oversigt af flere mindre forsøg har tydet på, at det muligvis reducerer dødeligheden ved sepsis (meget lav tiltro til evidensen) [1]. Siden da er et stort randomiseret klinisk forsøg, Lessening Organ Dysfunction With VITamin C (LOVIT), publiceret [2].

FORSKNINGSSPØRGSMÅL

Hos voksne intensivpatienter med sepsis og vasopressorbehov (population), hvad er effekten af højdosis intravenøst givet C-vitamin (intervention) versus placebo (kontrol) på død eller behov for livsunderstøttende behandling på dag 28 (effektmål)?

RELEVANT FORSØG

I LOVIT-forsøget randomiseredes 872 akut indlagte, voksne intensivpatienter med vasopressorkrævende sepsis til behandling med højdosis C-vitamin (50 mg/kg × 4 i maks. fire døgn) versus placebo. Død eller livsunderstøttende behandling (vasopressor, invasiv mekanisk ventilation, eller (ny) dialyse) på dag 28 efter inklusion var det primære sammensatte effektmål. Sekundære effektmål var bl.a. antal dage uden organsvigt ved dag 28, død ved dag 28 og 6 mdr., livskvalitet ved 6 mdr. og skadevirkninger [2].

KRITISK VURDERING

Før detaljeret kritisk vurdering af et randomiseret klinisk forsøg bør man overveje, om problemet, som undersøges, er relevant. Derefter bør nedenstående ti centrale spørgsmål (opsummeret i Tabel 1) gennemgås. Yderligere detaljer om randomiserede kliniske forsøg og kritisk vurdering kan findes andetsteds [3]. Relevant terminologi er angivet med kursiv og forklaret i Tabel 2.

Er populationen relevant?

Det er vigtigt at vurdere, om både den mulige population (defineret ved forsøgets inklusions- og eksklusionskriterier) og den faktisk inkluderede population (typisk opsummeret i den første tabel i forsøgsrapporten) er relevante for den population, man evt. ønsker at give behandlingen. Jo flere centre forsøget er udført på, jo mere generaliserbare vil resultaterne typisk være. LOVIT-forsøget blev udført på 35 centre i Canada, Frankrig og New Zealand, og den inkluderede population ligner danske intensivpatienter med sepsis [2].

Er interventionerne relevante?

Var interventions- og kontrolgruppen relevante, og afspejler de, hvad der ville blive brugt i klinisk praksis uden f.eks. systematisk under- eller overdosering? Var interventionen et tillæg til eller et alternativ til eksisterende standardbehandling? I LOVIT-forsøget blev C-vitamin undersøgt som et tillæg til den øvrige behandling og sammenlignet med placebo, da C-vitamin ikke anvendes rutinemæssigt. Den øvrige behandling i de to grupper var ikke protokolleret, da det var et pragmatisk forsøg [2].

Er effektmålene relevante, og var målingen pålidelig?

Blev patientrelevante effektmål eller surrogateffektmål brugt [4]? Generelt er surrogateffektmål mindre patientrelevante, men tidsmæssigt tættere på intervention, nemmere at måle og har relativt højere statistisk styrke (f.eks. er det nemmere at påvise en effekt på blodtryk end på langtidsoverlevelse). Interventioner kan have gavnlig effekt på surrogateffektmål, men ingen eller skadelig effekt på patientrelevante effektmål; f.eks. mindskede visse antiarytmika forekomsten af asymptomatiske arytmier, men øgede dødeligheden [5].

Var målemetoden pålidelig og stabil? Kan viden om interventionen have påvirket registreringen af effektmålene [6]? Blinding er formentlig vigtigere for subjektive end for objektive effektmål [6-10]. LOVIT-forsøget var blindet (forsøgsmedicinen blev blandet af farmaceuter, der ikke var involveret i inklusion eller øvrig behandling), og det primære effektmål var objektivt og klinisk relevant [2].

Var allokeringen af forsøgsdeltagere tilfældig og skjult?

Var det umuligt for klinikere, deltagere og forskningspersonale at vide, hvilken intervention en deltager ville få før inklusionen? Allokeringen bør være tilfældig (ikke baseret på f.eks. ugedage eller patientnumre) og skjult for dem, der inkluderer deltagerne. Selv ved velgennemført randomisering er tilfældige forskelle i baselinekarakteristika mellem grupperne forventelige, men mange, større forskelle kan tyde på problemer [6]. I LOVIT-forsøget blev deltagerne allokeret sufficient ved randomisering via et web-baseret system; allokeringen var skjult for forsøgsdeltagere, klinikere, forskningspersonale og statistikere både før og efter randomisering [2, 11].

Kan viden, om hvilken intervention deltagerne fik, have påvirket behandlingen?

Hvis forsøget ikke var blindet, eller hvis forsøgsdeltagere eller behandlende klinikere trods blindingen kunne have haft viden om den allokerede intervention, kunne det så have haft betydning for protokoladhærens eller øvrig behandling, og kunne det påvirke forsøgets resultater [6]? LOVIT-forsøget var blindet, brugte placebo, C-vitaminniveauer blev ikke målt efter indgift af forsøgsmedicinen [2].

Var forsøgets statistiske styrke tilstrækkelig, og hvad var den statistiske præcision?

Den nødvendige stikprøvestørrelse beregnes ud fra den effektstørrelse, man vil kunne bevise, et bestemt signifikansniveau og en statistisk styrke samt øvrige parametre, f.eks. den forventede forekomst af effektmålet i kontrolgruppen. I mange forsøg kan man kun detektere forskelle, der er væsentligt større end den mindste klinisk relevante forskel, og kan ikke konkludere definitivt vedrørende mindre effekter [12, 13]. Den statistiske styrke kan være mindre end forventet, hvis f.eks. kontrolgruppen har færre hændelser end forventet [12], og er ofte anderledes for sekundære effektmål og væsentligt lavere for subgruppeanalyser. Trods statistisk signifikans kan estimatets præcision (typisk udtrykt ved et 95% konfidens-interval (KI)) være lav. LOVIT-forsøget var designet med 80% styrke til at detektere ti procentpoints reduktion i det primære effektmål ift. en forventet risiko på 50% ved inklusion af 800 patienter (antallet blev øget undervejs pga. COVID-19) [2]. Med en forekomst på hhv. 44,5% (C-vitamin) vs. 38,5% (placebo) medførte C-vitamin en relativ risiko (RR) for det primære effektmål på 1,21 (95% KI 1,04-1,40; p = 0,01), altså en statistisk signifikant effekt forenelig med en potentielt klinisk relevant øget risiko på 4% til 40% relativt eller 1,5% til 15 procentpoint absolut [2].

Kan frafald og manglende data have påvirket resultaterne?

Et vist antal af deltagere, som ikke opfølges eller af anden årsag ikke indgår i analysen, øger risikoen for systematiske fejl (bias) i et forsøg [5], særligt hvis andelen er forskellig mellem grupperne, f.eks. hvis flere deltagere frafalder pga. skadevirkninger i den ene gruppe, eller hvis sygere deltagere i mindre omfang besvarer spørgeskemaer om f.eks. livskvalitet [14]. Ved væsentlig missingness (f.eks. over 5%) er det utilstrækkeligt udelukkende at analysere komplette data, da det medfører lavere statistisk styrke og risiko for bias. Metoder bør anvendes, der tager højde for missing data (f.eks. multipel imputation og/eller best-worst/worst-best case-analyser) [6, 15]. Analysen bør generelt udføres iht. allokeringen (intention-to-treat-princippet) uden uhensigtsmæssige eksklusioner [16]. Et overblik over frafald (losses to follow-up) og manglende data fås fra forsøgets inklusionsflowchart (Figur 1) [17] og tabeller. I LOVIT-forsøget var data næsten komplette for alle effektmål, og den primære analyse var iht. intention-to-treat-princippet [2].

Fulgte forsøget, inklusive analyser og rapportering, protokollen?

Fulgte forsøget sin protokol eller er der risiko for selektiv rapportering af effektmål og analyser [6]? Ideelt bør en detaljeret protokol og en detaljeret statistisk analyseplan være publiceret før forsøgets afslutning, da utilstrækkelig detaljegrad øger fleksibiliteten og risikoen for afvigelser [18], f.eks. at flere analyser udføres, og kun den mest favorable rapporteres, eller at hierarkiet af effektmål besluttes på baggrund af resultaterne, efter forsøget er slut.

Blev forsøget afsluttet tidligere end forventet? Mange forsøg bruger interimanalyser og kan stoppe før den planlagte størrelse, hvis resultaterne er tilstrækkeligt overbevisende eller bekymrende; reglerne for at stoppe bør være tydeligt defineret i protokollen [19], og anbefalingerne om at stoppe pga. uforudsete sikkerhedssignaler (f.eks. øget forekomst af skadevirkninger) bør træffes på baggrund af vurdering af en uafhængig sikkerhedskomité. LOVIT-forsøget var registreret på ClinicalTrials.gov, før første patient blev inkluderet, og protokollen og den statistiske analyseplan blev publiceret før forsøgets afslutning [11, 20]; de eneste væsentlige afvigelser var forøgelse af størrelsen pga. inklusion af patienter med COVID-19 og en ekstra subgruppeanalyse af disse [2]. Forsøget udførte to planlagte interimanalyser med prædefinerede stopregler efter hhv. 248 og 525 deltagere [2].

Fortolkes resultaterne rimeligt?

Respekterede rapporteringen og forsøgskonklusionen et præspecificeret hierarki af effektmål, eller var der overdrevet fokus på sekundære effektmål eller subgruppeanalyser, der viste mere favorable resultater? Jo større antal analyser, jo større risiko for tilfældige fund pga. multiple testing, og enkeltstående statistisk signifikante fund for sekundære effektmål og analyser bør tolkes varsomt. Var tolkning og konklusion retvisende, eller blev usikre (ikkesignifikante) resultater fejltolket som bevis for, at der ingen forskel var mellem grupperne [13]? Hvis forsøget har lav statistisk styrke til påvisning af klinisk relevante forskelle, risikerer sådanne fejltolkninger at medføre, at potentielt gavnlige interventioner droppes præmaturt. Tolkningen bør derfor ikke alene baseres på statistisk signifikans, men også effektstørrelsen og den statistiske præcision, dvs. bredden af de effekter, resultaterne er forenelige med [21]. LOVIT-forsøget havde et tydeligt præspecificeret hierarki af effektmål, og konklusionerne blev primært baseret på resultaterne for det primære effektmål [2].

Er der væsentlige interessekonflikter?

Har gruppen bag forsøget væsentlige finansielle (f.eks. kommercielle) eller ikkefinansielle (f.eks. akademiske) interessekonflikter [22]? Interessekonflikter og industrifinansiering er associeret med mere favorable resultater og konklusioner [23-25], hvilket kan skyldes valg af design, analyse, rapportering og spin. Hvis forsøget eller forskerne bag har modtaget kommerciel støtte, er det væsentligt, hvordan de kommercielle partnere har haft indflydelse på forsøgets design, udførelse og rapportering. LOVIT-forsøget var uden væsentlig kommerciel støtte, og forfatterne havde ingen væsentlige interessekonflikter [2].

OPSUMMERING

LOVIT-forsøget undersøgte et klinisk relevant spørgsmål, hvor den forudgående evidens var usikker [1], og kritisk vurdering af forsøgsrapporten medførte ingen væsentlig bekymring ift. metodologisk kvalitet, risiko for bias, tilfældige fund, spin eller interessekonflikter. Forsøget bidrager med evidens af høj kvalitet: højdosis C-vitamin til intensivpatienter med sepsis så ud til at skade. Som alle forsøg bør resultaterne fortolkes i kontekst af den øvrige evidens i opdaterede systematiske oversigter [26] og kliniske retningslinjer [27].

DESIGNVARIANTER

De fleste randomiserede kliniske forsøg laves som parallelgruppeforsøg, hvor deltagerne randomiseres til én af flere – oftest to – interventioner; andre designvarianter er overkrydsningsforsøg, klyngeforsøg, faktorielle forsøg, avancerede adaptive forsøg [19, 28] og platformforsøg [29], som beskrives i Tabel 3. Særlige hensyn gør sig gældende ved planlægning, gennemførelse, analyse, rapportering og kritisk vurdering af disse forsøgstyper.

RAPPORTERINGSRETNINGSLINJER OG REDSKABER TIL KRITISK VUDERING

Relevante retningslinjer er SPIRIT for rapportering af forsøgsprotokoller [30] og Consolidated Standards of Reporting Trials (CONSORT) for rapportering af forsøg [17] og deres udvidelser til specifikke typer af forsøg. Det væsentligste redskab til vurdering af risikoen for bias i forsøg er Cochranes RoB 2-værktøj [6].

Korrespondance Anders Granholm. E-mail: anders.granholm@regionh.dk / andersgran@gmail.com

Antaget 22. september 2023

Publiceret på ugeskriftet.dk 6. november 2023

Interessekonflikter Der er anført potentielle interessekonflikter. Forfatternes ICMJE-formularer er tilgængelige sammen med artiklen på ugeskriftet.dk

Referencer findes i artiklen publiceret på ugeskriftet.dk

Artikelreference Ugeskr Læger 2023;185:V06230427

Summary

Critical reading of articles on randomised clinical trials

Anders Granholm, Morten Hylander Møller, Christian Gluud, Andreas Lundh, Asbjørn Hróbjartsson, Ove B. Schaffalitzky de Muckadell & Anders Perner

Ugeskr Læger 2023;185:V06230427

The randomised clinical trial is the most reliable study design to compare the effects of different interventions, however, the methodological quality of randomised clinical trials varies. In this review, the central considerations for critically appraising a randomised clinical trial are described along with an example, terminological references, description of design variants and reporting guidelines and appraisal tools. This review aims at helping clinicians and other users of randomised clinical trials to assess the trustworthiness and relevance of trial results for their own practice.

Referencer

  1. Fujii T, Salanti G, Belletti A et al. Effect of adjunctive vitamin C, glucocorticoids, and vitamin B1 on longer-term mortality in adults with sepsis or septic shock: a systematic review and a component network meta-analysis. Intensive Care Med. 2022;48(1):16-24. doi: 10.1007/s00134-021-06558-0.
  2. Lamontagne F, Masse MH, Menard J et al. Intravenous Vitamin C in adults with sepsis in the intensive care unit. N Engl J Med. 2022;386(25):2387-2398. doi: 10.1056/nejmoa2200644.
  3. Schaffalitzky de Muckadell OB. Studier af interventioner: det randomiserede kliniske forsøg. I: Hróbjartsson A, Lundh A, red. Evidensbaseret medicin og klinisk forskningsmetode. Munksgaard, 2022:119-149.
  4. Ciani O, Manyara AM, Chan AW et al. Surrogate endpoints in trials: a call for better reporting. Trials. 2022;23(1):991. doi: 10.1186/s13063-022-06904-7.
  5. Pratt CM, Moyé LA. The Cardiac Arrhythmia Suppression Trial. Casting suppression in a different light. Circulation. 1995;91(1):245-247. doi: 10.1161/01.CIR.91.1.245.
  6. Sterne JAC, Savović J, Page MJ et al. RoB 2: A revised tool for assessing risk of bias in randomised trials. BMJ. 2019;366: l4898. doi: 10.1136/bmj.l4898.
  7. Anthon CT, Granholm A, Perner A et al. No firm evidence that lack of blinding affects estimates of mortality in randomized clinical trials of intensive care interventions: a systematic review and meta-analysis. J Clin Epidemiol. 2018;100:71-81. doi: 10.1016/j.jclinepi.2018.04.016.
  8. Moustgaard H, Clayton GL, Jones HE et al. Impact of blinding on estimated treatment effects in randomised clinical trials: meta-epidemiological study. BMJ. 2020;386:l6802. doi: 10.1136/bmj.l6802.
  9. Savović J, Turner RM, Mawdsley D et al. Association between risk-of-bias assessments and results of randomized trials in Cochrane reviews: the ROBES meta-epidemiologic study. Am J Epidemiol. 2018;187(5):1113-1122. doi: 10.1093/aje/kwx344/4604571.
  10. Hróbjartsson A, Thomsen ASS, Emanuelsson F et al. Observer bias in randomised clinical trials with binary outcomes: Systematic review of trials with both blinded and non-blinded outcome assessors. BMJ. 2012;344:e1119. doi: 10.1136/bmj.e1119.
  11. Adhikari NKJ, Pinto R, Day AG et al. Lessening Organ Dysfunction With Vitamin C (LOVIT) Trial: Statistical Analysis Plan. JMIR Res Protoc. 2022;11(5):e36261. doi: 10.2196/36261.
  12. Harhay MO, Wagner J, Ratcliffe SJ et al. Outcomes and statistical power in adult critical care randomized trials. Am J Respir Crit Care Med. 2014;189(12):1469–1478. doi: 10.1164/rccm.201401-0056CP.
  13. Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485. doi: 10.1136/bmj.311.7003.485.
  14. Kjær MN, Mortensen CB, Hjortrup PB et al. Factors associated with non-response at health-related quality of life follow-up in a septic shock trial. Acta Anaesthesiol Scand. 2018;62(3):357-366. doi: 10.1111/aas.13056.
  15. Jakobsen JC, Gluud C, Wetterslev J, Winkel P. When and how should multiple imputation be used for handling missing data in randomised clinical trials - a practical guide with flowcharts. BMC Med Res Methodol. 2017;17(1):162. doi: 10.1186/s12874-017-0442-1.
  16. Fergusson D, Aaron SD, Guyatt G, Hébert P. Post-randomisation exclusions: the intention to treat principle and excluding patients from analysis. BMJ. 2002;325(7365):652-654. doi: 10.1136/bmj.325.7365.652.
  17. Schulz KF, Altman DG, Moher D, CONSORT Group. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. BMJ. 2010;340:c332. doi: 10.1136/bmj.c332.
  18. Wicherts JM, Veldkamp CLS, Augusteijn HEM et al Degrees of freedom in planning, running, analyzing, and reporting psychological studies: a checklist to avoid P-hacking. Front Psychol. 2016;7:1832. doi: 10.3389/fpsyg.2016.01832.
  19. Pallmann P, Bedding AW, Choodari-Oskooei B et al. Adaptive designs in clinical trials: why use them, and how to run and report them. BMC Med. 2018;16(1):29. doi: 10.1186/s12916-018-1017-7.
  20. Masse MH, Ménard J, Sprague S et al. Lessening organ dysfunction with vitamin C (LOVIT): protocol for a randomized controlled trial. Trials. 2020;21(1):42. doi: 10.1186/s13063-019-3834-1.
  21. Rafi Z, Greenland S. Semantic and cognitive tools to aid statistical science: replace confidence and significance by compatibility and surprise. BMC Med Res Methodol. 2020;20(1):244. doi: 10.1186/s12874-020-01105-9.
  22. Vandvik PO, Alhazzani W, Møller MH. Understanding conflicts of interest. Intensive Care Med. 2018;44(10):1738-1740. doi: 10.1007/s00134-018-5338-y.
  23. Lundh A, Lexchin J, Mintzes B et al. Industry sponsorship and research outcome: a systematic review with meta-analysis. Intensive Care Med. 2018;44(10):1603-1612. doi: 10.1007/s00134-018-5293-7.
  24. Ahn R, Woodbridge A, Abraham A et al. Financial ties of principal investigators and randomized controlled trial outcomes: cross sectional study. BMJ. 2017;356:i6770. doi: 10.1136/bmj.i6770.
  25. Nejstgaard CH, Laursen DRT, Lundh A, Hróbjartsson A. Commercial funding and estimated intervention effects in randomized clinical trials: systematic review of meta-epidemiological studies. Res Synth Methods. 2023;14(2):144-155. doi: 10.1002/jrsm.1611.
  26. Agarwal A, Basmaji J, Fernando SM et al. Parenteral Vitamin C in Patients with Severe Infection: A Systematic Review. NEJM Evid. 2022;1(9). doi: 10.1056/evidoa2200105.
  27. Blaser AR, Alhazzani W, Belley-Cote E et al. Intravenous vitamin C therapy in adult patients with sepsis: a rapid practice guideline. Acta Anaesthesiol Scand. 2023. doi: 10.1111/aas.14311.
  28. Granholm A, Kaas-Hansen BS, Lange T et al. An overview of methodological considerations regarding adaptive stopping, arm dropping and randomisation in clinical trials. J Clin Epidemiol. 2023;153:45-54. doi: 10.1016/j.jclinepi.2022.11.002.
  29. Adaptive Platform Trials Coalition. Adaptive platform trials: definition, design, conduct and reporting considerations. Nat Rev Drug Discov. 2019;18(10):797-807. doi: 10.1038/s41573-019-0034-3.
  30. Chan AW, Tetzlaff JM, Altman DG et al. SPIRIT 2013 Statement: defining standard protocol items for clinical trials. Ann Intern Med. 2013;158(3):200-207.