Noninferioritets- og ækvivalensforsøg: erfaringer og forbehold - sekundærpublikation

Med et noninferioritetsforsøg søger man at bestemme, om en ny intervention ikke er ringere end en kontrolintervention inden for et prædefineret noninferioritetsinterval (-Δ til 0) for det primære effektmål. Et ækvivalensforsøg skal afgøre, om to interventioner har samme effekt inden for et prædefineret interval (-Δ til +Δ). Disse forsøg er kontroversielle og svære at forstå, og som oftest dårligt rapporteret og udført. Alle påstande om effekt af nye behandlinger baseret på disse forsøg skal tolkes med varsomhed, og man bør især tænke på, at Δ ofte er alt for stor til at være klinisk meningsfuld.

Det klassiske parallelgruppeforsøg bygger på en nulhypotese om ingen forskel mellem to interventioner og valg af en klinisk relevant forskel (Δ), som forskerne ikke ønsker at overse. Som regel håber forskerne, at de kan forkaste nulhypotesen og påvise en forskel mellem interventionerne. Et sådant forsøg kaldes ofte et superioritetsforsøg, selv om betegnelsen ikke respekterer symmetrien i nulhypotesen om ingen forskel. I modsætning hertil er et noninferioritetsforsøg af ensidig karakter [1], idet man med det søger at bestemme, om en ny intervention ikke er ringere end en kontrolintervention inden for et prædefineret noninferioritetsinterval (-Δ til 0) for det primære effektmål. Et ækvivalensforsøg skal afgøre, om to interventioner har samme effekt inden for et prædefineret interval (-Δ til +Δ).

Noninferioritets- og ækvivalensforsøg er kontroversielle og svære at forstå. De er især nyttige, når en ubehandlet kontrolgruppe ville være uetisk, f.eks. ved forsøg med nye medicinkombinationer mod aids eller færre lægebesøg for gravide og dermed færre udgifter [2]. De kan også bruges til risk-benefit- vurderinger, når nye behandlinger forventes at være mindre skadelige, eller til sammenligning af forskellige formuleringer eller doser af samme medikament [3]. De bør ikke bruges, når standardbehandlingen ikke er konsekvent bedre end placebo, f.eks. lægemidler mod depression og demens, eller når det er tvivlsomt, om effektens størrelse over for placebo er relevant.

Det er forvirrende, at nul- og alternativhypotesen i sammenligning med det klassiske forsøg er modsatte i noninferioritets- og ækvivalensforsøg. En type I (falsk positiv)-fejl fører til en fejlagtig accept af en ringere behandling, og en type II (falsk negativ)-fejl fører til fejlagtig forkastelse af en sand noninferiør behandling [4]. Desuden kan man i det samme forsøg vurdere noninferioritet eller ækvivalens for nogle effektmål og superioritet for andre, f.eks. for skader. Det er derfor vigtigt, at forskere beskriver nøjagtigt i detaljer, hvad de gjorde, og undgår at bruge udtryk, der kan misforstås, såsom type I-fejl.

Ved planlægning af disse forsøg er valget af Δ afgørende for beregningen af patientantallet [5] og for fortolkningen af resultaterne. I et af eksemplerne i CONSORT-vejledningen [2] svarede Δ til halvdelen af effekten af kontrolbehandlingen over for placebo, til trods for at effektmålet var dødeligheden; i dette tilfælde burde Δ have været særligt lille for at undgå accept af ringere behandlinger. Myndighedernes krav til lægemidler er, at udvælgelsen af noninferioritetsintervallet skal omfatte en klinisk vurdering [3, 6], men i praksis er ræsonnementet næsten altid kun statistisk. Man bør ikke bruge effektstørrelsen (behandlingsforskel divideret med standardafvigelsen) som begrundelse for valg af Δ [3], men effektstørrelsen kan vise, om Δ generelt er rimelig. I en systematisk oversigt over 332 noninferioritets- og ækvivalensforsøg fandt man, at en forskel på 0,5 standardafvigelser, svarende til en odds-ratio på 2,2, i omkring halvdelen af forsøgene blev anset for at være irrelevant, hvilket er en urimeligt stor Δ [7].

Noninferioritets- og ækvivalensforsøg indebærer vigtige og somme tider komplekse overvejelser om statistiske analyser og post hoc-designændringer. Stopperegler for noninferioritetsforsøg kan være asymmetriske og gøre det muligt, at et forsøg fortsætter længere, hvis den nye behandling ser ud til at være bedre. Dette forhindrer imidlertid blinding af datakontrolkomiteer, hvis beslutninger bør være uafhængige af, hvilken behandling der ser ud til at være bedst.

I modsætning til superioritetsforsøg, anses intention to treat- analyser og per protocol -analyser for at være lige vigtige i noninferioritets- og ækvivalensforsøg. Intention to treat -analyser vil generelt være biased i retning af ikke at finde nogen forskel, hvilket sædvanligvis er det, man ønsker, og som favoriseres af mange frafald og manglende data. Retningen af bias i per protocol -analyser er mere uforudsigelig i disse forsøg.

Fleksibiliteten af disse design indebærer en risiko for manipulation. Når læserne ikke har adgang til de originale forsøgsprotokoller, ved de ofte ikke, hvad de skal tro. F.eks. er det primære effektmål (der indgår i Δ) altafgørende for disse forsøg. Imidlertid viste en sammenligning af fortrinsvis klassiske forsøgsprotokoller med publikationerne, at mindst et af de primære effektmål var ændret, introduceret eller udeladt i 62% af forsøgene [8]. Δ kan også forstørres post hoc for at skjule, at den nye behandling var ringere, lige som Δ og beregning af patientantallet somme tider er blevet ændret i klassiske forsøg for at skjule, at patientantallet var for lille.

Også for noninferioritetsforsøg bør forskerne bruge et tosidet 95% sikkerhedsinterval [3]. Dette giver mulighed for at vurdere superioritet, hvis den observerede forskel er i modsat retning af det forventede. Det er forkert at gøre det modsatte og hævde, at et superioritetsforsøg viser noninferioritet eller ækvivalens, medmindre det klart bygger på et prædefineret interval. Denne manipulation forekommer imidlertid [9], og et godt fingerpeg om dette foreligger, hvis beregningen af patientantallet i artiklen ikke indeholder en noninferioritets- eller ækvivalensmargin.

Noninferioritets- og ækvivalensforsøg er dårligt rapporteret og udført. Hvad der især forringer troværdigheden er, at man i en tredjedel af de rapporter, hvori man har beregnet patientantallet, udelod nødvendige detaljer for at kunne reproducere beregningen; at man i en tredjedel af rapporterne beskrev et sikkerhedsinterval, der ikke svarede til den type I-fejlsrisiko, der blev brugt i beregningen af patientantallet; og at man i halvdelen af de rapporter, hvori man brugte statistiske test, undlod at tage Δ med i betragtning (hvilket derfor svarer til test for superioritet) [9]. Kun i 20% af de 162 undersøgte forsøg efterkom man de fire basale krav: defineret noninferioritets- eller ækvivalensinterval; beregning af patientantal, der tager intervallet i betragtning [5]; både intention to treat - og per-protocol -analyser; og sikkerhedsinterval for resultatet. Hvis begrundel sen for Δ tages med, hvilket myndighederne kræver [3, 6], levede kun 4% af forsøgene op til kravene.

Alle påstande om effekt af nye behandlinger baseret på disse forsøg skal tolkes med varsomhed. Hvis materialet er stort, eller Δ er stor, eller hvis variationen i målingerne er mindre end forventet, kan der opstå den forvirrende situation, at den nye behandling er signifikant ringere end kontrollen, til trods for at resultatet enten er formelt inkonklusivt (dvs. den nedre sikkerhedsgrænse krydser linjen for noninferioritet) eller endda viser noninferioritet (dvs. sikkerhedsintervallet ligger inden for noninferioritetsintervallet) (Figur 1 ). I disse situationer kunne klinikerne lægge vægt på den signifikante forskel og undlade at bruge den nye behandling, idet Δ ofte er langt større, end hvad klinikere og myndigheder ville betragte som en minimal, relevant klinisk forskel [7].

Klinikerne skal også føle sig overbevist om, at den nye behandling ville have haft effekt, hvis den var blevet sammenlignet med placebo. Det er et myndighedskrav, at der fremvises en klar superioritet i forhold til en indirekte placebo [3]. Superioriteten beregnes ud fra forskellen mellem den nye behandling og standardbehandlingen og forskellen mellem standardbehandlingen og placebo [1]. Der bør benyttes en systematisk oversigt over de relevante placebokontrollerede forsøg, men det er ikke klart, om punktestimatet eller den nedre sikkerhedsgrænse bør benyttes, om estimatet skal henvise til alle forsøg eller kun til nyere forsøg, og om der skal tages hensyn til eventuel publikationsbias. Antagelsen om konstans for faktorer, hvormed man kan forudsige resultatet, sammenlignet med de historiske placebokontrollerede forsøg, som udviser superioritet, vil uundgåeligt være diskutabel og er ofte et stort problem [1, 3].

Forbedrede diagnostiske metoder kan føre til ændringer i patientpopulationerne, tillægsbehandlinger ændres, inklusionskriterier for patienter, tidspunkt for vurderingen og doseringer kan ændres, effektmålene kan ændres, f.eks. fra død til surrogatmarkører ved aids pga. bedre behandlinger, og sygdommens sværhedsgrad kan ændre sig, f.eks. ved infektionssygdomme.

Konklusioner i medicinforsøg bruges i markedsføringen, men de er ofte misvisende [10]. Dette problem kan være endnu større for noninferioritetsforsøg. Den korrekte konklusion kan ikke være, at der er påvist noninferioritet, da dette kun kan påvises i et superioritetsforsøg [3]. Ved et noninferioritetsforsøg kan man kun påvise, at den nye intervention ikke er mere end en præspecificeret andel ringere end den, den sammenlignes med [3]. Imidlertid er firmaerne næppe villige til at skrive i en annonce: »Vort produkt var ikke ringere end standardproduktet med hensyn til vor prædefinerede mindste, klinisk betydningsfulde forskel«.

Klinikere bør især tænke på, at noninferioritetsintervaller ofte er alt for store til at være klinisk meningsfulde [7], og at en påstået ækvivalens også kan være misvisende, hvis et forsøg ikke har været udført med tilstrækkelig høj standard. De bør også være skeptiske over for forsøg, der ikke opfylder de fem krav nævnt ovenfor, hvilket næsten ingen forsøg gør [7].

Peter C. Gøtzsche , Det Nordiske Cochrane Center, H:S Rigshospitalet, DK-2100 København Ø. E-mail: pcg@cochrane.dk

Antaget: 27. marts 2006

Interessekonflikter: Ingen angivet

This article is based on an article first reported in JAMA 2006;295:1171-3.

Noninferioritets- og ækvivalensforsøg: erfaringer og forbehold - sekundærpublikation

Referencer