Forskellig betydning af p-værdien i eksplorerende og konfirmerende hypotesetestning

DET VIDENSKABELIGE SPØRGSMÅL

Sædvanligvis omfatter sund videnskab en kronologisk række af begivenheder: 1) formulering af et videnskabeligt spørgsmål og opstilling af forsøgsdesign, 2) indsamling af data, der kan besvare spørgsmålet, og 3) analyse af resultater og formidling.

Kun præcise spørgsmål muliggør en strikt kronologi. I modsætning hertil fordrer vage ideer en efterfølgende proces, som består i at finde og formulere et specifikt og relevant videnskabeligt spørgsmål, som rent faktisk kan besvares ud fra de data, som skal indsamles [1]: 1) ide, 2) iterativt: spørgsmål, design, spørgsmål, design etc., 3) dataindsamling, 4) analyse og 5) besvarelse.

HYPOTESETESTNING, TYPE I- OG TYPE II-FEJL, STYRKE OG P-VÆRDI

Da direkte verifikation af hypoteser er umulig, baseres hypotesetestning på princippet om falsifikation [2]. Hertil kræves to hypoteser: en nulhypotese og en alternativ hypotese. Sidstnævnte er den originale forskningshypotese, mens den komplementære nulhypotese repræsenterer »nul difference«. Hvis man f.eks. sammenligner ny og gammel behandling, indikerer nulhypotesen »ingen forskel i behandlingseffekt«, hvorimod den alternative hypotese lyder: »Der er en forskel i behandlingseffekt«. En af hypoteserne er sand, men vi ved ikke hvilken. Resultatet af forsøget kalder på en beslutning til fordel for en af hypoteserne. Der er fire mulige udfald: to beslutninger er korrekte, to er ukorrekte. De repræsenterer henholdsvis type I- og type II-fejl (Tabel 1 ).

En type I-fejl foreligger, når nulhypotesen »ingen forskel« forkastes, selv om den er sand. En type II-fejl betyder, at man accepterer nulhypotesen til trods for, at der er en sand forskel. Det forhold, at en beslutning til fordel for en falsk behandlingsforskel (type I-fejl) potentielt er mere farlig for patienten, end hvis man holder sig til det etablerede behandlingsregime, selv om der findes et bedre alternativ (type II-fejl), bevirker, at sandsynligheden for at begå en type I-fejl i planlægningsfasen sædvanligvis sættes væsentligt lavere end sandsynligheden for at begå en type II-fejl, f.eks. ved henholdsvis 5% og 20%. Type II-fejlen har betydning for studiets såkaldte styrke (styrke = 1 - sandsynligheden for type II-fejl), hvilket er sandsynligheden for at forkaste nulhypotesen til fordel for en sand alternativ hypotese før eksperimentet. Styrken afhænger af stikprøvens størrelse, baseres på test af en enkelt hypotese og sættes sædvanligvis til 80%. p-værdien er sandsynligheden for at opnå de resultater, som ses i undersøgelsen (eller endnu mere ekstreme værdier til fordel for den alternative hypotese), hvis nulhypotesen er sand. Hvis p-værdien er under signifikansgrænsen α = 0,05 (eller 5%), konkluderes det, at der er statistisk signifikans. p-værdien siger intet om, hvor sandsynlig nulhypotesen er [3]. Hvad mere er, den fortæller ikke noget om størrelsen af den pågældende behandlingseffekt, ej heller noget om dens kliniske værdi. Derfor er brugen af ledsagende konfidensintervaller altid på sin plads [4].

MULTIPLE TEST OG DEN EKSPERIMENTRELATEREDE TYPE I-FEJL

Niveauet for en type I-fejl refererer kun til en enkelt hypotesetest. Så snart der udføres multiple parallelle test på det samme datamateriale, stiger sandsynligheden for, at der begås en type I-fejl i det samlede antal test, dvs. sandsynligheden for at forkaste mindst én nulhypotese, selv om den er sand, så resultatet bliver en falsk positiv beslutning. Hvis der f.eks. udføres fem statistiske test af fem sideordnede hypoteser, stiger signifikansniveauet for hele eksperimentet til 1 - (0,95)5 = 0,23 (23%), og for ti hypoteser til 1 - (0,95)10 = 0,40 (40%). Fem eller ti hypoteser kan lyde af mange, men er typiske antal. Hvis der ikke korrigeres for massesignifikans, opnås en række falsk positive resultater på 5%-niveauet, hvilket indebærer, at p-værdier under dette niveau ikke kan opfattes som alvorlige indikatorer imod nulhypotesen.

Der er imidlertid måder, hvorpå man kan kontrollere den slags eksperimentrelaterede fejl, heriblandt Bonferroni-Holm-metoden [5], som er en af de mest benyttede post hoc-procedurer, når endepunkterne er uafhængige. Ved brug af denne skal p-værdierne sammenlignes med hensyn til niveauer under de 5%, for at man kan holde den eksperimentrelaterede type I-fejl nede på 5%. Er hypoteserne afhængige, f.eks. fordi der testes effektivitet af forskellige doser, kan denne korrelation udnyttes for at holde denne fejl nede på 5%, idet der testes faldende doser i en lukket testprocedure (hierarkisk testning).

EKSPLORERENDE VERSUS KONFIRMERENDE TESTNING ELLER: DET PRIMÆRE ENDEPUNKT - ET VANSKELIGT VALG

For at undgå fejl som følge af massesignifikans udvælges der ofte en enkelt hypotese, som testes i henhold til de ovenfor beskrevne strikte regler for en konfirmerende undersøgelse, mens de resterende hypoteser angives kun at have eksplorerende karakter. Denne fremgangsmåde realiseres som regel ved på forhånd i projektplanen at definere ét primært endepunkt og et eller flere sekundære endepunkter, som gøres til genstand for henholdsvis konfirmerende og eksplorerende testning. Det er således kun den primære hypotese, som testes konfirmerende på et givet signifikansniveau, og som danner basis for vurdering af den nødvendige stikprøvestørrelse. Den konfirmerende test bør have en tilstrækkelig høj styrke til, at den primære hypotese kan af- eller bekræftes. De øvrige hypoteser testes ofte uden korrektion for massesignifikans. Eksplorerende hypoteser kan stamme fra litteraturen og blive testet for at se, om de også holder i det aktuelle studium (f.eks. i en bestemt undergruppe). Mere almindeligt er dog, at de eksplorerende hypoteser også er »nye«, og at det er nødvendigt at bekræfte dem i et efterfølgende nyt eksperiment, hvori den eksplorerende hypotese bliver den konfirmerende hypotese.

FALDGRUBER I LITTERATUREN

Uheldigvis kan man ikke altid i de såkaldte peer-review' ede artikler læse sig til, om det anførte primære endepunkt også var det, man oprindeligt havde planlagt. Selv om en undersøgelse blev registreret, inden den blev udført (f.eks. [6]) kan det samme materiale vise sig at være blevet analyseret adskillige gange med hensyn til en række spørgsmål, som hver har ført til en selvstændig publikation. Dette er i sig selv også en form for gentagen testning uden korrektion for massesignifikans. Når forfatterrækkefølgen, som det ikke sjældent er tilfældet, også er ændret, kan det være ganske vanskeligt at opdage [7]. Mens en enkelt ud af en serie artikler, der er baseret på det samme materiale, kunne se ud til at repræsentere et konfirmerende studie, foreligger der rent faktisk kun en rapport af eksplorerende karakter, idet den eksperimentrelaterede fejl er pustet op til et niveau højt over den konventionelle grænse for en type I-fejl.

DEN MAGISKE P-VÆRDI

p-værdien bevirker dikotomisk inddeling af resultater som værende enten statistisk signifikante eller statistisk ikkesignifikante. Den rummer ingen information om f.eks. størrelsen af en observeret behandlingseffekt, og fundet af p < 0,05 kan lige så vel stamme fra et forsøg med en meget lille behandlingsforskel i et studie med mange patienter som fra en undersøgelse med en stor terapeutisk forskel observeret i et ganske lille materiale [3]. p-værdiens betydning kan således let overvurderes, hvis den benyttes som det eneste udtryk for succes.

I 1994 satte Altman spørgsmålstegn ved kvaliteten af klinisk forskning, fordi den tilsyneladende drejede sig mere om kvantitet end kvalitet [8]. Misbrug af statistiske test til at generere statistisk signifikante resultater blev eksemplificeret af James Mills i 1993 [9]. Han beskrev to former for datatortur, hvoraf den ene omfattede multiple test og massesignifikans. Der er siden fremsat forslag om en mere adækvat håndtering af p-værdier, herunder angivelse af de faktiske p-værdier i stedet for oplysning om, at p-værdien lå under 5%-niveauet, fortolkning af de medicinske resultater i lyset af studietype og anden tilgængelig evidens og endelig overvejelser om bias eller confounding factors i de tilfælde, hvor der foreligger lave p-værdier [10]. I stedet for dikotomisering af resultater til enten at være statistisk signifikante eller statistisk ikkesignifikante, bør p-værdien fortolkes i et kontinuerligt spektrum (Figur 1 ).

KONKLUSION

Hypotesetest skal anvendes rigtigt med a priori-definerede endepunkter, relevant korrektion for eventuel massesignifikans samt forsigtig og nuanceret fortolkning af de resulterende p-værdier. Effektstørrelse og ledsagende konfidensintervaller bør altid angives. p-værdier fra eksplorerende hypotesetestning skal opfattes eksplorerende, muligvis hypotesegenererende, dog ikke konfirmerende.

src="/LF/images_ufl/ufl_bla.gif">
Oke Gerke , Nuklearmedicinsk Afdeling, Odense Universitetshospital, Sdr. Boulevard 29, 5000 Odense C. E-mail: oke.gerke@ouh.regionsyddanmark.dk

ANTAGET: 15. april 2011

FØRST PÅ NETTET: 16. maj 2011

INTERESSEKONFLIKTER: ingen

Summary

Summary Different meaning of the p-value in exploratory and confirmatory hypothesis testing Ugeskr Læger 2011;173(37):2261-2264 The outcome of clinical studies is often reduced to the statistical significance of results by indicating a p-value below the 5% significance level. Hypothesis testing and, through that, the p-value is commonly used, but their meaning is frequently misinterpreted in clinical research. The concept of hypothesis testing is explained and some pitfalls including those of multiple testing are given. The conceptual difference between exploratory and confirmatory hypothesis testing is discussed, and a better use of p-values, which includes presenting p-values with two or three decimals, is suggested.

Referencer

Tukey JW. We need both exploratory and confirmatory. Am Stat 1980;34:23-5.
Popper K. The logic of scientific discovery. New York: Harper & Row, 1934/1959.
Goodman SN. Toward evidence-based medicine. 1: The p value fallacy. Ann Intern Med 1999;130:995-1004.
Altman DG. Why we need confidence intervals. World J Surg 2005;29:554-6.
Holm S. A simple sequentially rejective multiple test procedure. Scand Stat Theory Appl 1979;6:65-70.
http://clinicaltrials.gov (11. marts 2011).
Gilbody SM, Song F. Publication bias and the integrity of psychiatry research. Psychol Med 2000;30:252-8.
Altman D. The scandal of poor medical research - we need less research, better research, and research done for the right reasons. BMJ 1994;308:283-4.
Mills JL. Data torturing. N Engl J Med 1993;329:1196-9.
Sterne JAC, Smith GD, Cox DR. Stifting the evidence - what's wrong with significance tests? BMJ 2001;322:226-31.