Statistikere advarer om misbrug af p-værdier

For første gang i American Statistical Associations (ASA) 177-årige historie har foreningen følt behov for at give eksplicitte rekommandationer på så grundlæggende et område. ASA er blevet tiltagende bekymret over, at p-værdier misbruges på en måde, så det sætter anvendelsen af statistik i det hele taget i et tvivlsomt lys.

I erklæringen opfordrer ASA forskere til at undgå at drage videnskabelige konklusioner eller træffe politiske beslutninger alene på baggrund af p-værdier. Forskerne bør beskrive analysen, som har givet de statistisk signifikante resultater og alle øvrige statistiske test samt de valg, som er truffet undervejs i beregningerne. I modsat fald fremstår resultaterne mere robuste, end de i virkeligheden er.

p-værdier bruges i videnskabelige publikationer ofte synonymt med begrebet »statistisk signifikant« og til at afvise »nulhypotesen«, hvilket ikke nødvendigvis er korrekt. En p-værdi < 0,05 betyder ikke, at der er 95% chance for, at en given hypotese er sand. Det betyder derimod, at hvis nulhypotesen er korrekt, og alle andre antagelser er korrekte, så er der 5% chance for at opnå et resultat, der er mindst lige så ekstremt som det observerede. En p-værdi kan i sagens natur heller ikke indikere, om et givet fund er vigtigt, eller om det bør have en terapeutisk konsekvens.

I erklæringen beskrives seks principper for anvendelsen af p-værdier (www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf), og erklæringen elaborerer på disse principper i detaljer.

Lektor Morten Frydenberg, biostatistiker på Institut for Folkesundhed – Biostatistik, Aarhus Universitet kommenterer: »American Statistical Association vil forhindre en fejlfortolkning af p-værdien, hvis man ønsker svar på spørgsmål som: ’Virker eller virker behandlingen ikke?’ eller ’Er der øget risiko for dit, hvis jeg gør dat?’. Men de relevante spørgsmål er oftest ’Hvor stor er virkningen af behandlingen?’ eller ’Hvor meget øges risikoen?’. Der er derfor brug for estimater, så vi kan sammenholde ’effekter’ med relevante ting såsom klinisk betydning, omkostninger eller øget livskvalitet ved at gøre ’dat’. Selvfølgelig skal vurderinger baseres på sikkerhedsintervaller, så vi inddrager den statistiske usikkerhed i vores konklusioner.

Wasserstein RL, Lazar NA. The ASA's statement on p-values (2016): context, process, and purpose. The American Statistician DOI: 10.1080/00031305.2016.1154108.

Interessekonflikter: ingen