Skip to main content

Informationsbias

Mads Kamper-Jørgensen

1. sep. 2014
9 min.

En betydelig del af den evidens, som danner grund-lag for kliniske beslutninger og forebyggende tiltag, stammer fra epidemiologiske undersøgelser. Sådanne undersøgelser kan give skævvredne (biased) resultater, hvis informationen om undersøgelsens deltagere er behæftet med fejl. I denne artikel introduceres læseren til begrebet informationsbias, og betydningen af datakvalitet diskuteres. Ligeledes præsenteres læseren for en internetbaseret regnemaskine, som kvantificerer, i hvor høj grad en epidemiologisk undersøgelses resultat er skævvredet pga. informationsbias.

INFORMATIONSBIAS OG MISKLASSIFIKATION

En undersøgelse er skævvredet af informationsbias, hvis den giver et systematisk forkert resultat, fordi
informationen om deltagerne er behæftet med fejl. »Systematisk« betyder, at den undersøgte hyppighed eller association konsekvent bliver over- eller under-
vurderet. I epidemiologiske undersøgelser falder mange variable naturligt i to kategorier, f.eks. hvorvidt et barn har astma eller ej. Hvis deltagerne i en undersøgelse bliver klassificeret i en forkert gruppe, f.eks. som følge af fejlbehæftet information om astma, taler man om misklassifikation. Misklassifi-kation kan være nondifferentiel eller differentiel, afhængigt af om den er relateret til andre variable eller ej. Med udgangspunkt i en undersøgelse af associationen mellem gravides fiskeolieindtag og astma hos barnet, gives der i det følgende eksempler på forskellige typer af misklassifikation. Antag, at der anvendes selvrapporterede data om fiskeolieindtag (ja eller nej) og registerbaserede oplysninger om indlæggelse på hospital med astma (ja eller nej).

Bevidsthed om, at fiskeolie kan være gavnligt i graviditeten, kan betyde, at nogle gravide overrapporterer deres indtag for at fremstå sunde. Således bliver fiskeolieindtaget systematisk overvurderet. Hvis fiskeolieindtaget i lige høj grad overvurderes blandt mødre til raske børn og mødre til børn med astma, vil eksponeringen være nondifferentielt misklassificeret.

Kun børn med svær astma indlægges på hospital. Således vil hyppigheden af astma blive systematisk undervurderet, fordi børn med mildere astma ikke er registreret med en indlæggelse. Hvis hyppigheden af astma i lige høj grad undervurderes blandt børn af mødre, som hhv. indtog og ikke indtog fiskeolie i graviditeten, vil udfaldet være nondifferentielt misklassificeret.

Hvis mødre til børn med astma søger efter mulige årsager til, at barnet har fået astma, vil de muligvis huske deres fiskeolieindtag i graviditeten mere nøjagtigt end mødre, hvis børn er raske. I så tilfælde vil eksponeringen være differentielt misklassificeret, hvor misklassifikationen forekommer sjældnere blandt børn med astma, end blandt børn uden astma. Denne type differentiel misklassifikation kaldes hukommelsesbias og forekommer i retrospektive undersøgelser.

Bevidsthed om, at fiskeolie kan være gavnligt i graviditeten, kan betyde, at børn af mødre, som ikke indtog fiskeolie, oftere end børn af mødre, som indtog fiskeolie, vil blive undersøgt af en læge. I så tilfælde vil udfaldet være differentielt misklassificeret, hvor misklassifikationen forekommer sjældnere blandt børn af mødre, som ikke indtog fiskeolie i graviditeten, end blandt børn af mødre, som indtog fiskeolie i graviditeten. Denne type differentiel misklassifikation kaldes detektionsbias, og forekommer i prospektive undersøgelser.

MÅLEUSIKKERHED

En undersøgelses informationer kan stamme fra f.eks. spørgeskemaer, biologiske test eller registre. Det er svært at udtale sig generelt om kvaliteten af spørgeskemadata, da den er stærkt afhængig af spørgsmålenes emne og formulering. Mange anser biologiske test for at være objektive og derfor korrekte. Der kan dog være betydelig udsving i f.eks. lungekapacitetsmåling, afhængigt af patientens alder og udførelsesteknikken. Ligeledes bliver registerdata ofte betragtet som værende af høj kvalitet, fordi de ikke er påvirket af deltagerens subjektive holdning. Fakta er dog, at der i de fleste registre er måleusikkerheder, som skyldes f.eks. forkert indtastning eller manglende konsensus om kodningen. Mange læger vil være bekendt med begreberne sensitivitet og specificitet i forbindelse med kvaliteten af diagnostiske test. Inden for epidemiologien anvendes begreberne til beskrivelse af kvaliteten og dermed risikoen for misklassifikation af informationer til brug for epidemiologiske undersøgelser, som stammer fra f.eks. spørgeskemaer eller registre. Beregning af sensitivitet og specificitet forudsætter, at informationen kun har to kategorier,
f.eks. hvorvidt barnet har astma eller ej. Ligeledes
er det nødvendigt at have adgang til oplysninger om »virkeligheden«. Oplysninger om »virkeligheden« kan f.eks. stamme fra selvrapporterede astmadata for alle børn, der indgår i den tidligere skitserede undersøgelse, såvel børn, der har været indlagt med astma, som børn, der ikke har været indlagt med astma. Blandt de børn som »i virkeligheden« har astma, bliver det således muligt at bestemme andelen, som
har været indlagt med astma. Denne andel benævnes sensitiviteten. Tilsvarende udtrykker specificiteten forholdet mellem børn, der »i virkeligheden« ikke har astma, og børn, der ikke har været hospitalsindlagt med astma. Således er både sensitiviteten og specificiteten mål for overensstemmelsen mellem »virkeligheden« og de observerede data. Ofte benævnes den metode, hvormed man bedst måler et udfald eller en eksponering, dvs. den metode som har højst sensitivitet og specificitet, for guldstandarden. Selv guldstandarder har dog ofte en sensitivitet og specificitet, som ligger betydeligt lavere end 100%.

INTERNETBASERET REGNEMASKINE

www.madskamper.dk/informationsbias findes en internetbaseret regnemaskine, som kan bruges, når man ønsker at kvantificere, i hvor høj grad en undersøgelses resultat er skævvredet pga. informationsbias. Regnemaskinen, som er vist i Figur 1, lader brugeren indtaste data for eksponering og udfald samt sensitiviteten og specificiteten af data. Herudfra beregnes estimater for den overordnede prævalensproportion (PP) af sygdom, samt associationen mellem eksponeringen og udfaldet målt som hhv. odds ratio (OR), relativ risiko (RR) og risikodifference (RD) med tilhørende nedre og øvre konfidensgrænse. Hvert af estimaterne er beregnet i en ukorrigeret og en korrigeret version. Den korrigerede version tager højde for eventuel misklassifikation, hvilket den ukorrigerede version ikke gør. Således får brugeren via den korrigerede version et bud på, hvad undersøgelsens resultat ville have været, hvis eksponeringen og udfaldet var blevet målt uden fejl. Hyppigheds- og associationsmålene er beregnet som foreslået af Juul [1], og korrektionen er beregnet som foreslået af Greenland [2].

Når regnemaskinen åbnes, indeholder den under overskriften »Indtast observerede data« observerede data fra en dansk, randomiseret, klinisk undersøgelse af associationen mellem indtag af hhv. fiskeolie og olivenolie i graviditeten og astma hos barnet [3]. Under overskriften »Indtast sensitivitet og specificitet« er der angivet sensitiviteten og specificiteten af hhv. eksponeringen og udfaldet, som er rapporteret i andre publikationer fra samme forskergruppe [4, 5]. Specificiteten og sensitiviteten er i regnemaskinen sat til at være ens for hhv. syge og raske samt eksponerede og ueksponerede, idet det antages, at den er nondifferentiel. Under overskriften »Beregning af ukorrigerede og korrigerede estimater« ses det, at den ukorrigerede PP er 4,76%, svarende til, at hvert 20. barn i undersøgelsen havde astma. Hvis sensitiviteten og specificiteten er som indtastet i regnemaskinen, udgør den korrigerede PP 9,52%. Således
betyder den nondifferentielle misklassifikation af
fiskeolieindtaget og astmadiagnosen, at astmahyppigheden i denne undersøgelse vurderes til at være halvdelen af hvad den »i virkeligheden« er. Dette skyldes, at en del børn, som »i virkeligheden« har astma, ikke er registreret med astma i Landspatientregistret, hvorfra man til undersøgelsen hentede sin information om astma. Formålet med undersøgelsen var imidlertid ikke at vurdere PP, men derimod at bestemme, om hhv. fiskeolie- og olivenolieindtag i graviditeten var associeret med astma hos barnet. Som det ses af den ukorrigerede RR, viste undersøgelsen 62% statistisk signifikant reduceret risiko for astma hos børn af mødre, som indtog fiskeolie i gravidite-ten (RR = 0,38 (95% konfidens-interval (KI): 0,15-0,91)), sammenlignet med hos børn af mødre, som indtog olivenolie. Efter hensyntagen til informationsbias reduceres denne RR til 0,09 (95% KI: 0,05-0,16), svarende til 91% reduceret risiko, dvs. en betydelig stærkere association mellem fiskeolieindtag og astma hos barnet. Også OR dvs. forholdet mellem odds for eksponering hos syge og raske, og RD dvs. differencen i risiko for sygdom mellem eksponerede og ikkeeksponerede viser stærkere association mellem fiskeolieindtag og astma hos barnet efter korrektionen.

Med få undtagelser gælder det, at nondifferentiel misklassifikation svækker associationen og trækker de relative mål (OR og RR) mod 1, og absolutte mål (RD) mod 0 dvs. ingen forskel mellem grupperne. Følgerne af differentiel misklassifikation og eksponeringer eller udfald, som har mere end to niveauer, er sværere at forudsige. Afhængigt af, hvilke grupper der er misklassificeret og i hvor høj grad, kan hyppigheder og associationer i sådanne undersøgelser enten overvurderes eller undervurderes. Man skal derfor som læser være opmærksom på, hvilke informationer der anvendes om undersøgelsens deltagere og hvad kvaliteten af disse informationer er, før man accepterer forfatternes forslag til konklusion (Figur 2).

Der går nogle sekunder, før regnemaskinen toner frem på skærmen. I regnemaskinen kan man indtaste værdier i cellerne med hvid farve. Efter indtastning tastes »Return«, hvorefter estimaterne beregnes. Reg-nemaskinen returnerer værdien »Fejl«, hvis brugeren indtaster negative værdier i 2 × 2-tabellen, eller hvis misklassifikationen medfører, at nogle celler i en afledt 2 × 2-tabel, som brugeren ikke kan se, indeholder negative tal, eller hvis det relevante hyppigheds- eller associationsmål enten ikke kan beregnes, f.eks. OR med odds = 0 i referencegruppen, eller ikke er meningsfulde, f.eks. negativ PP.

Mens der i mange epidemiologiske lærebøger på glimrende vis gennemgås misklassifikation af enten eksponering eller udfald, bliver der kun i få diskuteret samtidig misklassifikation af eksponering og udfald [2]. For uddybende læsning om informationsbias og øvrige fejlkilder, som ikke behandles i denne artikel, f.eks. konfounding og selektionsbias, henvises til Rothman et al [6]. Interesserede læsere kan finde regneark til analyse af epidemiologiske data ved at søge på internettet med ordene Rothman og episheet. I denne artikel har jeg antaget, at der var uafhængighed af misklassifikationen mellem eksponering og udfald, hvilket er rimeligt, når oplysningerne stammer fra forskellige kilder. I tilfælde af afhængighed henvises til en artikel af Kristensen [7]. Afslutningsvis vil jeg opfordre læseren til at bruge den internetbaserede regnemaskine til selv at afprøve forskellige scenarier af nondifferentiel og differentiel misklassifikation af eksponeringer og udfald med to kategorier, for at blive fortrolig med følgerne af informationsbias.

Korrespondance: Mads Kamper-Jørgensen, Institut for Folkesundhedsvidenskab, Københavns Universitet, Øster Farimagsgade 5, 1014 København K. E-mail: maka@sund.ku.dk

Antaget: 17. oktober 2013

Publiceret på Ugeskriftet.dk: 10. februar 2014

Interessekonflikter: Forfatterens ICMJE-formular er tilgængelige sammen med artiklen på Ugeskriftet.dk

Taksigelse: Laust Hvas Mortensen, Københavns Universitet, takkes for konstruktive kommentarer.

Summary

Information bias

Much evidence guiding clinical decisions and preventive initiatives is derived from epidemiologic studies. Results of such studies may be influenced by incorrect information about participants. This article introduces the reader to information bias and discusses the role of data quality in epidemiologic studies. Also, the article presents an online calculator allowing the user to evaluate whether results of specific epidemiologic studies may be biased by information problems.

Referencer

Litteratur

  1. Juul S. Epidemiologi og evidens. 2. udg. København: Munksgaard, 2012.

  2. Greenland S. Basic methods for sensitivity analysis of biases. Int J Epidemiol 1996;25:1107-16.

  3. Olsen SF, Østerdal ML, Salvig JD et al. Fish oil intake compared with olive oil intake in late pregnancy and asthma in the offspring: 16 y of registry-based follow-up from a randomized controlled trial. Am J Clin Nutr 2008;88:167-75.

  4. Olsen SF, Sørensen JD, Secher NJ et al. Randomised controlled trial of effect of fish-oil supplementation on pregnancy duration. Lancet 1992;339:1003-7.

  5. Hansen S, Ström M, Maslova E et al. A comparison of three methods to measure asthma in epidemiologic studies: results from the Danish National Birth Cohort. PLoS ONE 2012;7:e36328.

  6. Rothman KJ, Greenland S, Lash TL. Modern epidemiology. Third ed. Philadelphia: Lippincott Williams & Wilkins, 2008.

  7. Kristensen P. Bias from nondifferential but dependent misclassification of exposure and outcome. Epidemiology 1992;3:210-5.