Skip to main content

Screening

Jørn Olsen

2. nov. 2005
16 min.


Screening bygger på det håb, at tidlig behandling vil give et terapeutisk benefit. Sygdomme, der er irreversible, når først sygdomsprocessen er startet, og som vil føre til død eller invaliditet i ubehandlet tilstand, er sygdomme, man gerne vil screene for. Det forudsætter bl.a., at man har de nødvendige midler i form af en god behandling, en valid screeningstest, udstyr, mandskab og økonomiske ressourcer. Selv når disse betingelser er opfyldt, vil programmet have bivirkninger, fordi næsten alle screeningsprogrammer har falsk positive testresultater, overser syge og fanger syge, der aldrig ville blive patienter, fordi de ville dø af andre årsager, uden at sygdommen ville give symptomer, hvad enten dette sker sent eller tidligt i sygdomsforløbet.

Screening er derfor ikke et entydigt gode, men en teknologi, der må underkastes løbende vurdering af uvildige eksperter. Kravene til denne teknologivurdering er øget over tid og omfatter nu også randomiserede forsøg af visse typer af screening. Kravene til disse forsøg er fortsat begrænset til »hårde« slutmål som fx diagnosespecifik død, men der er næppe tvivl om, at de i fremtiden også skal omfatte »bløde«, men vigtige mål. Hvilke psykiske problemer medfører screeningen for især dem, der testes falsk positive? Medfører screeningen en uhensigtsmæssig sygdomsangst, eller er screeningen med til at svække den primære forebyggelse, fordi man kan vente med at gøre noget, til sygdommen er til stede? Kan man screene for allergi og lungesygdomme, så man måske ikke behøver at forbedre fx arbejdsmiljøet?

Når dette er sagt, må det også siges, at der er god dokumentation for, at screeningsprogrammer kan være en fornuftig investering. Under alle omstændigheder er screening en teknologi, hvis udvikling ikke lader sig bremse. Ofte står valget mellem systematisk og planlagt screening i forhold til en usystematisk screening og et stigende forbrug af screeningstest.

Screening betyder, at asymptomatiske personer undersøges med henblik på at diagnosticere sygdom så tidligt som muligt. Dette gøres oftest ved anvendelse af en test, og med denne test er man sædvanligvis ikke i stand til at diagnosticere sygdom, men blot at udpege personer til nærmere diagnostisk udredning. Screening bruges således til at udvælge personer til yderligere diagnostisk udredning.

Screening synes at være en helt indlysende god idé, når der screenes for sygdomme, som man må formode har bedre helbredsmuligheder, når de behandles tidligt. Som Kræftens Bekæmpelse sagde det i en af deres tidligere kampagner: »kræft, der diagnosticeres i tide, kan helbredes«, hvilket må siges at være en apodiktisk sandhed. Alligevel er screening formentlig en af de mest kontroversielle medicinske teknologier, og hvorfor nu det?

Det skyldes, at mange screeningsprogrammer er kostbare, har alvorlige bivirkninger og ofte fordele, der er mindre end ventet. Screening er også en industri med mange ansatte og med et stort udviklingspotentiale og gode muligheder for store fortjenester. Screening er ligeledes en aktivitet, der kan anvendes i den politiske kamp for at skaffe flere stemmer. Screening kan gøre små specialer store og fastholde befolkningens opmærksomhed på sygdomme, som de ellers ville glemme og overse og leve lykkeligt uden at kende eksistensen af.

Men screening er også den logiske løsning for de klinikere, der må se mange af deres patienter komme alt for sent til behandling.

Bivirkninger

Som anført kan screening have en række mere eller mindre alvorlige bivirkninger. Disse bivirkninger afhænger af screeningstestens validitet og sikkerhed, sygdommens natur og behandlingsteamets kompetence. Den vigtigste bivirkning består formentlig i risikoen for overbehandling. Sygdommen kan være reversibel i den fase, hvor den kan opdages ved screeningen, hvilket kan føre til behandling også af patienter uden behov for behandling. Alle screeningstest har desuden falske testresultater. Det betyder, at mange raske vil blive indkaldt til efterundersøgelser, som kan være belastende og måske ikke helt ufarlige, som fx kolonoskopier som opfølgning på test for blod i afføringen.

Desuden vil ethvert screeningsprogram fokusere på og måske øge frygten for sygdomme; gøre raske til indbildt syge. Vor empiriske viden om dette problem er begrænset, og det giver plads til holdninger, der spænder fra den ene yderlighed til den anden. Nogle mener, at problemet næppe er eksisterende, andre mener, at dette problem er en væsentlig årsag til, at vi har store problemer med raske »syge«; at screening i større stil fører til en iatrogen betinget patientliggørelse af psykisk sårbare, men ellers raske mennesker. Screening koster også penge, der måske kunne bruges bedre på andre områder. I fattige lande vil screening kunne fjerne både personalemæssige og økonomiske ressourcer fra helt nødvendige aktiviteter inden for den primære forebyggelse og behandling. Af disse og andre grunde er screening ikke noget indlysende gode, men en aktivitet, der skal vurderes med ordentlige teknikker og af uvildige personer (1).

Problemer ved effektvurdering

Denne vurdering er desværre ikke helt simpel. Det er fx ikke nok blot at konstatere, at de personer, der blev diagnosticeret efter screeningen, lever længere end andre patienter, efter at sygdommen er diagnosticeret. Screening vil sædvanligvis flytte diagnosetidspunktet frem i tid - det er faktisk hele formålet - og det vil give længere overlevelsestid, også selv om dødsalderen forbliver den samme. Dette kaldes lead time bias eller forspringsbias og betyder blot, at tiden som patient bliver længere for de personer, der ikke får gavn af den screeningsinducerede behandling. Dette er illustreret i Fig. 1 , hvor livsbanen for en person er indtegnet. Sygdommen starter ved t0 og kan diagnosticeres ved t1 ved anvendelse af en screeningstest. Sygommen vil under alle omstændigheder blive diagnosticeret ved t2, og personen dør ved t3. Figuren illustrerer den maksimale lead time bias for en person, hvis sygdomsforløb ikke påvirkes af behandlingen. Levetider efter diagnostik er effektmål, der må tolkes med betydelig forsigtighed, når et screeningsprogram skal vurderes.

Der vil også være en tendens til, at patienter, der findes i screeningen, har en bedre prognose end andre på grund af længdebias. Når man screener, forsøger man at fange prævalente tilfælde af syge, og som nogle kan huske fra epidemiologiundervisningen, er prævalensen en funktion af incidens og varighed. Sygdomme med langsom progression (lang varighed, god prognose) vil derfor blive overrepræsenterede blandt dem, der findes ved screeningen, i forhold til incidente, klinisk diagnosticerede s ygdomme. På samme måde er der langt flere diabetikere i befolkningen end personer med sygdomme med høj letalitet, selv om de måske har samme livstidsrisiko. Det er denne længdebias, der er skyld i, at der under en epidemi af en smitsom sygdom vil være langt flere prævalente tilfælde af patienter med komplikationer end blandt incidente tilfælde, eller at der blandt indlagte, kirurgiske patienter altid vil være overvægt af patienter med komplikationer.

Til disse to problemer skal føjes, at der er forskel på betingede sandsynligheder og en manglende forståelse af det koster penge og liv. Sandsynligheden for at være syg, hvis en screeningstest er positiv, er ikke lig med sandsynligheden for at være testpositiv, hvis man er syg. Hvis 80% af alle syge »fanges« af en screeningstest, betyder det ikke nødvendigvis, at der er 80% risiko for at være syg, hvis man testes positiv. Ofte vil det være meget mindre. Den prædiktive værdi af en positiv test er heller ikke den samme i klinikken som ved en befolkningsscreening. Klinikeren kan let komme ud for, at den prædiktive værdi af en positiv test går fra meget høje til meget lave værdier, når testen skifter fra at blive anvendt på selektive hospitalspatienter til udtræk fra befolkningen. Tabel 1 angiver den forventede fordeling imellem raske og syge, testpositive og testnegative som en funktion af testens sensitivitet (sens, andelen af syge, der forventes at blive testet positive), specificitet (spec, andelen af raske, der forventes at blive testet negative) og sygdommens prævalens (P). Da P typisk er lav i screeningssituationen (oftest under 10% og undertiden under 1%) vil testens specificitet få afgørende betydning for den prædiktive værdi. Det fremgår af formler for prædiktiv værdi, at hvis man anvender den samme test med en sensitivitet på 80% og en specificitet på 90% i en hospitalssituation, hvor 50% har den pågældende sygdom, så vil 88,9% af de testpositive være syge. Bruges testen på en befolkning med en sygdomsprævalens på 1%, vil 7,5% af de testpositive være syge, sådan som det vises i Tabel 2 .

Læger har ofte problemer med denne simple sandsynlighedsregning. Ansatte og studenter på Harvard Medical School fik fx stillet spørgsmålet: »Hvis en test, der er falsk positiv i 5% af tilfældene, bruges til at finde personer med en sygdom, som en ud af 1.000 har, hvad er da sandsynligheden for at en testpositiv person faktisk er syg, givet det er den eneste information du har?« Det hyppigste svar var 95%, og mindre end 20% gav det næsten korrekte svar: 2% (2). Formlen under Tabel 2 viser, at det helt korrekte svar ville være, at det også afhænger af testens sensitivitet (ingen gav dette svar). Svaret forudsætter, at testen fanger alle syge (sensitivitet på 100%), men sensitiviteten spiller næsten ingen rolle, når prævalensen er lav. Det afgørende er risikoen for falsk positive (1-specificiteten), og hvis 2% er godt nok på Harvard, så lader vi det også passere i Århus.

Disse problemer kommer ofte bag på den ukyndige, men når de først forstås, har de desværre en tendens til helt at overskygge en nøgtern vurdering af det samlede screeningsforløb. Mange tror, at de har set lyset, når disse forhold langt om længe er trængt ind, og bliver skeptiske over for alle former for screening. De har fået frataget barndommens uskyld og ser nu kun uoverskuelige problemer ved al screening. De er lige så ubrugelige i rådgivningen, som de naive screeningstilhængere.

Evaluering

I lyset af disse - og mange andre problemer - er kravene til evaluering af screeningsprogrammerne øget: fra en blot og bar konstatering af at man havde en test, der kunne diagnosticere en sygdom tidligt, til randomiserede, kontrollerede forsøg (RCT) af screeningens effekt på den årsagsspecifikke dødelighed (3). På grund af lead time bias er effektmålet i disse studier som nævnt ikke overlevelse efter diagnosticering af sygdommen. Effektmålet er den diagnosespecifikke mortalitet, altså om et screeningsprogram for brystcancer eller coloncancer kan reducere dødeligheden af disse sygdomme i de grupper, der randomiseres til screening. Da der ofte er en vis usikkerhed om klassificeringen af den tilgrundliggende dødsårsag, forudsætter det blindet klassifikation af dødsårsager i perioden, hvor det randomiserede forsøg gennemføres. Det er svært at sikre og er langtfra gennemført i alle screeningsforsøg. Uden blindet dødsårsagsdiagnostik må man formentlig forvente, at cancerscreening fører til bias, der delvist vil kunne skjule en gunstig screeningseffekt, hvis lægen tror al cancer fører til døden, eller forstærker effekten hvis lægen tror cancer der er opdaget ved screening ikke fører til døden. Man kunne også lade den totale dødelighed være effektmålet, men det forudsætter meget større forsøg, fordi den forventede effekt på den totale dødelighed er meget beskeden. Det samme gælder for mange andre kostbare aktiviteter i sundhedsvæsenet.

Selv om kravene til dokumentation er øget, og selv om disse krav er opfyldt for visse screeningsprogrammer, så synes det ikke i sig selv at føre til større enighed. Det bedst undersøgte screeningsprogram er formentlig screening for brystcancer med mammografi som screeningstest. Selv her er der faglig uenighed om, hvad disse forsøg faktisk viser. Hertil kommer usikkerheden om mammografiscreeningens betydning, når den gennemføres under rutineprægede omstændigheder. Selv personer, der (som forfatteren) mener, at de eksisterende undersøgelser viser, at man kan reducere dødeligheden af brystcancer ved screeningen, må erkende, at det ikke sker uden bivirkninger. Den forventede, reducerede dødelighed af brystcancer er beskeden og kan formentlig let sættes over styr, hvis ikke alle rutiner løbende holdes på et højt kvalitetsniveau. Et screeningsprogram må derfor løbende evalueres.

Langt de fleste screeningsprogrammer er indført uden RCT. Det gælder fx for cervixcancerscreeningen, phenylketonuri (PKU)-screeningen, for ikke at nævne alle de mere eller mindre systematiske former for screeninger, der foregår i svangreprofylaksen, screeninger, der udføres af sundhedsplejersker og skolelæger, helbredscheck ved ansættelser, erhvervelse af kørekort etc., eller som led i den almindelige kliniske udredning. Selv for mange nye screeningstest foreligger der end ikke andre analytiske epidemiologiske studier end de randomiserede forsøg. Der findes sjældent systematisk opfølgning af screeningens mulige bivirkninger.

Kravet til RCT er desuden foretaget uden dybere refleksioner, men ud fra en paratviden om, at RCT er det stærkeste design til at udrede årsagsforhold, der udspilles i komplicerede sociale systemer. Problemet er dog, at vi ikke primært ønsker at udrede årsagsforhold, men ønsker at vide om et screeningsprogram virker i praksis og ikke under de kunstige forhold, som et forsøg skaber. Et screeningsprogram omfatter mange flere elementer end det at give en tablet eller en injektion, elementer der ofte vil ændres over tid. Et korrekt gennemført forsøg kan let tage flere år at gennemføre og kan måske give brugbare resultater for en screeningsteknologi, der er udfaset, når resultaterne foreligger. Et forsøg tager heller ikke hensyn til, at vi ønsker at vide, om hele processen virker fra test til behandling og efterbehandling. Testen helbreder ingen i sig selv, og brug af testen er faktisk det eneste, der randomiseres, hvilket som oftest helt forbigås i evalueringen. Undertiden kan alle øvrige omstændigheder være konstante og dermed kontrollerede, fordi al diagnosticering og behandling centreres på et hospital og med samme hold af behandlere. Det var delvist tilfældet ved det screeningsforsøg af kolorektal cancer, der blev gennemført i Fyns Amt. Hvis der indgår forskellige team, kan dette både maskere eller for stærke en effekt af randomiseringen. Desuden er mange RCT behæftet med uundgåelige, metodologiske problemer på grund af deres størrelse og varighed. Selve randomiseringen er måske det mindst vigtige i denne sammenhæng, og det kan undre, at Det Nordiske Cochrane Center lagde så stor vægt netop på dette element (4). Manglende komplians eller kvalitetskontrol kan fx være af meget større betydning. Ofte bliver mange inviterede ikke screenet, og ofte ender en stor del af kontrolgruppen med at blive screenet, fordi selve screeningsprocedurerne har deres eget økonomiske liv, der ikke lader sig styre af hverken forskere eller amtsråd. Mange screeningsforsøg har langt mindre eksponeringskontrast end ønsket, og det er ofte vanskeligt at sikre en ensartet registrering af cancer og dødsårsager, der ikke er påvirket af screeningsresultater.

Det sker også, at man end ikke har gjort sig klart, hvilket spørgsmål man ønsker at belyse i forsøget. Er man interesseret i den samfundsmæssige nytte af et screeningsprogram, eller er man interesseret i at estimere, hvor meget screenede kan forvente at få reduceret deres dødsrisiko for den specifikke sygdom, hvis de siger ja til screeningen? Hvis det er den samfundsmæssige nytte, er det ideelle design randomisering før information og samtykke. En given befolkning randomiseres til screening eller ingen screening. De screeningsinviterede vælger frit, om de vil tage imod tilbuddet, og et sådant design forudsætter en screeningstest, der er ukendt og ikke efterspurgt af befolkningen. Coloncancerscreeningen i Fyns Amt blev gennemført efter denne model (5), og hermed fik man en realistisk vurdering af komplians. Med disse data kan man beregne, hvor meget samfundet vil kunne opnå ved at iværksætte coloncancerscreening efter de anvendte principper (6), bl.a. fordi man får en vurdering af befolkningens accept af programmet.

Ønsker man at vurdere, hvor meget den enkelte kan opnå ved at deltage i screeningen, må man søge at opnå så god komplians som muligt, dvs. give forsøgspersonerne detaljeret information og derefter indhente samtykke fra personer, der nu ved, hvad de går ind til, og af hvem man af denne grund vil forvente bedre komplians. Denne gruppe randomiseres, og resultaterne i et sådan RCT vil ofte være meget forskellige fra det første forsøg, bl.a. fordi de søger at besvare helt forskellige spørgsmål. Hvis screeningen virker, vil mange RCT, der er udført efter første model og bliver analyseret efter intention to treat -princippet, groft undervurdere den enkeltes screeningsfordel.

Randomiseringen er et vigtigt metodologisk biasbekæmpende princip, men det er vigtigere i nogle situationer end i andre (7), og det er formentlig sjældent af afgørende betydning i screeningen, hvor randomiserede og ikke-randomiserede studier da også har en tendens til at vise samstemmende resultater (8). Randomisering er helt afgørende, når man undersøger konsekvensen af en handling, fx en behandling, hvor behandlingsmuligheden er tæt forbundet med det forventede forløb af den sygdom, man ønsker at undersøge. Denne type af confounding by indication kan kun brydes ved randomisering.

Forholdene i et screeningsprogram er helt anderledes. Personerne er raske, og hvis screeningen allokeres i bestemte regioner eller over forskellige tidsperioder, er det svært at forestille sig, at selektionsbias bliver en væsentlig trussel mod studiernes validitet, når sammenligningen ikke baseres på personer, der har valgt eller fravalgt screening, men på regioner, der gennemførte eller ikke gennemførte screeningsprogrammerne. Med den udvikling, som behandlingen af visse cancersygdomme er inde i, vil brugen af historiske kontroller dog være problematisk. Selv i analyser, der er foretaget i populationer, der frit har valgt screeningen, vil man undertiden kunne rette op på selektionsbias, fordi denne bias nødvendigvis må være et resultat af en eksisterende viden, der fx er baseret på familiens sygehistorie. Denne »familiære« risiko kan eventuelt kontrolleres i analysen, hvis blot de rette data indsamles.

Selv om kravene til vurdering af screening er øget med tiden, indsamles der fortsat kun få oplysninger om screeningens psykiske konsekvenser. Sådanne informationer er vigtigst for programmer, der sigter mod screening for alvorlige sygdomme, såsom aids, cancer, aortaaneurismer etc.

Vi ved fra brystcancerscreening, at falsk positive testresultater ikke afholder kvinder fra fortsat at deltage i programmet (8), men vi ved meget lidt om, hvilke konsekvenser det har med jævne mellemrum at minde folk om deres sygdomsrisiko. Man kan måske hævde, at medierne i forvejen pisker så megen sygdomsangst op, at der er behov for en gang imellem at få denne angst afkræftet med en negativ screeningstest. Nogle vil formentlig mene, at det er den egentlig drivkraft bag et screeningsprogram (9).

Eksisterende data tyder dog på, at langt de fleste kan håndtere en screeningssituation rationelt og uden langsigtede bivirkninger. Følgevirkninger af negative test kan være mere alvorlige, når børn screenes for alvorlige sygdomme. Screening for medfødte hjertefejl har fx vist sig at have konsekvenser for, hvordan forældre opdrager og beskytter deres børn, selv de børn, der fik deres positive testresultater afkræftet (2).

Oplysning og viden

Etnomedicinske studier ville sikkert vise, at befolkningen ikke har den viden, der skal til, for at de kan give et informeret samtykke til at deltage i screeninger. Den folkelige opfattelse er formentlig, at screeninger er et gode, som man bør indføre for mange alvorlige sygdomme, hvis man har råd til det. Alligevel er deltagelsen i mange screeningsprogrammer lav, og det er vanskeligt at spå om, hvordan et oplysningsprogram vil påvirke deltagelsen. At bevæge sig fra uvidenhed om bivirkninger til fuld information behøver dog ikke at medføre en lavere deltagelse. Også fuldt oplyste læger deltager i kontroversielle screeningsprogrammer, endog i programmer, som de selv har ansvaret for.

I et offentligt sundhedsvæsen vil man lægge vægt på at give alle samme muligheder for deltagelse i offentligt finansierede programmer, men der er uenighed om, hvordan det gøres bedst. Uden et offentligt tilbud om gratis screening vil man forvente, at de med bedst kontakt til sundhedsvæsenet også får lettere adgang til screeningslignende tilbud. Med et offentligt tilbud, hvor initiativet overlades til den enkelte, vil man forvente, at de mest ressourcestærke personer tager imod tilbuddet, hvis det er et godt tilbud. Det er ikke sikkert, at det er de personer, der har den højeste risiko. I brystcancerscreeningen tyder det dog på, at kvinder med familiær forekomst af brystcancer oftere end andre tager imod screeningstilbuddet (8).

Når nogle taler for, at screeningskandidaterne inviteres direkte, er det fordi, det kan skabe større social lighed i screeningsdeltagelsen. Det stiller dog yderligere krav om information om bivirkningerne, fordi en sådan invitation lægger et vist pres på den inviterede for at sige ja til tilbuddet. Da det er ikke noget screeningskandidaterne har bedt om eller har opsøgt, har de, der inviterer, et stort ansvar (Boks 1 ).

Økonomi og etik

De fleste screeningsprogrammer har som nævnt både fordele og ulemper. En screeningstest kan føre til, at en sygdom bliver behandlet med fuld helbredelse som resultat, mens alternativet kunne være ren palliativ behandling. Et screeningsprogram kan også koste raske liv. Der er fx en vis strålingsfare ved mammografier, og et falsk positivt fund kan føre til en diagnostisk udredning, der i værste fald kan koste den undersøgte livet. Lad os sige, at et screeningsprogram redder 30 liv og koster et. Betyder det, at nettoeffekten er 29 sparede liv? Næppe. De tæller ikke på samme skala, og sundhedsvæsenet har et særligt ansvar,

Referencer

  1. Birkenhead O, Williams ET, McLachlan G, eds. Screening in medical care. Reviewing the evidence. A collection of essays. London: Oxford University Press, 1968.
  2. Hoffrage U, Lindsey S, Hertwig R, Gigerenzer G. Communicating statistical information. Science 2000; 290: 2261-2.
  3. Hugod C, Alban A, Dehlholm G, Fog J, Hørder M, Lynge E et al. Screening. Why, when and how? København: Sundhedsstyrelsen, 1992.
  4. Gøtzsche PC, Olsen O. Is screening for breast cancer with mammography justifiable? Lancet 2000; 355: 129-34.
  5. Kronborg O, Fenger C, Olsen J, Jørgensen OD, Søndergaard O. Randomised study of screening for colorectal cancer with no faecaloccult-blood test. Lancet 1996; 348: 1467-71.
  6. Statens Institut for medicinsk Teknologivurdering. Kræft i tyktarm og endetarm. Diagnostik og screening. Medicinsk Teknologivurdering 2001; 3.
  7. Olsen J, Olesen C. Randomisering og alternativer. Ugeskr Læger 1999; 161: 2657-60.
  8. Dalton SO, Olsen J. Oversigt over ikke-randomiserede studier af mammografiscreeningsprogrammer. København: Statens Institut for Medicinsk Teknologivurdering, 2001 (i trykken).
  9. Siem H. Masseundersøkelser og helsekontroller. NAVF's gruppe for helsetjenesteforskning. Rapport nr. 2. Oslo: Sundhedsstyrelsen, Medicinsk Teknologi Vurdering, 1997.
  10. Wilson JMG, Junger G. Principles and practice of screening for disease. WHO Public Health Paper 34. Genève: WHO, 1968.