Livskvalitet som sundhedsfagligt effektmål

Objektive helbredsparametre er sjældent udtømmende mål for den patientoplevede sygdomsbyrde, og livskvalitet anvendes i stigende grad som supplerende effektmål ved vurdering af behandlingseffekt og helbredstilstand. Den mest udbredte metode til måling af livskvalitet er brug af spørgeskemaer, og som for andre målemetoder stilles der krav til undersøgelsesinstrumenternes reliabilitet og validitet. Blandt de centrale reliabilitets- og validitetsbegeber for livskvalitetsinstrumenter er test-retest-reliabilitet, intern konsistens, indholdsvaliditet, kriterievaliditet, begrebsvaliditet og responsiveness (følsomhed over for ændringer). Udbredelsen af kendskabet til de metodiske anstrengelser bag validering af livskvalitetsinstrumenter kan forhåbentlig øge tilliden til livskvalitet som et relevant effekt- og kvalitetsmål i sundhedsvæsenet. I klinikken kan livskvalitetsmålinger endvidere anvendes som anledning til at øge fokus på emner, der har betydning for patienternes livskvalitet, men som sjældent berøres i relationen mellem læge og patient.

Hidtil har man inden for sundhedsvidenskaben overvejende anvendt såkaldt objektive parametre ved vurdering af behandlingseffekter og helbredstilstand, eksempelvis mortalitet, morbiditet, funktionsstatusmål, arbejdsstatus og komplikationer. Sådanne parametre er imidlertid sjældent udtømmende mål for den patientoplevede sygdomsbyrde, og der forekommer ofte afvigelser mellem objektive sygdomsparametre og patienternes oplevede belastning. Blandt andet på denne baggrund er der opstået behov for supplerende metoder til vurdering af helbredstilstanden baseret på patienternes egen opfattelse. Inden for de senere år er det blevet mere udbredt at supplere objektive helbredsmål med målinger af selvrapporteret livskvalitet. Formålet med denne artikel er at give en kort introduktion til livskvalitetsbegrebets anvendelse i sundhedsvæsenet samt en beskrivelse af metoder til vurdering af kvaliteten af spørgeskemainstrumenter.

Livskvalitetsbegrebet i sundhedssammenhænge

I sundhedsfaglige sammenhænge anvendes livskvalitetsbegrebet som et bredt helbredsmål, der refererer til patienternes egen vurdering af deres fysiske, følelsesmæssige og sociale velbefindende [1]. Denne anvendelse af livskvalitetsbegrebet er tæt beslægtet med WHO's sundhedsdefinition, i hvilken sundhed ikke blot forstås som fravær af sygdom, men defineres som en tilstand, der er karakteriseret ved fysisk, psykisk og social trivsel. For at præcisere, at der er tale om aspekter ved livskvalitet, der vedrører helbred og sygdom, foretrækker man i dag at anvende betegnelsen »helbredsrelateret livskvalitet« frem for den bredere betegnelse »livskvalitet«.

Hvorfor måle helbredsrelateret livskvalitet?

Sygdomsbilledet i den vestlige verden er i dag domineret af kroniske sygdomme som hjerte-kar-sygdomme, diabetes og allergiske lidelser og sygdomme, herunder kræftsygdomme, som er karakteriseret ved lange behandlingsforløb. Behandling af kroniske sygdomme er ofte livslang, og formålet med behandlingen er ikke helbredelse, men symptomlindring. I sådanne tilfælde er det bl.a. vigtigt at kunne vurdere, om en behandling har flere bivirkninger end helbredsmæssige gevinster. Eksempelvis findes der tilfælde, hvor en behandling har vist sig at være effektiv målt ved objektive parametre, men hvor patienterne ikke desto mindre rapporterer om nedsat livskvalitet som følge af behandlingen [2]. Blandt andet på denne baggrund anbefaler The Federal Drug Administration i USA, at man ved afprøvning af nye behandlinger inddrager målinger af patienternes livskvalitet.

Typer af livskvalitetsskalaer

Den mest udbredte metode til måling af livskvalitet er brug af spørgeskemaer. Sådanne spørgeskemaer inddeles generelt i to hovedtyper: generiske og sygdomsspecifikke. De generiske spørgeskemaer indeholder spørgsmål, som anses for relevante for såvel raske som syge, hvorimod de sygdomsspecifikke - som navnet antyder - er udviklet til at måle livskvaliteten hos specifikke patientgrupper. I dag findes der over 20 generiske skalaer og flere hundrede sygdomsspecifikke (Tabel 1 ).

Spørgsmålene i livskvalitetsskalaer er ofte grupperet i underskalaer omhandlende fysisk, psykisk og socialt velbefindende. Inddelingen af spørgsmål i underskalaer sker hyppigt på baggrund af en såkaldt faktoranalyse, som afdækker grupper af spørgsmål med høj indbyrdes korrelation.

Da generiske spørgeskemaer indeholder spørgsmål af generel helbredsmæssig relevans, kan de anvendes til sammenligninger af livskvalitet mellem forskellige patientgrupper og mellem raske og syge. De generiske skalaer er ligeledes velegnet i forbindelse med befolkningsundersøgelser af den almene helbredstilstand.

I forbindelse med bl.a. behandlingsforsøg er det vigtigt, at man vha. spørgeskemaet kan registrere både de bivirkninger og de behandlingseffekter, som er specifikke for en given sygdom og behandling. Her er generiske spørgeskemaer ofte ikke tilstrækkelige. På denne baggrund er der i de senere år udviklet en lang række sygdomsspecifikke livskvalitetsskalaer, som indeholder spørgsmål af særlig relevans for en bestemt patientgruppe. Ofte ses sygdomsspecifikke skemaer anvendt i kombination med generiske skemaer, for at sikre at flest mulige af de aspekter, der antages at have betydning for trivselen hos patienter med en given sygdom, er afspejlet i livskvalitetsmålingen.

Validering af livskvalitetsskalaer

Selv om livskvalitet først og fremmest er et subjektivt begreb, der er relateret til personens oplevelse af væsentlige aspekter ved det psykiske, sociale og fysiske velbefindende, må man, for at kunne inddrage livskvalitet som effektmål, stille de samme overordnede krav til livskvalitetsskalaernes reliabilitet og validitet, som man vil stille til andre medicinske måleskalaer.

Reliabilitet

Reliabilitet refererer til graden af stabilitet ved måleresultater [28]. Jo mere pålidelig en skala er, des færre tilfældige fejl vil den indeholde. Et aspekt ved reliabilitet er således at opnå samme resultater ved gentagne målinger (test-retest-reliabilitet).

Ved afprøvning af test-retest-reliabilitet anmodes en gruppe svarpersoner om at besvare skemaet flere gange med et passende tidsinterval, hvorefter der foretages en beregning af korrelationen mellem målingerne. En fuldstændig overensstemmelse imellem to besvarelser er imidlertid ikke realistisk at forvente. Selv ved måling af de mest stabile variable vil faktorer som træthed og motivation variere og dermed give anledning til forskellige resultater. En hyppigt anvendt standard for acceptabel test-retest-reliabilitet er 0,70 eller derover.

Ud over gentagelsesaspektet vedrører reliabilit et også spørgeskemaets interne overensstemmelse (interne konsistens). Således må man forvente en vis overensstemmelse mellem spørgsmål, der alle antages at være udtryk for en given dimension ved livskvalitet. Et hyppigt anvendt mål for intern konsistens er Cronbachs alfa. Denne koefficient kan variere mellem 0 og 1, hvor værdier tæt på 1 tolkes som høj grad af intern konsistens. Ofte anføres en alfa på 0,70 som minimumsgrænsen for tilfredsstillende intern konsistens, men skal spørgeskemaet anvendes til individuelle patienter, bør alfa være over 0,90 [28]. Alfas størrelse afhænger af flere faktorer, herunder antallet af spørgsmål. Ved skalaer med meget høj alfa bør man være opmærksom på, om der blandt spørgsmålene er nogle, der blot er sproglige omformuleringer af andre spørgsmål i skalaen. I sådanne tilfælde kan den høje alfa være tegn på redundante spørgsmål, dvs. spørgsmål, som er overflødige, fordi de - bortset fra sproglige omformuleringer - måler det samme som andre spørgsmål [28].

Validitet

En skalas validitet refererer til dets evne til at måle det, som den antages at måle. Der skelnes imellem forskellige validitetsaspekter, f.eks. indholds-, kriterierelateret- og begrebsvaliditet [28]. Indholdsvaliditet refererer til, hvorvidt skalaen synes at dække alle relevante aspekter ved livskvalitet. Graden af indholdsvaliditet er ikke direkte målelig, men bør baseres på en systematisk beskrivelse af de aspekter, der hører med til det begreb, skalaen skal måle [28]. På baggrund af den systematiske beskrivelse vurderes det, om spørgsmålene dækker alle relevante aspekter samt undgår aspekter, der ligger uden for begrebet. For at øge indholdsvaliditeten vælger man ofte at inddrage et ekspertpanel af forskere, klinikere, patienter og pårørende i konstruktionen af livskvalitetsspørgeskemaer. Ved kriterievaliditet sammenstilles de resultater, der opnås med skalaen, med et afgørende kriterium for det, der ønskes målt. Da livskvalitet er subjektiv og underlagt en vis grad af individuel variabilitet, er det ikke muligt at pege på et entydigt kriterium, en såkaldt guldstandard. En af de hyppigst anvendte metoder til afprøvning af livskvalitetsskalaers kriterievaliditet er at sammenstille de resultater, der opnås med skalaen, med resultater fra en anden allerede valideret skala til måling af helbredsrelateret livskvalitet. Problemet i denne sammenhæng kan imidlertid være at fastsætte grænsen for acceptable overensstemmelser [29]. Er der en meget høj grad af overensstemmelse, vil man kunne hævde, at den nye skala er overflødig. Omvendt må man forholde sig kritisk til en lav grad af overensstemmelse imellem resultater opnået med to skalaer, som begge hævder at være mål for livskvalitet. Da skalaers realibilitetskoefficienter statistisk set sætter den øvre grænse for graden af sammenhæng imellem skalaernes resultater, ligger en vejledende standard for graden af overensstemmelse imellem resultater opnået med to forskellige livskvalitetsskalaer på 0,40-0,60 [30].

Ved afprøvning af livskvalitetsskalaers begrebsvaliditet undersøges det, om de svar vi indhenter med skalaen kan anses for at være i overensstemmelse med vores teorier om livskvalitet. Således opstilles en række hypoteser, som danner en teoretisk ramme for de efterfølgende statistiske analyser. Eksempelvis kunne vi opstille den hypotese, at personer, som rapporterer om høj livskvalitet, rapporterer om få depressive symptomer på en skala til måling af depression. En særlig metode til afprøvning af livskvalitetsskalaers begrebsvaliditet er såkaldte known-groups comparisons . Rationalet bag denne metode er, at patienter, man på forhånd ved, adskiller sig fra hinanden (eksempelvis vedrørende sygdomsgrad), også må forventes at adskille sig fra hinanden mht. scorer på den pågældende livskvalitetsskala.

Skalaers begrebsvaliditet vurderes også i forhold til variable, med hvilke man ikke forventer en sammenhæng, f.eks. øjenfarve eller højde (diskriminativ validitet). Finder man en sammenhæng, som er i modstrid med, hvad man ville forvente, bør det give anledning til at vurdere, om man i realiteten måler noget andet, end man havde forestillet sig.

Responsiveness

Finder man ved kontrollerede behandlingsforsøg, hvor livskvalitet indgår som endepunkt, ikke en behandlingseffekt, vil man måske konkludere - såfremt undersøgelsen har en tilstrækkelig statistisk styrke - at den behandling, som afprøves, er uden effekt. Imidlertid bør det overvejes, om den manglende effekt kunne skyldes, at den anvendte livskvalitetsskala i for ringe grad er følsom over for ændringer i livskvaliteten. Graden af følsomhed - også kaldet responsiveness - bør derfor være afprøvet, inden en livskvalitetsskala anvendes til evaluering af behandlinger.

En hyppig anvendt metode til afprøvning af responsiveness er den såkaldte ankermetode, hvor observerede ændringer i helbredstilstanden sammenholdes med eventuelle selvrapporterede ændringer i livskvaliteten [31]. I forbindelse med afprøvning af livskvalitetsskalaers responsiveness ses af og til beregninger af effektstørrelse. Denne metode anvendes især, når forskellige livskvalitetsskalaers grad af responsiveness ønskes sammenlignet [31]. Binære svarkategorier, f.eks. ja/nejsvarmuligheder, kan give anledning til lav responsiveness . Sådanne svarmuligheder er som regel enkle at forstå for svarpersonen, men ofte skal der ske store ændringer i helbredstilstanden, førend svarpersonen ændrer sit svar fra et nej til et ja. Et andet forhold, der kan være forbundet med lav responsiveness , er de såkaldte loftseffekter [28]. En loftseffekt indebærer, at en stor procentdel af svarpersonerne, eksempelvis flere end 20%, opnår den højest mulige score. I praksis betyder en sådan loftseffekt, at svarpersonerne ikke kan forbedre deres score, idet de så at sige har »ramt loftet« inden for det spektrum, hvor skalaen er følsom. Hvis en stor del af patienterne opnår den lavest mulige score, taler man i stedet for om en gulveffekt, som hæmmer muligheden for at se forværringer i scoren. Lofts- og gulveffekter er ofte populationsafhængige. Eksempelvis har man for den generiske skala SF-36 påvist loftseffekter, når det besvares af raske [32], og gulveffekter, når det besvares af personer med svære handikap [33].

I litteraturen fremstilles responsiveness ofte som et selvstændigt kriterium for vurdering af livskvalitetsskalaers kvalitet. Imidlertid synes responsiveness at være vanskeligt at adskille fra begrebsvaliditet, idet vi under afprøvning af responsiveness faktisk søger at bekræfte en hypotese om, at livskvalitet forandrer sig, når helbredsstatus ændres [28, 34].

Nyere metoder til afprøvning af validitet

De hidtil omtalte metoder til validering af livskvalitetsskalaer stammer alle fra såkaldt klassisk testteori. Disse metoder er fortsat de mest anvendte, men i løbet af de seneste år er man i stigende omfang begyndt at videreudvikle procedurerne for validering af spørgeskemaer. Blandt de nyere valideringsmetoder findes item-response -teori« (IRT). Til denne gruppe af matematiske modeller hører bl.a. Rasch-modellen, som er baseret på den teori, at en persons forventede besvarelse af et spørgsmål afhænger af det pågældende spørgsmåls sværhedsgrad og personens færdighedsniveau [35]. Item-response- analyser er forholdsvis komplicerede at udføre, men til gengæld har skalaer, der opfylder item-response -modellernes forudsætninger en række fordele, herunder at man principielt opnår samme resultat a f sine analyser, uanset om man anvender alle spørgsmål eller kun en delmængde. Beslægtet med item-response -analyser er analyser for differentiel item -funktion (DIF), også kaldet item bias [36]. Her undersøges det, om en skala fungerer på samme måde blandt forskellige grupper af svarpersoner. Det vil sige, at man (for personer med samme niveau af livskvalitet) i forskellige grupper, f.eks. hos unge og gamle, mænd og kvinder etc., finder samme svarfordeling på de enkelte spørgsmål. Er dette ikke tilfældet, kan det få betydning for de konklusioner, der drages på baggrund af livskvalitetsmålingen.

Fortolkning af livskvalitetsmål på individniveau?

De metoder og procedurer, som er beskrevet på de foregående sider, er velegnede til afprøvning af skalaer, som er udviklet med henblik på at sammenligne livskvaliteten mellem forskellige patientgrupper eller før og efter en behandling. Selv om en skala lever op til de beskrevne krav om reliabilitet og validitet, er det imidlertid ikke sikkert, at skalaen er velegnet til brug på det individuelle patientniveau. Blandt andet kan det være vanskeligt at tolke betydningen af den enkelte patients score. Hvornår har en patient f.eks. mild, moderat eller stærkt nedsat livskvalitet? Ligeledes kan det være vanskeligt at tolke ændringer i målinger hos den enkelte patient. At finde en statistisk signifikant forskel mellem to livskvalitetsmålinger betyder ikke nødvendigvis, at forskellen opleves som klinisk signifikant. I løbet af de seneste år er interessen for brug af livskvalitetsskalaer i klinisk praksis steget [31, 37], og der foregår i stigende omfang en række forsøg på at udvikle brugbare værktøjer med henblik på tolkning af livskvalitetsmålinger på individniveau. Eksempelvis har man for nogle skalaer udarbejdet et normmateriale, som giver en beskrivelse af, hvad der er normal variation [38, 39]. For enkelte skalaer har man endvidere undersøgt, hvilke forskelle i målinger over tid der for patienten svarer til hhv. mindre, moderate og større ændringer i livskvaliteten [40]. De opnåede resultater er imidlertid specifikke for den undersøgte skala, så endnu mangler der altså en del arbejde med at udvikle en pulje af spørgeskemaer, som har større anvendelighed på individniveau.

Konklusion

Udvikling af skalaer til måling af helbredsrelateret livskvalitet foregår med henblik på at opnå en så høj grad af reliabilitet og validitet som muligt. Udbredelsen af kendskabet til de metodiske anstrengelser, der ligger til grund for valideringen af sådanne livskvalitetsskalaer kan forhåbentligt bidrage til at øge tilliden til livskvalitet som en relevant og gyldig effektparameter i sundhedsvæsenet. Inddragelse af livskvalitet som relevant effektmål i forbindelse med kliniske undersøgelser kan bidrage til, at patienternes oplevelser, holdninger og værdier får en styrket rolle i forbindelse med tilrettelæggelsen af behandling og pleje.

Der foregår allerede et stort arbejde med henblik på at lette tolkningen af livskvalitetsmålinger i kliniske sammenhænge. Et af målene i denne sammenhæng er at udvikle skalaer, som er egnede til identificering af patienter med særlige behov. I kliniske sammenhænge kan livskvalitetsmålinger anvendes som redskab til at få talt om emner, der har betydning for patientens livskvalitet, men ellers sjældent berøres i samtalen mellem læge og patient.

Anette Fischer Pedersen, Psykoonkologisk Forskningsenhed, Psykologisk Institut, DK-8000 Århus C. E-mail: afped@as.aaa.dk

Antaget: 10. januar 2005

Interessekonflikter: Ingen angivet

Cella DF. Quality of life: concepts and definition. J Pain Symptom Manage 1994;9:186-92.
Birdwood G. Quality of life - how it can be assessed and improved. Basel: John Wiley and Sons Ltd, 1987.
McHorney CA, Ware JE, Raczek AE. The MOS 36-item short-form health survey (SF-36). II: 2. Psychometric and clinical tests of validity in measuring physical and mental health constructs. Med Care 1993;31:247-63.
McHorney CA, Ware JE, Rachel L et al. The MOS 36-item short-form health survey (SF-36). I: 3. Tests of data quality, scaling assumptions, and reliability across diverse patient groups. Med Care 1994;32:40-66.
Bjorner JB, Thunedborg K, Kristensen TS et al. The Danish SF-36 Health Survey: translation and preliminary validity studies. J Clin Epidemiol 1998;51:991-9.
Bjorner JB, Damsgaard MT, Watt T et al. Tests of data quality, scaling assumptions, and reliability of the Danish SF-36. J Clin Epidemiol 1998;51:1001-11.
Bjorner JB, Kreiner S, Ware JE et al. Differential item functioning in the Danish translation of the SF-36. J Clin Epidemiol 1998;51:1189-202.
Hunt SM, McKenna SP, McEwen J et al. A quantitative approach to perceived health status: a validation study. J Epidemiol Community Health 1980; 34:281-86.
Thorsen H, McKenna SP, Gottschalck L. The Danish version of the Nottingham Health Profile: its adaptation and reliability. Scand J Prim Health Care 1993;11:124-9.
Thorsen H, McKenna S, Gottschalck L. Perceived health in three groups of elderly people. Dan Med Bull 1995;42:105-8.
Schroll M, Schlettwein D, van Staveren W et al. Health related quality of life and physical performance. SENECA 1999. J Nutr Health Aging 2002;6:15-9.
Thorsen H, McKenna S, Tennant A et al. Nottingham health profile scores predict the outcome and support aggressive revascularisation for critical ischaemia. Eur J Vasc Endovasc Surg 2002;23:495-9.
The WHOQOL Group. The World Health Organization Quality of Life Assessment (WHOQOL). Position paper from The World Health Organization. Soc Sci Med 1995;41:1403-9.
Nørholm V, Bech P. The WHO Quality of Life (WHOQOL) Questionnaire: Danish validation study. Nord J Psychiatry 2001;55:229-35.
Bergner M, Bobbitt R, Carter W, Gilson B et al. The sickness impact profile: Development an d final revision of a health status measure. Med Care 1981;19:787-805.
Folker H, Jensen BM. Undersøgelse af udvalgte metoder til selvvurdering af helbred, livskvalitet og tilfredshed med behandling. Ugeskr Læger 2001; 24:3347-52.
Folker H. Selvvurdering af funktionsniveau hos en gruppe psykiatriske patienter ved indlæggelse og udskrivning. Ugeskr Læger 1992; 154:130-3.
Folker H, Kreiner S, Deleuran A et al. Undersøgelse af målekvalitet

Livskvalitet som sundhedsfagligt effektmål

Livskvalitet som sundhedsfagligt effektmål

Summary

Referencer