Anvendelse af rating scales hos voksne patienter med hjernetumorer

Sundhedsvæsenets stigende krav til kvalitetskontrol bevirker hyppigere anvendelse af rating scales i fremtiden til vurdering af patienters kliniske status. Inden for kræftforskning og behandling har Karnofsky Performance Status i mange år været den mest benyttede. På hjernetumorområdet findes få eller ingen rating scales. I artiklen beskrives kriterier for valg af rating scales, og vægtningen af fysiske, emotionelle, kognitive og livskvalitetsmæssige aspekter diskuteres. De fleste af kriterierne er generelle og kan anvendes til vurdering af en rating scale for alle typer patienter, mens de kognitive aspekter er særlig vigtige for hjernetumorpatienter. Ti rating scales analyseres i forhold til de beskrevne kriterier. Det konkluderes, at ingen af skalaerne opfylder alle krav. For hjernetumorpatienter er Edinburgh Functional Impairment Test et godt bud, som bør valideres yderligere.

Der er i sundhedsvæsenet et stigende krav til dokumentation og kvalitetskontrol. En af hovedanbefalingerne i Kræftplan 2 [1] er »styrket monitorering og formidling af data, der dokumenterer kvaliteten af indsatsen«. En sådan indsats kræver i sagens natur et værktøj, og en rating scale er et sådant værktøj. Begrebet rating scale kan bedst oversættes til vurderings- eller klassifikationsskala og anvendes i litteraturen om mange forskellige typer skalaer, strækkende sig fra de korte, behandlerudfyldte skemaer med typisk 5-6 kategorier, som patienten kan placeres i på baggrund af journalnotater eller en kort udspørgen af vedkommende, til de lange og mere omfattende, patient- og/eller behandlerudfyldte skemaer, der kræver patientens aktive indsats. Rating scales anvendes til vha. en talværdi at udtrykke et niveau, f.eks. for en klinisk tilstand. Dette benyttes i vidt omfang til daglig monitorering af og kommunikation om patienter samt til løbende kvalitetssikring og i videnskabelige studier. Vurdering ved hjælp af en rating scale kan være et alternativ eller et supplement til de traditionelle parametre ved måling af behandlingseffekt (overlevelse, sygdomsfri overlevelse, responsrate og behandlingstoksicitet). Glasgow Coma Scale (GCS) er et eksempel på en rating scale, som er blevet udbredt til vurdering af patienter med hovedtraumer.

Blandt de mest anvendte rating scales inden for kræftområdet er Karnofsky Performance Status (KPS), som blev udviklet i 1948 og siden har været standard til vurdering af klinisk tilstand i studier med patienter med mange forskellige kræftsygdomme [2]. KPS er ikke udviklet specielt med fokus på hjernetumorpatienter og forekommer i dag med sin ensidige vægt på fysisk funktionsniveau at være forældet.

Formålet med denne artikel har været at undersøge alternative rating scales eksemplificeret ved patienter med hjernetumorer. Der opstilles en række kriterier for valg af rating scales til vurdering af disse patienter. Et udvalg af de eksisterende skalaer analyseres i forhold til kriterierne.

Metode

En kvalitativ gennemgang af den foreliggende litteratur blev foretaget med udgangspunkt i PubMed. De primært anvendte søgeord var clinical status, functional status, functional test, rating scale, neurological impairment, brain tumor og glioma, i kombination eller alene. Søgningen blev suppleret via de fundne artiklers referencelister. Aldersgruppen blev begrænset til voksne over 18 år og tidsperioden til 1980-2004. Der blev ikke fundet noget Cochrane-review af emnet.

Kriterier for valg af rating scales

En søgning på PubMed på rating scales førte til knap 60.000 hits. Selv i kombination med de andre søgeord fandtes flere tusinde hit. De fleste rating scales var almene, kun få var specifikke for centralnervesystemet. En hel del drejede sig alene om livskvalitet (quality of life, QOL) og blev sorteret fra. Man udvalgte herefter de rating scales, som havde relation til sygdomme i centralnervesystemet såsom apopleksi (stroke ), kranietraumer og tumorer. Herefter stod man med 17 rating scales, hvoraf de to drejede sig om apopleksipatienter. De blev vurderet på baggrund af nedenstående kriterier, hvilket resulterede i en liste på ti rating scales (Tabel 1 ). Skalaerne er sat i rækkefølge med de mest kortfattede øverst. De opstillede kriterier var:

Tidsforbrug og definition af skalatrin

Overordnet skal en rating scale være nem at gennemføre, minimalt resursekrævende og følsom for forandring af patientens tilstand [3, 4]. Heri ligger, at anvendelse af skalaen kun må kræve et begrænset tidsforbrug. I mange undersøgelser vælges ti minutter som maksimum. Endvidere skal en rating scale have klart definerede skalatrin samt være overskuelig, dvs. have få trin samtidig med, at alle patienter kan placeres på skalaen, inkl. dem, der har få eller ingen symptomer. Er dette ikke muligt, taler man om en såkaldt ceiling effect, dvs. at den maksimalt opnåelige score er for lav, således at skalaen ikke kan bruges til konstatering af niveauforskelle mellem de bedst fungerende patienter. Ved resurser forstås oftest arbejdstid, men der kan også være tale om udstyr, f.eks. Nine Hole Peg Board til vurdering af håndfunktion. At en rating scale er følsom for forandring, betyder, at den kan anvendes til at detektere selv små ændringer i det, der måles på, i dette tilfælde en klinisk tilstand. For at kunne sammenligne patienters kliniske niveau vha. en rating scale må man kræve, at inter- og intraobservatørvariationen er undersøgt og fundet lav, enten i form af en positiv kappaværdi over et på forhånd fastlagt niveau, f.eks. 0,60, eller ud fra statistisk bestemmelse af acceptable øvre og nedre grænser for overensstemmelse [5-7].

Generelle kontra specifikke skalaer

Rating scales kan være generelt anvendelige eller tilpasset en bestemt patientgruppe. Rating scales, der kan benyttes til en bredere skare af patienter, vil ofte være kendt af flere behandlere, hvilket øger skalaernes værdi som kommunikationsredskab specialer imellem, mens rating scales tilpasset patienter med en bestemt sygdom giver mulighed for en mere præcis kommunikation.

Patient- kontra undersøgerudfyldte skemaer til rating scales

Når det drejer sig om en skala med patientudfyldt skema, skal den være mulig at anvende for flertallet af patienter, inklusive patienter med betydelig neurologisk hæmning [3]. Benyttes skemaer, som patienterne selv udfylder, nedsættes risikoen for såkaldt social desirability, dvs. nogle menneskers tendens til at give de svar, de mener, spørgerne gerne vil have, frem for at svare helt oprigtigt [8]. Anvendelsen af patientvurderede skalaer til hjernetumorpatienter indebærer imidlertid en række problemer. Mange har vanskeligt ved at udfylde et skema, eksempelvis pga. synsforstyrrelser, kognitiv påvirkning og koncentrationsbesvær. Morfinbehandling kan medvirke til at svække koncentrationen yderligere. Endelig savner en del patienter med neurologisk funktionsnedsættelse indsigt i egen situation [9]. I sådanne tilfælde kunne plejepersonale eller pårørende i teorien oplæse og udfylde skemaet sammen med patienten, men denne proxy rating giver risiko for, at svarene bliver farvet af hjælpernes holdning til patientens situation.

Det er ikke givet, at fysisk funktion skal vurderes af en anden person end patienten, sådan som det ellers er tilfældet for de fleste rating scales. I en undersøgelse fra 2003 vurderede 98 patienter med småcellet lungecancer deres eget funktionsniveau lige så nøjagtigt, som de behandlende onkologer gjorde, målt på patienternes overlevelse [10]. Det vil muligvis være mere udbytterigt at udlevere et spørgeskema, hvori der bl.a. spørges til fysisk formåen, end at lade forskellige læger vurdere patienterne ud fra en rating scale. Man ville undgå problemet med interobservatørvariation, og vurderingen ville måske blive mere nøjagtig.

Kognitive og emotionelle aspekter

En del patienter med hjernetumorer har bevaret fysisk formåen, men nedsat kognitiv funktion i en grad, der gør dem helt eller delvist ude af stand til at klare sig selv. Mange har afasi, og depression er hyppigt forekommende [11, 12]. Ved udvælgelsen af en rating scale må man gøre sig klart, om man ønsker vægt på kognitive og/eller emotionelle aspekter i kombination med det fysiske. Rating scales, der er sammensat med henblik på også at måle patienters kognitive niveau, indeholder ofte billeder eller figurer. Anvendes den samme skala til at vurdere en patient flere gange, vil patienten som regel kunne huske nogle af testens billeder. Denne såkaldte læringseffekt er et generelt problem ved gentagelse af testprogrammer og kan delvis afhjælpes ved, at man har flere forskellige udgaver af samme test at vælge imellem [13].

Måling af livskvalitet

Man støder ofte på skalaer til vurdering af patienters livskvalitet. Der er konstrueret specifikke QOL-skalaer til brug hos patienter med hjernetumorer, herunder Functional Assessment of Cancer Therapy - General og Brain (FACT-G og -BR) samt European Organization of Research and Treatment of Cancer Quality of Life Questionnaire 30 (EORTC QLQ-C30) og Brain Cancer Module for QLQ-30 (BCM for QLQ-30). Functional Living Index - Cancer (FLIC) er sammensat, så den kan benyttes til vurdering af både fysiske og emotionelle aspekter.

I lyset af en stigende levealder og et øget antal kroniske sygdomme samt ikke mindst større fokus på patienters ret til at deltage i beslutninger vedrørende deres helbred og behandling, er QOL et parameter af voksende betydning ved måling af behandlingsresultater. Det vil i denne sammenhæng føre for vidt at redegøre for anvendelsen af QOL-skalaer, men der kan nævnes nogle relevante overvejelser ved udvælgelsen af en rating scale til et bestemt formål, herunder nogle centrale forskelle på skalaer til måling af QOL og skalaer, hvormed man (udelukkende) måler fysisk funktionsniveau.

Generelt er QOL-skalaer patientudfyldte, og svarene kan enten udtrykkes som en talværdi eller angives på en såkaldt visuel analog skala. I modsætning hertil skal de fleste skalaer til vurdering af fysisk formåen udfyldes af en læge eller en sygeplejerske. Ved spørgsmål om QOL er det essentielt, at patienten selv får lov til at svare, mens vurderingen af fysisk funktionsniveau kan foretages af andre. Den største praktiske forskel mellem de to overordnede skalatyper er tidsforbruget; de kræver principielt den samme rutine og træning af behandleren.

Den statistiske behandling af data fra QOL-undersøgelser er meget kompleks. Der er tale om multidimensionale og gentagne test, og der vil ofte være manglende data som følge af f.eks. udeblivelse, manglende opmærksomhed hos personalet på, at skemaet bliver udfyldt, manglende udfyldelse af hele eller dele af skemaet pga. træthed, dårligt humør eller sygdomsforværring. Disse manglende data vil kunne introducere selektionsbias, idet de langt oftest vil stamme fra de svageste patienter i gruppen [14, 15].

Endelig kan selve det store antal meget forskellige QOL-skalaer være en hæmsko ved anvendelsen, idet udfaldet af en QOL-undersøgelse i høj grad afhænger af den anvendte skala, hvilket kan betyde, at det ikke er muligt at foretage valide metaanalyser af QOL-studier, medmindre der er benyttet samme skala i alle de inkluderede undersøgelser [16].

Diskussion

Ved udvælgelse af en rating scale er det vigtigt at have et klart defineret formål med anvendelsen. Skal den bruges i et videnskabeligt projekt, til løbende kvalitetssikring eller begge dele, og skal der indgå et QOL-element? Dette og tidsforbruget er formentlig af afgørende betydning for incitamentet hos personalet til at udfylde skalaens felter. I takt med indførelse af den elektroniske patientjournal vil en rating scale nemt kunne indgå som et element i enhver journal. I den forbindelse kan man ikke tydeligt nok understrege vigtigheden af, at de data, der skal anvendes til skalaen formentlig oftest som led i en database, automatisk kan trækkes ud af den elektroniske journal. Med hensyn til tidsforbrug er grænsen i denne oversigt for rimeligt tidsforbrug sat til ti minutter. Dette er et kompromis mellem ønsket om en skala, der er tilstrækkelig omfattende til at dække flere aspekter af patientens kliniske status, og en formodet kompliansgrænse, når det gælder sundhedspersonalets anvendelse af den pågældende skala. Der er ikke fundet undersøgelser af, hvor lang tid det må tage at gennemføre en rating scale for at kunne implementere den som en fast procedure, og den valgte maksimalgrænse i oversigten er arbitrær. Forfatterne har i forbindelse med denne oversigt foretaget en pilotundersøgelse af 17 patienter med hjernetumorer, hvor man ved anvendelsen af en dansk udgave af nogle af de omtalte ratings scales brugte i gennemsnit otte minutter på Edinburgh Functional Impairment Tests (EFIT), mens KPS, Modified Rankin Scale (MRS) og Eastern Cooperative Oncology Group Performance Status (ECOG/WHO) kunne gennemføres på to minutter.

Man må tage hensyn til, hvilke forberedelser indførelsen af en rating scale ville kræve. Er det f.eks. nødvendigt med træning i tidtagning for at sikre, at interobservatørvariationen bliver mindst mulig? KPS, MRS og ECOG/ WHO PS er eksempler på kortfattede skalaer, som patienten kan placeres på efter en ganske kort udspørgen. De kræver ikke patientens aktive, fysiske deltagelse og beskæftiger sig ikke med QOL-spørgsmål. I forbindelse med videnskabelige studier vil den øvre grænse for tidsforbrug formodentlig være højere, hvilket vil betyde mulighed for anvendelse af en rating scale med fokus på flere aspekter, som f.eks. EFIT.

For flertallet af skalaerne i Tabel 2 er følsomheden for forandring i funktionsniveau ikke undersøgt. KPS og Barthel Index of Activities of Daily Living (BIADL) er i små undersøgelser vist at have lav sensitivitet for små ændringer i patientens tilstand [3, 17]. Spørgsmålet er her, hvor lavt man sætter grænsen, dvs. hvor lille en forandring man skal kunne detektere med en rating scale. I praksis kan de fleste rating scales bruges til undersøgelse af, om en patients kliniske tilstand er ændret fra måned til måned, men drejer det sig om tidlige tegn på tumorprogression, kan man ikke gå ud fra, at der samtidig vil komme en ændring i patientens score. For BIADL er der en tendens til, at forværring i score først indtræder efter magnetisk resonans (MR)-verificeret tumorprogression [3]. Et andet problem i denne sammenhæng er, at nogle skalaer har meget få, brede trin, hvorved mange patienter vil havne på det samme niveau, selv om deres tilstand objektivt set er meget forskellig. Dette gælder for MRS, hvor forskellen mellem niveau 3 og niveau 4 er stor, og en patients kliniske status således kan forværres meget, inden vedkommende går fra tre point til fire point. Dette betyder også, at det ikke giver mening at beregne den gennemsnitlige score hos en gruppe patienter, ligesom det er misforstået at tale om standarddeviationer og anden form for gaussisk statistik, idet en rating scale er et klinisk indeks, og et sådant vil altid resultere i målinger på en rangskala og ikke i kvantitative data på en intervalskala [6].

Inter- og/eller intraobservatørvariationen er undersøgt for KPS, BIADL, European Stroke Scale (ESS) og EFIT. For KPS peger resultaterne i forskellig retning, mens både inter- og intraobservatørvariation er fundet lav for BIADL, ESS og EFIT. For de resterende skalaer er der ikke fundet lignende undersøgelser.

Få skalaer er udviklet specifikt til hjernetumorpatienter. Rating scales til apopleksipatienter, herunder ESS, MRS og BIADL, kan i stedet forsøges anvendt. Et problem ved den meget benyttede BIADL er den omtalte ceiling effect, der kan være afgørende ved vurdering af hjernetumorpatienter, hvoraf mange er fysisk velfungerende. Desuden er der i apopleksiskalaer ofte væsentlig fokus på kontinensspørgsmål, hvilket ikke er så relevant for en patient med en hjernetumor.

Flere af de mest anvendte skalaer, herunder KPS, MRS og ECOG/WHO PS, har primært eller udelukkende fokus på fysisk funktionsniveau. På trin to af ECOG/WHO PS placeres en patient, der er »begrænset i udførelsen af fysisk anstrengende aktivitet, men fuldt funktionsdygtig og i stand til at varetage let arbejde«. Mange hjernetumorpatienter er ikke begrænset i udførelsen af fysisk aktivitet, men er alligevel ude af stand til at udføre noget arbejde, fordi deres kognitive niveau er nedsat. Her er MRS mere anvendelig, idet man i den ikke direkte nævner noget om det fysiske niveau, men i stedet fokuserer på, i hvilken grad patienten kan udføre samme gøremål som tidligere.

Blandt de undersøgte rating scales er EFIT den eneste, hvormed man tester fysisk og kognitiv funktion, og samtidig er den tilpasset patienter med hjernetumorer. EFIT repræsenterer en tendens, som ses ved gennemgang af den nyeste litteratur på området, nemlig den, at undersøgere i stigende grad sammensætter nye rating scales med udvalgte delelementer i stedet for at benytte sig af de allerede eksisterende skalaer. Disse nye rating scales omfatter test af fysiske såvel som kognitive og emotionelle aspekter og dækker således bredt [18-20]. En væsentlig ulempe er dog, at det med anvendelsen af sådanne til lejligheden sammensatte testbatterier bliver vanskeligt at sammenligne studier på tværs af afdelinger og specialer.

En perfekt, universelt anvendelig rating scale til hjernetumorpatienter findes ikke. KPS har i mange år været guldstandarden, men bør pga. sit ensidige fokus på fysisk funktion efterhånden have en afløser. Denne bør være overskuelig, kortfattet, undersøgerudfyldt og inddrage flere aspekter end de rent fysiske. EFIT er et godt bud, der dog skal valideres yderligere f.eks. med udgangspunkt i erfaringerne fra pilotundersøgelsen.

Helle Christiansen, Absalonsgade 15 st. tv., DK-1658 København V. E-mail: hellec@dadlnet.dk

Antaget: 31. juli 2006

Interessekonflikter: Ingen angivet

Kræftplan II: Sundhedsstyrelsens anbefalinger til forbedringer af indsatsen på kræftområdet. København: Sundhedsstyrelsen, 2005:1-71.
Karnosky D, Burchenal JH. The clinical evaluation of chemotherapeutic agents in cancer. I: Macleod CM, red. Evaluation of Chemotherapy Agents. New York: New York Academy of Medicine, Columbia University, 1949:191-205.
Meyers CA, Hess KR. Multifaceted end points in brain tumor clinical trials: cognitive deterioration precedes MRI progression. J Neurooncol 2003;5:89-95.
Hantson L, de Weerdt W, de Keyser J et al. The European Stroke Scale. Stroke 1994;25:2215-19.
Osoba D, Aaronson NK, Muller M et al. Effect of neurological dysfunction on health-related quality of life in patients with high-grade glioma. J Neurooncol 1997;34:263-78.
Wulff HR, Gøtzsche P. Rationel Klinik. Evidensbaserede diagnostiske og terapeutiske beslutninger. 4. udgave. København: Munksgaard, 2000:1-58, 155-91, 226-62.
Clyde Z, Chataway SJ, Signorini D et al. Significant change in tests of neurological impairment in patients with brain tumours. J Neurooncol 1998;39:81-90.
Schipper H, Clinch J, McMurray A et al. Measuring the quality of life of cancer patients: the Functional Living Index-Cancer: development and validation. J Clin Oncol 1984;2:472-83.
Meyers CA, Hess KR, Yung WK et al. Cognitive function as a predictor of survival in patients with recurrent malignant glioma. J Clin Oncol 2000;18: 646-50.
Blagden SP, Charman SC, Sharples LD et al. Performance status score: do patients and their oncologists agree? Br J Cancer 2003;89:1022-7.
Mackworth N, Fobair P, Prados MD. Quality of life sel

Anvendelse af rating scales hos voksne patienter med hjernetumorer

Referencer