Kvalitetsudviklingsartikel

Bedømmerbias i speciallægeuddannelsen

Kirsten Müller Bested 1 , Bente Malling 2 , Karen Skjelsager 3 , Doris Østergaard 4 , Helle Thy Østergaard 5 & Charlotte Ringsted 5 1) Anæstesiologisk Afdeling, Sygehus Lillebælt, Vejle Sygehus, 2) HR-afdelingen, Aarhus Universitetshospital, 3) Anæstesiologisk Afdeling, Næstved Hospital, 4) Dansk Institut for Medicinsk Simulation, Herlev Hospital, 5) Anæstesiologisk Afdeling, Herlev Hospital, og 6) Center for Klinisk Uddannelse, Rigshospitalet

28. okt. 2011

7 min.

I den lægelige videreuddannelse foretages der løbende kompetencevurdering af den enkelte uddannelsestagende læge. På baggrund af kompetencevurderingerne vurderes det, om den uddannelsestagende læge progredierer tilfredsstillende i sit uddannelsesforløb, og om vedkommende opnår de forventede kompetencer. Kompetencevurderingerne foretages ved hjælp af forskellige metoder, såsom struktureret observation, vejledersamtale, audit, skriftlig opgave, 360-graders-feedback m.fl. [1, 2]. Den enkelte kompetencevurdering foretages af en læge med højere uddannelsesniveau end den uddannelsestagende læges. Kompetencevurderingerne foretages af mange forskellige læger. Dette giver risiko for uensartede bedømmelser og har dermed indflydelse på både pålidelighed og validitet. I denne artikel beskrives kilder til bedømmerbias, og der gives et bud på, hvorledes bias kan reduceres for at opnå bedre pålidelighed og validitet i bedømmelserne.

KILDER TIL BEDØMMERBIAS

Due eller høg og relationer mellem bedømmer og uddannelsestagende

En bedømmer er sjældent klar over, om han/hun er mild eller streng (due/høg) i sin bedømmelse sammenlignet med andre bedømmere. En mild bedømmer er som oftest mild i bedømmelsen af enhver uddannelsestagende, ligesom en streng bedømmer oftest er streng i bedømmelsen af enhver uddannelsestagende [3]. I flere studier beskrives der en generel tendens til, at bedømmere er for milde i bedømmelsen af uddannelsestagende og dermed giver for positive kompetencevurderinger [1, 3, 4]. Samtidig er der modstand hos bedømmeren mod at beskrive og især handle på ikketilfredsstillende resultater. Bedømmeren antager ofte uberettiget, at klarer den uddannelsestagende læge sig godt på et område, klarer vedkommende sig også godt på andre områder. Relationer mellem bedømmeren og den uddannelsestagende kan, ofte ubevidst, påvirke kompetencevurderingen i både positiv og negativ retning. F.eks. kan etniske forhold give uerkendte påvirkninger i bedømmelsessituationen [3].

Nøjagtige observationer og genkaldelse

Observationer af en uddannelsestagende er svære at genkalde præcist. Jo længere tid, der går fra observation, til vurderingen gives til den uddannelsestagende, des mere upræcis bliver denne. F.eks. har man i et studie [3] fundet, at kun 30% af den uddannelsestagendes præsentationer kunne huskes, når der ikke blev anvendt noter.

Den kliniske situation

Bedømmelse af komplekse kompetencer som samarbejde og interpersonelle kommunikative færdigheder foretages i kliniske daglige patientkontakter, hvor personer fra forskellige personalegrupper er involveret. Bedømmerens relationer til aktørerne kan påvirke bedømmelsen i både positiv og negativ retning. Da direkte observationer i dagligt arbejde påvirkes af patienter, omgivelser og samarbejdspartnere, kan bedømmerens vurdering farves af stemningen i situationen. Under en planlagt vurdering forstyrres bedømmeren ofte af andre udfordringer end de forventede, hvilket kan hæmme fokus på den planlagte bedømmelse. Tidspres og afbrydelser er ofte en hæmsko for gennemførelse af en planlagt observation og vurdering [1, 3]. Ligeledes kan sværhedsgraden af den enkelte situation påvirke vurderingen både negativt og positivt [5].

Norm for bedømmelse

Norm for bestået/ikke bestået i den enkelte kompetencevurdering sættes ofte af bedømmeren på baggrund af niveauet i den gruppe uddannelsestagende læger, som bedømmeren p.t. arbejder sammen med, og kan således variere over tid [6].

MULIGHEDER FOR AT REDUCERE BIAS

Struktur, definition af kompetence og niveau

Kompetencevurderingsprogrammerne for speciallægeuddannelserne bør være udviklet således, at de afspejler målbeskrivelserne og giver en sufficient stikprøve [5, 7]. Der vil være dels summative, punktvise vurderinger med et eksamenspræg (f.eks. direkte observation og bedømmelsen »god nok«/»ikke god nok«) og formative, mere generelle vurderinger, der afspejler den uddannelsestagende læges generelle adfærd (f.eks. 360-graders-feedback), og tilsammen giver disse et helhedsindtryk af den bedømte. Pålideligheden af kompetencevurdering er som ovenfor anført afhængig af bedømmelsesmetode og -redskab, om der vurderes ud fra klare kriterier, om bedømmeren er trænet i at foretage kompetencevurdering, og om der er specifikke normer for bedømmelse, som er kendt af bedømmeren [7, 8].

Observation, noter og brug af bedømmelsesredskaber

Som bedømmer bør man overveje sine kognitive egenskaber; hvordan registrerer og husker man eksakte data om den bedømtes præstation, hvilken form for noter og optegnelser hjælper en bedst. Det er påvist, at bedømmere, der anvender noter, giver lavere karakterer og har større variation på bedømmelsesskalaen, når forskellige kompetencer vurderes, og har større variation i karaktergivning til enkeltpersoner end bedømmere, der ikke anvender noter, alle tre er parametre, der er udtryk for en mere specifik og præcis vurdering [9].

Anvender man et struktureret bedømmelsesredskab, hvor enkelte elementer af den kliniske kompetence er beskrevet, øges præcisionen i vurderingen, ligesom det medvirker til at fastholde niveauet for bedømmelsen. Williams et al beskrev en stigning fra 30% til 60% i præcision i bedømmelse af journaloptagelse, når der blev anvendt et struktureret skema. Skemaer bevirker, at tendensen til primært at kommentere positive præsentationer mindskes, og konstruktiv feedback fremmes. Kendes redskabet forud for bedømmelsen, øges præcisionen yderligere.

Opmærksomhed på kompleksitet i klinisk kontekst

Den lægelige videreuddannelse er en arbejdsbaseret uddannelse, hvor både oplæring og vurdering foregår i en klinisk kontekst. Dette giver en enestående mulighed for at bedømme den uddannelsestagende læge, men forudsætter at bedømmeren erkender kompleksiteten i den enkelte situation. Bedømmeren bør overveje, om kompleksiteten passer til niveauet for den planlagte bedømmelse af netop denne uddannelsestagende læge: Er patientens sygdomsforløb for enkelt eller for komplekst? Er samarbejdspartnerne få eller mange? Støtter eller modarbejder samarbejdspartnerne den uddannelsestagende? Er situationen rolig eller hektisk?

Opmærksomhed på påvirkning af relationen mellem bedømmer og uddannelsestagende samt omgivelsernes indflydelse på situationen forbedrer vurderingen [1].

Kendskab til vurderingsprogram og standard for bedømmelse

Den enkelte kompetencevurdering skal ses som en stikprøve. De enkelte, konkrete kompetencevurderinger kombineres med vurderinger af mere generelle kompetencer foretaget som f.eks. 360-graders-feedback og generel vurdering, hvor 8-12 personer giver bedømmelse på en vurderingsskala. Kombinationen giver en helhedsvurdering af den uddannelsestagende. Diskussion i gruppen af bedømmere om anvendelse af vurderingsprocedure og fastsættelse af kriterier for »beståelse« på den enkelte afdeling virker fremmende på gennemførelse af vurderingen og øger præcisionen [3].

Ved at lade bedømmere vurdere kompetencer inden for deres eget arbejdsområde får man en mere præcis og vedkommende vurdering, bedre feedback til den uddannelsestagende, når resultatet af vurderingen ikke er tilfredsstillende, og større chancer for, at der bliver udarbejdet en plan for det videre forløb [2, 4].

Træning i kompetencevurdering og kendskab til vurderingsprogrammet

Bedømmeren bør som et minimum være bekendt med de redskaber, der skal anvendes til vurderingerne. At træne på cases eller videoseancer giver mulighed for diskussion af metodens anvendelighed og mulighed for konsensus om standard for niveau. I et studie har man påvist, at træning i bedømmelse og træning i anvendelse af pålidelige vurderingsmetoder modvirker, at bedømmeren falder i ovennævnte faldgruber [10]. Feedback til bedømmeren fra kollegaer om dennes vurderinger mindsker unødig mildhed eller hårdhed i vurderingerne [3].

Den enkelte bedømmer kan mangle helhedsindtrykket i den enkelte bedømmelse både i direkte observationer, audits, strukturerede vejledersamtale og enkeltelementer af 360-graders-feedback. Helheds-indtrykket opstår, når tilstrækkelig mange vurderinger med passende afspejling af målbeskrivelse samles over en tidsperiode. Både den uddannelsestagende læge og bedømmerne bør have kendskab til såvel den enkelte kompetencevurderingsmetode som til det samlede kompetencevurderingsprogram for den pågældende uddannelse, ikke mindst da kendskabet motiverer til gennemførelse af vurderingerne [1, 5].

KONKLUSION

Kendskab til kompetencevurderingsprogrammet for det pågældende uddannelsesniveau motiverer til gennemførelse af vurderinger. Diskussion af norm for vurdering og fastsatte kriterier blandt bedømmere øger pålideligheden af den enkelte kompetencevurdering. Vurderes tillige sværhedsgrad og kompleksitet af den enkelte situation i forhold til bedømmelsen, og anvendes der noter, øges pålideligheden yderligere. Bedømmeren bør fortage vurderinger inden for eget arbejdsfelt og bør erkende interpersonelle positive eller negative forhold mellem bedømmer og uddannelsestagende.

src="/LF/images_ufl/ufl_bla.gif">
Kirsten Müller Bested, Anæstesiologisk Afdeling, Sygehus Lillebælt, Vejle Sygehus, Kabbeltoft 25, 7100 Vejle. E-mail: kirsten.muller.bested@slb.regionsyddanmark.dk

ANTAGET: 16. august 2011

FØRST PÅ NETTET: 26. september 2011

INTERESSEKONFLIKTER: Forfatternes ICMJE-formularer er tilgængelige sammen med artiklen på Ugeskriftet.dk

Summary

Summary Rater bias in postgraduate medical education Ugeskr Læger 2011;173(44):2788-2790 In-training assessment is a cornerstone in outcome based postgraduate medical education. When assessing the trainee the trainer should be aware of potential pitfalls and biases and how to avoid these. This paper summarises assessor biases and pitfalls and gives recommendations on how to avoid these.

Referencer

Govaerts MJ, van der Vleuten CP, Schuwirth LW et al. Broadening perspectives on clinical performance assessment: rethinking the nature of in-training assessment. Adv Health Sci Educ 2007;12:239-60.
Williams RG, Klamen DA, McGaghie WC. Cognitive, social and environmental sources of bias in clinical performance rating. Teach Learn Med 2003;15:270-92.
Harasym PH, Woloschuk W, Cunning L. Undesired variance due to examiner stringency/leniency effect in communication skill scores assessed in OSCEs. Adv Health Sci Educ Theory Pract 2008;13:617-32.
Ringsted C, Østergaard D, Ravn L et al. A feasibility study comparing checklists and global rating forms to assess resident performance in clinical skills. Med Teach 2003;25:654-8.
Schuwirth LW, van der Vleuten CP. A plea for new psychometric models in educational assessment. Med Educ 2006;40:296-300.
Norcini JJ, Blank LL, Duffy FD et al. The Mini-CEX: a method for assessing clinical skills. Ann Intern Med 2003;138:476-81.
Ringsted C, Østergaard D, Scherpbier A. Embracing the new paradigm of assessment in residency training: an assessment programme for first-year residency training in anaesthesiology. Med Teach 2003;25:54-62.
Shumway JM, Harden RM. AMEE Guide No. 25: The assessment of learning outcomes for the competent and reflective physician. Med Teach 2003;25:569-84.
DeNisi AS, Peters LH. Organization of information in memory and the performance appraisal process: evidence from the field. J Appl Psychol 1996;81:717-37.
Malling B, Bested KM, Skjelsager K et al. Long-term effect of a course on in-training assessment in postgraduate specialist education. Med Teach 2007;29:966-71.