Originalartikel - resume

Intra- og interobservatøroverensstemmelse ved gennemsyn af kapselendoskopifilm

Læge Emilie Lund Laursen, lektor Annette Kjær Ersbøll, læge Anne Mette Odgaard Rasmussen, sygeplejerske Else Hove Christensen, læge Jakob Holm & læge Mark Berner Hansen Københavns Universitet, Det Biovidenskabelige Fakultet, Institut for Produktionsdyr og Heste, Gentofte Hospital, Gynækologisk-obstetrisk Afdeling og Kirurgisk Gastroenterologisk Afdeling D, Sygehus Syd, Næstved, Kirurgisk Afdeling, og Bispe bjerg Hospital, Kirurgisk Gastroenterologisk Afdeling K

2. jun. 2009

13 min.

Introduktion: Det er uafklaret, hvilke faggrupper der kan og bør foretage gennemsyn af kapselendoskopi (KE)-undersøgelser. Vi undersøgte, om en yngre læge eller en sygeplejerske kunne gennemse KE-film med samme diagnostiske resultat som en specialist.

Materiale og metoder: En endoskopisygeplejerske og en reservelæge, begge uden KE-erfaring, gennemså 30 KE-film to gange og noterede fund. Der skelnedes imellem klinisk betydende og ubetydende fund. En speciallæge og Given Imaging Review Service gennemså filmene en gang hver, og deres fund blev anvendt som guldstandard. Tidsforbrug, observatøroverensstemmelser, sensitivitet og specificitet blev bestemt.

Resultater: Reservelægen forbedrede sin tid fra 1. til 2. gennemsyn, hvilket sygeplejersken ikke gjorde. Begges præstationer var ringe sammenlignet med Given Imaging Review Service, hvad angik diagnostisk præcision. Reservelægen forbedrede sin diagnostiske præcision fra 1. til 2. gennemsyn, hvilket sygeplejersken ikke gjorde. Sygeplejersken viste et fald i sensitivitet fra 1. til 2. gennemsyn fra 89% til 62%, hvor reservelægen øgede sin fra 48% til 62%. Begge overså mange betydende fund, og deres fund var ikke reproducerbare.

Konklusion: Sygeplejersken og reservelægen opnåede ikke samme diagnostiske resultat som guldstandarden. Resultaterne stiller spørgsmålstegn ved, om sygeplejersker og reservelæger bør gennemse KE-film.

Kapselendoskopi (KE) er en effektiv diagnostisk modalitet og et vigtigt redskab i udredning og monitorering af patienter med tyndtarmspatologi [1, 2]. På de fleste afdelinger bliver det diagnostiske gennemsyn af KE-film foretaget af en gastroenterologisk speciallæge. Det er en tidskrævende proces, hvilket gør tidsforbruget og rationalisering heraf til en vigtig faktor i KE-diagnostik. En læge eller en sygeplejerske kan udføre det diagnostiske gennemsyn af KE-film [3-8]. På flere hospitaler udfører sygeplejersker gastro- og sigmoideoskopier. Dette ser ud til at være klinisk og økonomisk ansvarligt [9, 10] og giver anledning til at tro, at en sådan praksis også er mulig for KE. Tentativt kan andre faggrupper således udføre præliminære KE-gennemsyn, hvorefter det fokuserede diagnostiske gennemsyn overlades til speciallæger.

Tolkningen af en billeddiagnostisk undersøgelse er subjektiv. Der er derfor udviklet en struktureret terminologi for KE, Capsule Endoscopy Structured Terminology (CEST), der bruges i tolkningen af KE-undersøgelser [11]. Sammen med brugen af kliniske retningslinjer forventes det, at CEST vil forbedre den diagnostiske kvalitet.

Formålet med dette studie var at undersøge, om en reservelæge og en endoskopisygeplejerske kunne udføre KE-gennemsyn med et diagnostisk resultat, der var sammenligneligt med en lægelig endoskopispecialists resultat, samt om deres resultater forbedredes over tid.

Materiale og metoder

Fire observatører indgik i studiet:

En speciallæge i kirurgisk gastroenterologi med erfaring fra mere end 100 KE-undersøgelser (SP).
Given Imaging Review Service med stor KE-erfaring (GI).
En reservelæge med interesse for, men uden erfaring i endoskopi og KE (RE).
En endoskopisygeplejerske med stor erfaring i endoskopi, men ingen KE-erfaring (SY).

Vi evaluerede tidsforbrug og evne til genkendelse af patologiske fund på KE-film hos RE og SY og sammenlignede deres performance med GI og SP, idet vi testede følgende nulhypoteser:

En reservelæge eller sygeplejerske kan udføre det præliminære gennemsyn af KE-undersøgelser med samme diagnostiske præcision som en erfaren speciallæge.
Procentdelen af korrekte fund øges med antallet af sete undersøgelser, og der dannes en præcisionslæringskurve.
Tidsforbruget pr. gennemsyn for en reservelæge eller sygeplejerske vil falde med øget antal sete undersøgelser.

Design

Studiet blev designet som et observationelt komparativt studie med en stikprøvestørrelse på 30 KE-film fra patienter med mistanke om tyndtarmspatologi. I alt 23 film var med forskellige typer tyndtarmspatologi og syv film var uden patologi. Følgende blev regnet for patologiske fund, antallet af fund angivet i parantes: Stenose (3), deformiteter (0), blod i tarmlumen (5), hyperæmisk mucosa (10), hæmorragisk mucosa (1), mucosaerosioner (1), angioektasier (11), polypper (6), tumorer, fraset xanthomer (4), ulcera (3), divertikler (2), uspecificerede pletter (4) samt fistler (0). En KE-film blev regnet for patologisk (positiv), hvis der blev gjort bare et patologisk fund, idet de som patologiske rubricerede fund i den daglige klinik ville udløse yderligere undersøgelser.

De 30 film blev uafhængigt og i randomiseret rækkefølge gennemset en gang af GI og SP og to gange af RE og SY. Anamnese og indikationen for KE-undersøgelsen var gjort utilgængelige for RE, SY og GI. SY og RE blev forud for gennemsynene introduceret til Rapid Reader -software og så hver en test-skopi for at blive bekendt med undersøgelsesmodaliteten og terminologien.

Alle fund blev noteret på et skema, der var udarbejdet på baggrund af Minimal Standard Terminology for digestive endoscopy , idet dette studie blev påbegyndt før offentliggørelsen af CEST [12].

GI's resultater fungerede som guldstandard. SP lavede konklusive gennemsyn på alle KE-film, og disse rapporter fungerede som ekstra reference.

Statistik

Stikpr øvestørrelsen blev sat til 30 KE-film på baggrund af beregninger af bestemmelsen af sensitivitet med en given usikkerhed. Sensitiviteten forventedes at være 0,80, og den maksimalt tilladelige afvigelse blev sat til 0,15. Dette resulterede i en stikprøvestørrelse på 27 observationer.

Intra- og interobservatør-overensstemmelse blev vurderet ved bestemmelse af kappa (κ) og tilhørende 95% konfidensinterval. For interobservatøroverensstemmelse beregnedes κ-værdier for hvert observatørpar. Kappa er et mål for graden af overensstemmelse korrigeret for overensstemmelse ved tilfældighed, Tabel 1 [15]. McNemars test benyttedes til test af forskel mellem observatørerne i sandsynlighed for et positivt resultat [13, 14]. Tidsforbruget (middeltidsforbrug i minutter ± standardafvigelse) ved hvert gennemsyn udført af RE og SY blev opgjort og sammenlignet.

Den diagnostiske præcision blev bestemt for RE og SY ved beregninger af sensitivitet og specificitet.

Læringskurven blev bestemt ved sammenligning af sensitivitet og specificitet fra 1. til 2. gennemsyn af KE-film for hver enkelt observatør.

Resultater
Tid

RE brugte signifikant mindre tid på både 1. og 2. gennemsyn end SY (p < 0,001). Ved sammenligning af middeltidsforbrug pr. gennemsyn fremgik det, at RE brugte signifikant mindre tid på 2. end på 1. gennemsyn (p < 0,001). RE's tidsforbrug på 1. gennemsyn var tillige signifikant mindre end SY's tidsforbrug på 2. gennemsyn (p < 0,001). SY's tidsforbrug ændrede sig ikke signifikant fra 1. til 2. gennemsyn (p = 0,097) (Figur 1 ). Det har ikke været muligt at indhente oplysninger fra Given Imaging eller fra SP om tidsforbrug pr. gennemsyn.

Intraobservatørdata

For intraobservatøroverensstemmelse fandt vi κ-værdier, der indikerede moderat overensstemmelse for RE mellem 1. og 2. gennemsyn, men resultaterne var ikke signifikante. For SY var der ingen forbedring fra 1. til 2. gennemsyn med signifikant dårlig overensstemmelse (Tabel 2 ).

Interobservatørdata

Ved beregning af interobservatøroverensstemmelse mellem RE og SY anvendte vi tallene fra 2. gennemsyn. Resultaterne var signifikante og viste, at SY og RE præsterede lige ringe sammenlignet med GI, både hvad angik alle fund samlet set og de patologiske fund. Sammenholdt med SP fandtes marginalt bedre og signifikante resultater (Tabel 2).

Specificitet og sensitivitet

Sammenlignet med GI (Figur 2 ) var sensitiviteten 62% på 2. gennemsyn for både RE og SY, idet de begge bedømte 11 ud af 29 sandt positive KE-film som værende normale. Der var dog en stigende diagnostisk præcision fra 1. til 2. gennemsyn for RE og en aftagende diagnostisk præcision for SY, der begge var signifikante. GI bedømte kun en KE-film som værende sandt negativ, dvs. uden patologi. Da både RE og SY nåede samme konklusion for denne film, opnåedes en specificitet på 100%, hvilket var uændret fra 1. til 2. gennemsyn.

Ved sammenligning med SP (Figur 2) øgede RE sin sensitivitet fra 1. gennemsyn, hvor ni ud af 23 film blev fejldiagnosticerede, til 2. gennemsyn, hvor dette var tilfældet for seks ud af 23 film. Interobservatøroverensstemmelse for parret SY/SP viste et signifikant fald i sensitivitet fra 1. til 2. gennemsyn. Fra 1. til 2. gennemsyn var der endvidere et signifikant fald i RE-specificitet fra 100% til 85% og en signifikant stigning for SY fra 14% til 85%. Ved sammenligning af SP med GI fandtes en sensitivitet på 79% og specificitet på 100%.

Diskussion
Metodologiske overvejelser

Når et observations- og sammenligningsstudie skal bedømmes, er der flere metodologiske faldgruber. Vi har forsøgt at minimere selektionsbias , der forekommer, når der vælges en forkert gruppe observatører ved at vælge vores observatører på baggrund af deres erfaring med og/eller interesse for KE.

For at minimere verifikationsbias , der forekommer, hvis filmene gennemses af forskellige personer, besluttede vi os for at inkludere en ekstra reference, SP, idet flere forskellige reviewere udførte gennemsynene fra GI, hvilket øger risikoen for differentieret informationsbias . GI har efterfølgende ikke ønsket at oplyse antallet af reviewere eller deres uddannelsesniveau. Desuagtet dette forhold så er GI åbenlyst ikke repræsentativ for den kliniske hverdag, hvad angår specificitet og sensitivitet af KE-gennemsyn.

Observatørerne var blændede for referencerapporterne, og vi undgik herved observatørreview-bias . Alle observatører så det samme sæt med 30 film, hvorved vi eliminerede observatørkomparator-bias .

Informationsbias blev undgået ved at blænde RE, SY og GI for de enkelte sygehistorier. Det erkendes, at muligheden for fokuseret gennemsyn går tabt herved, og at studiet på dette område således fjerner sig fra den kliniske hverdag [16].

Testskema

Ved at anvende et standardiseret skema ved gennemsynene opnåede vi umiddelbart sammenlignelige resultater. Observatørerne blev gjort fortrolige med den anvendte terminologi på skemaet, før gennemsynene blev påbegyndt. Værdien i at anvende et standardiseret skema støttes af et studie, hvor man viste, at mere end 90% af fundene på 766 KE-film kunne beskrives ved at bruge KE-standardterminologi, hvilket tyder på, at implementeringen af en sådan standard kunne forbedre kvaliteten af KE-rapportering [17].

Tid

Med hensyn til tidsforbruget var dette aftagende for både RE og SY, jo flere KE-film de så, men dog kun signifikant for RE. RE opnåede en høj gennemsynshastighed hurtigere end SY og formåede tilmed at øge den diagnostiske præcision samtidigt. Dette bekræfter til dels vores hypotese vedrørende tidsforbrug. Dog kan man stille spørgsmålstegn ved det tidsforbrug, som RE brugte til gennemsyn, idet standardtidsforbruget anses for at være omkring en time selv for den trænede KE-aflæser. SY's tidsforbrug synes mere at afspejle den kliniske hverdag, om end tidsforbruget som selvstændig parameter ikke er kvalitativ [2]. Den diagnostiske kvalitet ville forventes at være højere, såfremt tidsforbruget blev øget.

Intraobservatørdata

Med hypotesen om, at procentdelen af korrekte fund øges med antallet af sete undersøgelser in mente, viser resultaterne, at dette er sandt for RE, men ikke for SY, hvis diagnostiske præcision blev forringet fra 1. til 2. gennemsyn. RE opnåede moderat og SY kun ringe intraobservatøroverensstemmelse. Både SY og RE var novicer inden for KE-diagnostik, hvilket afspejles i evnen til at reproducere fund. RE øgede procentdelen af korrekte fund fra 1. til 2. gennemsyn, hvilket delvist understøtter hypotesen. Det bør dog haves in mente, at der ikke umiddelbart kan generaliseres ud fra resultater, der er baseret på en stikprøve i en læge- og sygeplejerskepopulation.

Interobservatørdata

Der er lavet flere studier af, hvorvidt sygeplejersker eller læger uden endoskopisk specialerfaring kan udføre KE-gennemsyn:

Levinthal et al s ammenlignede læge- og sygeplejerske-performance og konkluderede, at en sygeplejerske med KE-træning kan udføre præliminære gennemsyn [3]. Sygeplejersken i dette studie var trænet i KE-diagnostik modsat RE og SY i vores studie.

Ved sammenligning af KE-erfarne og KE-uerfarne lægeobservatører fandt Petroniene et al perfekt interobservatør overensstemmelse mellem de erfarne, men ringe overensstemmelse mellem uerfarne observatører [4]. Vores resultater støtter disse fund, selv om der i vores studie ikke blev opnået perfekt interobservatøroverensstemmelse mellem erfarne undersøgere, da sensitiviteten kun var 79%. At SP noterede færre fund end GI kan skyldes, at SP var i besiddelse af klinisk baggrundsviden om hver patient, hvilket kan have ført til mere fokuserede og problemorienterede gennemsyn (klinisk review -bias).

Chen et al udførte et studie, hvor medicinstuderende med minimal endoskopisk erfaring blev sammenlignet med en guldstandard sat af en erfaren gastroenterolog. Individuelt kunne observatørerne i dette studie ikke måle sig med guldstandard [5]. Sensitiviteten på 60-100% blandt uerfarne undersøgere er lig vores resultater.

I et andet studie gennemså en KE erfaren sygeplejerske 50 KE-film, og resultaterne blev sammenlignet med en gastroenterologs. Der fandtes perfekt interobservatør overensstemmelse for hovedparten af cases, og konklusionen var, at præliminære gennemsyn udført af en sygeplejerske er sikkert og pålideligt [6]. I studiet blev der tillige fundet en betydelig overdiagnosticering fra sygeplejerskens side - en tendens, der er i overensstemmelse med vore resultater, hvor dette dog kun gør sig gældende for klinisk ikke betydende fund. En sådan overdiagnosticering som udtryk for lav specificitet kan være en styrke, idet sandsynligheden for at vigtig patologi ikke overses øges. Ved overdiagnosticering øges risikoen dog for, at patienten udsættes for overflødige, kostbare og risikable ekstraundersøgelser.

Ved sammenligning af RE med henholdsvis SP og GI fandt vi rimelig, henholdsvis ringe interobservatøroverensstemmelse. K-værdierne var dobbelt så høje for både RE og SY ved sammenligning med SP som ved sammenligning med GI. Dette kan skyldes verifikationsbias hos sidstnævnte. Resultaterne afviger fra et studie, hvori der fandtes moderat interobservatøroverensstemmelse ved sammenligning af to reservelæger og en gastroenterologisk specialist, der alle havde set de samme 58 KE-film [7]. Guldstandarden blev i det studie bestemt intraoperativt, fiberendoskopisk eller ved konsensusgennemsyn, hvor vores guldstandard var foruddefineret.

Danske Ewertsen et al undersøgte bioanalytikeres evne til at udføre screening på KE-undersøgelser og kom frem til, at dette med fordel kunne lade sig gøre på trods af, at der kun fandtes en »billede til billede-overensstemmelse« i fund på 20% og 32%, idet evnen til at reproducere en egentlig diagnose var god. De fandt, at metoden reducerede speciallægetidsforbruget væsentligt [8].

Vores resultater peger i retning af - men støtter ikke fuldt - fundene fra de studier, i hvilke man anbefaler præliminære KE-gennemsyn ved ikkespeciallæger [3, 6, 8].

Betydningen af forskelle i klinisk erfaring, akademisk baggrund og analytisk tilgang til opgaven hos observatørerne er fortsat uafklarede.

Konklusion

Sygeplejersken og reservelægen opnåede samme diagnostiske resultat, men begge var dårligere end både guldstandarden og speciallægen. Dette var forventeligt, idet begge var novicer. Konklusivt er studiet hypotesegenererende for, hvorvidt reservelæger og sygeplejersker kan foretage diagnostisk KE-gennemsyn.

Emilie Lund Laursen , Brøndsteds Allé 6, 4 t.v., DK-1803 Frederiksberg C. E-mail: emilielundlaursen@hotmail.com

ANTAGET: 26. januar 2009

INTERESSEKONFLITKER: Ingen

TAKSIGELSER: Forfatterne ønsker at takke Hans Jürgen Nissen , Neovitalis, Danmark, for støtte til relaterede aktiviteter og overlæge Claus Aalykke for kritisk gennemlæsning af manuskriptet.

Consensus statement, ICCE 2006, Boca Raton, Florida, USA. ww.icce.info/consensus.html (1.december 2008).
Christensen LA, Dahlerup JF, Poulsen PB et al. Kapselendoskopi ved diagnostik i tyndtarmen - en medicinsk teknologivurdering. København: Sundhedsstyrelsen, Enhed for Medicinsk Teknologivurdering, 2007.
Levinthal GN, Burke CA, Santisi JM. The accuracy of an endoscopy nurse in interpreting capsule endoscopy. Am J Gastroenterol 2003;98:2669-71.
Petroniene R, Dubcenco E, Baker JP et al. Given capsule endoscopy in celiac disease: Evaluation of diagnostic accuracy and interobserver agreement. Am J Gastroenterol 2005;100:685-94.
Chen GC, Enayati P, Tran T et al. Sensitivity and inter-observer variability for capsule endoscopy image analysis in a cohort of novice readers. World J Gastroenterol 2006;12:1249-54.
Niv Y, Niv G. Capsule endoscopy examination - preliminary review by a nurse. Dig Dis Sci 2005;50: 2121-4.
Lai LH, Wong G, Chow D et al.. Inter-observer variations on interpretation of capsule endoscopy. Eur J Gastroenterol Hepatol 2006;18:283-6.
Ewertsen C, Svendsen CB, Svendsen LB et al. Er screening af kapselendoskopiske undersøgelser udført af ikkelægeligt personale anvendelig? Ugeskr Læger 2006;168:3530.
Horton K, Reffel A, Rosen K et al. Training of

Referencer

Consensus statement, ICCE 2006, Boca Raton, Florida, USA. ww.icce.info/consensus.html (1.december 2008).
Christensen LA, Dahlerup JF, Poulsen PB et al. Kapselendoskopi ved diagnostik i tyndtarmen - en medicinsk teknologivurdering. København: Sundhedsstyrelsen, Enhed for Medicinsk Teknologivurdering, 2007.
Levinthal GN, Burke CA, Santisi JM. The accuracy of an endoscopy nurse in interpreting capsule endoscopy. Am J Gastroenterol 2003;98:2669-71.
Petroniene R, Dubcenco E, Baker JP et al. Given capsule endoscopy in celiac disease: Evaluation of diagnostic accuracy and interobserver agreement. Am J Gastroenterol 2005;100:685-94.
Chen GC, Enayati P, Tran T et al. Sensitivity and inter-observer variability for capsule endoscopy image analysis in a cohort of novice readers. World J Gastroenterol 2006;12:1249-54.
Niv Y, Niv G. Capsule endoscopy examination - preliminary review by a nurse. Dig Dis Sci 2005;50: 2121-4.
Lai LH, Wong G, Chow D et al.. Inter-observer variations on interpretation of capsule endoscopy. Eur J Gastroenterol Hepatol 2006;18:283-6.
Ewertsen C, Svendsen CB, Svendsen LB et al. Er screening af kapselendoskopiske undersøgelser udført af ikkelægeligt personale anvendelig? Ugeskr Læger 2006;168:3530.
Horton K, Reffel A, Rosen K et al. Training of nurse practitioners and physician assistants to perform screening flexible sigmoidoscopy. J Am Acad Nurse Pract 2001;13:455-9.
Goodfellow PB, Fretwell IA, Simms JM. Nurse endoscopy in a district general hospital. Ann Royal Coll Surg Engl 2003;85:181-4.
Korman LY, Delvaux M, Gay G et al. Capsule endoscopy structured terminology (CEST): Proposal of a standardized and structured terminology for reporting capsule endoscopy procedures. Endoscopy 2005;37:951-9.
Delveaux M, Crespi M. Computer Committee of ESGE. Minimal standard terminology in digestive endoscopy. Endoscopy 2002;32:162-88.
Fleiss JL. Statistical methods for rates and proportions, 2. Ed. New York: Wiley, 1981.
Scally AJ, Brealy S. Confidence intervals and sample size calculations for studies of film-reading performance. Clin Radiol 2003;58:238-46.
Altman DG. Practical statistics for medical research. London: Chapman and Hall, 1991.
Brealy S, Scally AJ. Bias in plain film reading performance studies. Br J Radiol 2001;74:307-16.
Delveaux M, Friedman S, Keuchel M et al. Structured terminology for capsule endoscopy: results of retrospective testing and validation in 766 small-bowel investigations. Endoscopy 2005;37:945-50.