En guide til valide og reproducerbare systematiske litteratursøgninger

Tove Faber Frandsen1, Anne-Kirstine Dyrvig2, Janne Buck Christensen2, Iben Fasterholdt2 & Anne Mette Oelholm2

10. feb. 2014

11 min.

Et systematisk review er en oversigt over tilgængelig evidens for en given problemstilling. Det består af et klart formuleret spørgsmål, der undersøges ved hjælp af systematiske og eksplicitte metoder til at identificere, udvælge og kritisk vurdere den relevante forskningslitteratur samt samle og analysere data fra de studier, der er inkluderet i oversigten. Statistiske metoder (metaanalyse) kan, men skal ikke nødvendigvis, anvendes til at analysere og opsummere resultaterne fra de inkluderede studier [1].

Validitet og reproducerbarhed af systematiske review er vigtig, fordi systematiske review har mere vægt end enkelte undersøgelser som et solidt grundlag for nye politikker og behandlinger. Der findes en betragtelig mængde studier, der kan dokumentere uoverensstemmelser i konklusioner på baggrund af samme litteraturgrundlag, f.eks. [2-4], hvorimod der kun eksisterer få studier af validiteten og reproducerbarheden af systematiske review [3, 5].

Ifølge Andrew Booth skal der laves grundige litteratursøgninger af tre årsager [6]: 1) Det øger chancen for at finde alle relevante referencer, 2) det bidrager til at overbevise læserne om, at konklusionerne er robuste, og 3) det minimerer risikoen for, at søgningen bliver anklaget for at være ufuldstændig.

I forhold til ovenstående punkter 2 og 3 er det centralt, at læserne er i stand til at vurdere grundigheden af litteratursøgninger, hvilket sker ved detaljeret afrapportering af litteratursøgningsprocessen.

Den generelle standard i eksisterende systematiske review er imidlertid langtfra altid imponerende. Dette gælder både i forhold til gennemførelsen af selve litteratursøgningerne og afrapportering af søgeprocessen. Systematiske review indeholder ikke nødvendigvis en beskrivelse af søgningerne, der sætter læseren i stand til at reproducere dem. I mindre end 10% af de systematiske review beskrives søgeprocessen i tilstrækkelig grad, til at den kan betegnes som reproducerbar [7, 8]. Typiske undladelsessynder er manglende angivelse af datoer for søgningernes udførelse, sproglige afgrænsninger og søgestrategier

[9, 10]. Selve litteratursøgningerne er ofte karakteriseret ved ikke at leve op til gældende anbefalinger og guidelines. Der søges typisk i få databaser, anvendes udelukkende enten emneord eller fritekst, grå litteratur inkluderes ikke, og informationsspecialister inddrages ikke [11].

Denne artikels bidrag er at angive retningslinjer for, hvordan udarbejdelse af gode søgninger og afrapporteringer opnås med henblik på høj validitet og reproducerbarhed.

SØGEPROTOKOLLER OG DERES RATIONALE

En søgeprotokol er »en eksplicit, struktureret plan for indsamling af information« [12]. For at sikre konsistens i søgningen, og for at andre på et senere tidspunkt kan reproducere den, er det vigtigt at dokumentere både litteratursøgningsprocessen og den efterfølgende sorteringsproces i en søgeprotokol. Samlet set skal søgeprotokollen afspejle, hvilke metoder der anvendes i søgningen, men den skal også fungere som dokumentation for processen. Derfor skal søgeprotokollen indeholde oplysninger om både strategi for udførelse af søgningen, og hvordan søgningen rent faktisk er udført. Inklusionskriterierne kan udvides, informationskilder kan tilføjes eller fjernes osv. Modifikationer i søgestrategien skal dokumenteres og begrundes for at undgå bias [13].

Søgeprotokollen indeholder typisk en beskrivelse af [12, 14]: baggrund og problemstilling; det fokuserede søgespørgsmål; inklusions- og eksklusionskriterier; databaser og informationskilder; søgehistorik, søgeresultater og dato for søgningen; strategi for udvælgelse af litteratur samt strategi for kvalitetsvurdering af inkluderet litteratur.

Det er en god ide at udvikle søgeprotokollen i samarbejde med f.eks. opdragsgiver, projektgruppe, fagfolk og informationsspecialister på lokale videncentre. Omfanget af et review kan variere afhængigt af tidsperspektivet og emnet. En måde at afgrænse og tilpasse søgningen på er ved at udvælge informationskilder efter kerne, standard og ideal (KESI)-modellen (Figur 1) [15].

En kernesøgning er en søgning i få, udvalgte informationskilder og er velegnet til projekter med kort deadline. Standardsøgningen omfatter, ud over en kernesøgning, søgning i flere informationskilder,

herunder søgning i grå litteratur. Ved en idealsøgning er målet at finde al litteratur på et givent område. Søgningen kan resultere i megen informationsstøj, dvs. irrelevante fund, men dette bør teoretisk set opvejes af den større sandsynlighed for at få flere relevante artikler og rapporter med [16].

Modellen kan give et overblik over den afvejning, der må finde sted mellem den tid og grundighed, der investeres i en søgning, og udbyttet af søgningen. En udvidelse af en kernesøgning med hhv. standard-

eller idealsøgning resulterer alt andet lige i flere fund, da der afsøges flere kilder. Der er dog ikke evidens for, om søgningen styrkes eller udfordres af den øgede investering [17].

Søgeprotokollen medvirker til at vise, hvor mange resurser, der er investeret i søgningen, og hvad det forventede udbytte vil være.

PICO-strukturen

En del af udarbejdelsen af en søgeprotokol er at formulere et eller flere fokuserede spørgsmål, der vil kunne hjælpe til at afgrænse litteratursøgningen samt lette den kritiske gennemgang af litteraturen og vurderingen af relevansen heraf. Derfor må fokuserede spørgsmål være entydige, præcise og mulige at besvare [14, 18].

Det fokuserede spørgsmål kan udarbejdes ved hjælp af en konceptualiseringsmodel. PICO-modellen har fundet udbredt anvendelse. PICO er et akronym, som beskriver fire elementer af et velformuleret og fokuseret klinisk spørgsmål, nemlig population, intervention, comparison og outcome. Med identifikation af centrale begreber inden for hvert af de fire elementer lettes processen med søgning og sortering af litteratur. PICO-strukturen er udviklet til fokusering af kliniske spørgsmål om terapi, men anvendelsen er senere udvidet til alle typer af kliniske spørgsmål. Derfor kan PICO-strukturen udvides til PICOTT ved også at præcisere typen af spørgsmål, der stilles

(f.eks. inden for terapi, prognose, diagnose osv.) og typen af undersøgelsesdesign, der er mest velegnet til belysning af problemstillingen [12, 16, 18].

I empiriske undersøgelser har man påvist, at anvendelsen af PICO-strukturen øger kliniske problemstillingers specificitet og begrebsmæssige klarhed, fører til mere komplekse søgestrategier og frembringer mere præcise og dermed relevante søgeresultater [16]. Evidensen for/imod anvendelsen af PICO er dog ikke fuldstændig entydig – i et randomiseret, kontrolleret overkrydsningsstudie fra 2012 har man påvist, at hurtige tidsbegrænsede søgninger a f.eks. fem minutters varighed baseret på PICO-strukturen hverken resulterer i bedre recall eller bedre precision end ikkevejledte standardsøgninger gør [19], mens man i et systematisk review fra 2009 understreger, at det endnu er uklart, om anvendelsen af PICO-strukturen er forbundet med højnet kvalitet i afrapporteringen af resultater [20]. Endelig kan der argumenteres for, at PICO er egnet til nogle typer af spørgsmål, hvorimod andre modeller vil være bedre egnet til at konceptualisere andre typer af spørgsmål [21].

UDFØRELSE AF EN LITTERATURSØGNING

Udgangspunktet for valg af kilder til litteratursøgning er de mange forskellige kanaler, som forskning formidles igennem [22]. Kanalerne kan opdeles i tre typer på baggrund af, hvordan forskningen kommer ind i dem, og hvordan den giver adgang til information. Idealsøgningen tilføjer igen en række kanaler, der skal afsøges. Der er stor forskel på søgeteknikken – selv i den samme type kanal. Cinahl og PubMed er begge bibliografiske databaser, men rent søgeteknisk er der stor forskel. Desuden kan den samme database gøres tilgængelig via en række forskellige platforme med hver deres søgetekniske løsning.

Til vurdering af, hvornår litteratursøgningen er tilstrækkelig, findes der forskellige metoder. I Tabel 1 præsenteres otte forskellige strategier sammen med deres styrker og svagheder. Ingen af metoderne er baseret på evidens, men det vil imidlertid altid være en styrke for en hvilken som helst søgning med henvisning til en faktisk strategi for afslutning af en den.

EVALUERING AF SØGNINGER

Litteratursøgningers kvalitet vurderes i forhold til to begreber: recall og precision. Recall beskriver den andel af den relevante litteratur i databasen, der blev identificeret i litteratursøgningen. I praksis kan det ikke måles, da den uidentificerede litteratur ikke er kendt. Begrebet er således udelukkende teoretisk. Precision beskriver derimod den andel af søgeresultatet, der er relevant. Dvs. en vurdering af, om man ved søgningen har formået at opfange det relevante og kun det relevante. Man har påvist i studier, at det er meget svært at opnå både høj recall og høj precision [23], og der må derfor foretages en afvejning af, hvor vigtig recall og precision er i forhold til det konkrete projekt.

Tre typer af kriterier for evaluering af en litteratursøgning

Kriterier for evaluering af en søgning kan opdeles i tre typer (Tabel 2) på baggrund af deres betydning for søgningens kvalitet [24]. Type 1-kriterier har stor betydning, type 2-kriterier har nogen betydning, mens type 3-kriterier ingen central betydning har for recall og precision.

I arbejdet med såvel søgestrategi som udførelse af søgninger bør disse kriterier anvendes til kvalitetssikring af arbejdet. Informationsspecialister og/eller projektgruppen kan med fordel indgå i den løbende evaluering heraf.

AFRAPPORTERING AF SØGNINGEN

Til sidst i en systematisk litteratursøgning skal den inkluderede litteratur kvalitetsvurderes. Hvis søgeprotokollen er anvendt som beskrevet i denne artikel, kan den nærmest indsættes direkte i metodeafsnittet.

Et samlet overblik over processen skabes med et flowdiagram (Figur 2) suppleret med en beskrivelse af, hvilke overvejelser der har været i de enkelte faser. Figuren medtages normalt i rapporten og skal give læseren en forståelse af processen fra afklaring og test af søgetermer (fase 0), henover søgning (fase 1) til processen med at indsnævre litteraturfund til det mest relevante (fase 2-4), herunder sortering og eksklusion af dubletter. Til sidst kvalitetsvurderes den tilbageværende litteratur (fase 5). I figurens »kasser« kan læseren følge ændringen i antal relevante referencer, alt imens resultatet fra den indledende søgning forfines.

Sortering af litteratur kan foretages i fire faser [25]: 1) udvælg litteratur med det højeste umiddelbare evidensniveau, 2) anvend det fokuserede spørgsmål (PICO) til at vurdere, om artiklen er relevant, 3) anvend tjeklister ved gennemgang af de enkelte artikler og 4) anvend internationalt anerkendte standarder til vurdering af artikler.

KONKLUSION

En hensigtsmæssig strukturering af processen for systematisk litteratursøgning består i en inddeling i følgende faser: 1) søgestrategi, 2) søgning og 3) kvalitetsvurdering. Den systematiske litteratursøgning tager udgangspunkt i en søgeprotokol, der indeholder de kilder, der skal søges i. Søgeprotokollen er dynamisk, og det er vigtigt, at de overvejelser og tiltag, der gøres i hver fase, dokumenteres og begrundes i søgeprotokollen, da det sikrer, at søgningen kan reproduceres. Evaluering af søgningens kvalitet sikres vha. recall og precision. Til sidst afrapporteres søgningen og sorteringen med et flowdiagram.

I artiklen er der opstillet en guideline for systematisk litteratursøgning. I den forbindelse kan det opsummerende konkluderes: Spil med åbne kort over for læseren af dit systematiske review. Så længe alle synder ærligt bekendes, kan (næsten) alt tilgives.

Korrespondance: Anne-Kirstine Dyrvig, Afdeling for Kvalitet og Forskning/MTV, Odense Universitetshospital, Sdr. Boulevard 29, 5000 Odense C.

E-mail: akd@rsyd.dk

Antaget: 23. april 2013

Publiceret på Igeskriftet.dk: 22 juli 2013

Interessekonflikter:

Summary

A guide to obtain validity and reproducibility in systematic reviews

Validity and reproducibility are key concepts in the execution and reporting of the literature searches underlying a systematic review as it enables the reader to assess the quality of the performed searches. However, often the reporting of searches is lacking crucial information. This article provides guidelines for the process from development of a search protocol to quality assessment of the retrieved literature in order to obtain validity and reproducibility. The concepts of recall and precision are introduced to enable quality assessment of the literature searches.

Referencer

Litteratur

Cochrane Collaboration, 2013. Glossary of Cochrane terms. www.cochrane.org/glossary/5#letters (22. nov 2012).
Linde K, Willich SN. How objective are systematic reviews? JRoyal Soc Med 2003;96:17-22.
Gras EG, Conde ED, Remigio JRL et al. Study of the reliability and validity of a
systematic literature review on ischemic heart disease. Med Clinica 1999;112:74-8.
Jadad AR, Cook DJ, Browman GP. A guide to interpreting discordant systematic reviews. Can Med Assoc J 1997;156:1411-6.
Thompson RL, Bandera EV, Burley VJ et al. Reproducibility of systematic literature reviews on food, nutrition, physical activity and endometrial cancer. Public Health Nutr 2008;11:1006-14.
Booth A. How much searching is enough? Int J Technol Assess Health Care 2010;26:431-5.
Maggio LA, Tannery NH, Kanter SL. Reproducibility of literature search reporting in medical education reviews. J Assoc Am Med Col 2011;86:1049-54.
Golder S, Loke Y, McIntosh HM. Poor reporting and inadequate searches were apparent in systematic reviews of adverse effects. J Clin Epidemiol 2008;61:440-8.
Yoshii A, Plaut DA, McGraw KA et al. Analysis of the reporting of search strategies in Cochrane systematic reviews. JMLA 2009;97:21-9.
Moher D, Tsertsvadze A, Tricco AC et al. A systematic review identified few
methods and strategies describing when and how to update systematic reviews. J Clin Epidemiol 2007;60:1095-104.
Sampson M, McGowan J. Errors in search strategies were identified by type and frequency. J Clin Epidemiol 2006;59:1057-63.
Cochrane. Unit Five: Asking an answerable question. http://ph.cochrane.org/sites/ph.cochrane.org/files/uploads/Unit_Five.pdf (9. nov 2012).
Aschengrau A, Seage III GR. Essentials of epidemiology in public health. London: Jones and Bartlet Publishers, 2003:137.
Bidwell S, Jensen MF. Using a search protocol to identify sources of information: the COSI model. I: Etext on health technology assessment (HTA) information resources. United States National Library of Medicine, 2003. www.nlm.nih.gov/archive/20060905/nichsr/ehta/chapter3.html (31. okt 2012).
Russel R, Chung M, Balk EM et al. Systematic Review Methods. I: Issues and challenges in conducting systematic reviews to support development of nutrient reference values. Rockville: Agency for Healthcare Research and Quality, 2009:5-9.
Schardt C, Adams MB, Owens T et al. Utilization of the PICO framework to improve searching PubMed for clinical questions. BMC Medical Informatics and Decision Making 2007;7:1-6.
Guemes-Careaga I, Gutiérrez-Ibarluzea I. Biomedical literature search protocols: consensus statement from the documentation units of the Spanish health technology assessment agencies. Int J Technol Assess Health Care 2008;24:104-11.
Stone PW. Popping the (PICO) question in research and evidence-based practice. Applied Nursing Research 2002;16:197-8.
Hoogendam A, de Vries Robbé PF, Overbeke JPM. Comparing patient characteristics, type of intervention, control and outcome (PICO) queries with unguided searching: a randomized controlled crossover trial. J Med Library Assoc 2012;100:121-6.
Thabane L, Thomas T, Ye C et al. Posing the research question: not so simple. Can J Anesth 2009;56:71-9.
Cooke A, Smith D, Booth A. Beyond PICO: the SPIDER tool for qualitative evidence synthesis. Qual Health Res 2012;22:1435-43.
Cooper HM. Research synthesis and meta-analysis: A step-by-step approach. London: Sage Publications, Inc, 2009.
Buckland M, Gey F. The relationship between recall and precision. J Am Soc Inform Sci 1994;45:12-9.
Sampson M, McGowan J, Cogo E et al. An evidence-based practice guideline for the peer review of electronic search strategies. J Clin Epidemiol 2009;62:944-52.
Kristensen FB, Sigmund H, red. Metodehåndbog for medicinsk teknologivurdering. København: Sundhedsstyrelsen, 2007.