REPLIK Niels Keiding: Husk konteksten, når I deler data
Det er positivt, at data stilles til rådighed for offentlighed og andre forskere. Men der bør være en kontakt mellem genbrugere og dem der oprindeligt indsamlede data
Det er positivt, at data stilles til rådighed for offentlighed og andre forskere. Men der bør være en kontakt mellem genbrugere og dem der oprindeligt indsamlede data
I sin nytårsleder [1] beskriver redaktør Rosenberg Vancouver-gruppens beslutning om at opgradere bestræbelserne på at de data, der ligger til grund for tidsskrifternes publikationer, stilles til rådighed for offentligheden, herunder navnlig andre forskergrupper, så disse kan verificere de foretagne analyser af data og udføre alternative analyser, som måske kan føre til andre konklusioner. Vancouver-gruppen har i første omgang begrænset sig til data fra kliniske forsøg. Rosenberg opfordrer Ugeskriftets læsere til at kommentere denne problematik i bladet.
Umiddelbart lyder det vældig positivt med denne åbenhed om forskningen, og der er ikke tvivl om, at der er en international bevægelse i gang, som vi alle må forholde os til. Min kommentar tager udgangspunkt i den generelle erfaring om statistisk analyse af data fra lægevidenskabelige forskningsprojekter, at adækvat analyse forudsætter løbende kontakt mellem dem, der har indsamlet data, og dem, der analyserer dem. Hvis genbrug af data skal være kompetent, ville det tilsvarende være bedst (men i praksis normalt urealistisk), om de, der reanalyserer, havde kontakt med dem, der oprindeligt indsamlede data. Som et minimum kræver meningsfuld reanalyse, at data og omstændighederne om udvalg af patienter osv. er forsynet med langt mere udførlig dokumentation end vi er vant til.
Adækvat analyse forudsætter løbende kontakt mellem dem, der har indsamlet data, og dem, der analyserer dem
På denne generelle baggrund (som jeg havde en publiceret diskussion[2] om med biostatistiske kolleger og repræsentanter for redaktionerne af JAMA og BMJ) er det forståeligt, at Vancouver-gruppen har valgt i første omgang at begrænse sig til kliniske forsøg. Den enkleste situation er det klassiske randomiserede fase 3 lægemiddelforsøg, hvor enhver videnskabelig nysgerrighed er afløst af statistisk test af i princippet en enkelt, i protokollen præspecificeret hypotese. Den principielt enkle struktur i og det stiliserede formål med fase 3 forsøgene kan gøre det meningsfuldt at udføre reanalyser alene baseret på den oprindelige protokol og den (veldokumenterede) database, uden kontakt med de oprindelige forskere.
For fase 3 forsøg er der meget udførlige regler for dokumentation af dataindsamlingen, herunder in- eller eksklusion af patienter og data (Good Clinical Practice, GCP). Der er i Danmark opbygget 3 offentlige GCP-enheder (www.gcp-enhed.dk) med henblik på at bringe offentligt initierede og finansierede kliniske forsøg op på samme dokumentationsniveau som gælder de kommercielle forsøg, hvor de regulatoriske myndigheder håndhæver en stram disciplin. GCP-dokumentationen vil udgøre et skridt i retning af det nødvendige for en meningsfuld reanalyse (men der vil stadig være arbejde at gøre, fx vil de fleste anmodninger om at dele data vel komme internationalt, således at hele dokumentationen i praksis skal være på engelsk).
Der er imidlertid mange andre undersøgelser, som falder ind under Vancouver-gruppens definition på et klinisk forsøg. Som formuleret i Rosenbergs leder[1]: ’ethvert forskningsprojekt, der prospektivt rekrutterer mennesker eller grupper af mennesker til en eller flere interventioner for at undersøge effekten på sundhedsresultater’. Det vil kræve en gevaldig opstramning i forskningsmiljøerne, hvis man på samme måde som i fase 3 forsøgene skal kunne stole på, at den totale dataindsamling i disse bredere situationer er foregået som præspecificeret i protokollen, derved at enhver afvigelse er nøje dokumenteret i en tilhørende data-log. Og hvor bliver der plads til den videnskabelige nysgerrighed? I den nuværende praksis er den oprindelige analyse en dynamisk vekselvirkning mellem forskere fra substansfeltet og statistikere, og det er efter min mening svært at forestille sig at andre kan reproducere denne proces meningsfuldt alene på basis af en database.
Jeg håber, at forsøgenes substans vil få en fremtrædende plads i den fortsatte diskussion om datadeling. I bedste fald vil man benytte lejligheden til at blive dygtigere til at dokumentere og formidle ikke alene de nøgne data, men også alle de konkrete omstændigheder bag dem.
Rosenberg J. Kommende krav om deling af forskningsdata. Ugeskr Læger 2014;176:35.
Keiding N. Reproducible research and the substantive context (with discussion). Biostatistics 2010;11:376-396.