Statusartikel

Associationsstudier af hele genomet

Statistiker Bjarke Feenstra, epidemiolog Heather Allison Boyd & professor Mads Melbye Statens Serum Institut, Afdeling for Epidemiologisk Forskning, København

3. okt. 2008

8 min.

Det genetiske associationsstudium er et vigtigt redskab til afdækning af genetiske risikofaktorer for sygdom. I sin simpleste form sammenligner metoden hyppigheden af en genvariant blandt personer med en given sygdom med hyppigheden i en gruppe af raske kontrolpersoner. Man kan derved afgøre, om genvarianten er associeret med sygdommen.

Indtil for nylig er associationsstudier primært blevet benyttet til undersøgelser af kandidatgener, hvor et eller flere gener udvælges med baggrund i deres funktion og en formodet sammenhæng med den givne sygdom. Derpå undersøger man, om en målbar genetisk markør, f.eks. en enkeltnukleotidpolymorfi (single nucleotide polymorphism, SNP ), har forskellig allelfrekvens hos patientgruppen i forhold til kontrolgruppen.

Tusindvis af associationer mellem genvarianter og komplekse folkesygdomme er publiceret i tidens løb, men til stor frustration for forskerne er stort set ingen af disse associationer konsekvent genfundet i efterfølgende uafhængige undersøgelser [1] - indtil for nylig.

I 2007 skete der et nybrud inden for den genetiske epidemiologi. Teknologiske landvindinger har gjort det muligt at foretage associationsstudier med 100.000-vis af SNP'er fordelt over hele genomet (såkaldte genome-wide association studies, GWA -studier). I modsætning til kandidatgenstudier opstilles ingen a priori-hypoteser om, at SNP'er i bestemte udvalgte gener har betydning for sygdommen. I stedet lader man data tale ved at undersøge SNP'er over hele genomet - og kan derved identificere SNP'er i hidtil upåagtede gener eller i regulatoriske områder uden for noget gen. Et uset stort antal genetiske risikofaktorer er blevet identificeret og eftervist for komplekse sygdomme som f.eks. prostatakræft, brystkræft, kardiovaskulær sygdom, diabetes, inflammatorisk tarmsygdom, grøn stær og leddegigt inden for det seneste år. I denne statusartikel ser vi på baggrunden for denne udvikling, nogle af resultaterne og de fremtidige perspektiver.

Metoder til genkortlægning

Klassiske familie- og tvillingestudier har etableret, at der er en betydelig genetisk prædisponering både for sjældne lidelser som cystisk fibrose, seglcelleanæmi og blødersygdom samt for almindelige komplekse sygdomme som cancer, hjerte-karsygdom, diabetes, psoriasis og fedme.

På molekylært niveau benyttes to centrale værktøjer i jagten på kausale genvarianter: genetiske koblingsanalyser og associationsstudier. Koblingsanalyse indebærer, at familier med to eller flere afficerede personer undersøges. De afficerede og eventuelt nogle raske slægtninge genotypes for op til et par tusinde genetiske markører (mikrosatellitter) fordelt over hele genomet, og man undersøger, om de afficerede genetisk set ligner hinanden mere, end man skulle forvente ud fra deres familiære relation.

Koblingsanalyse og efterfølgende finkortlægning er med succes blevet benyttet i studiet af mendelske sygdomme, hvor et enkelt defekt gen er impliceret, og hvor den relative risiko for at udvikle sygdommen for bærere af sygdomsallellen er høj. Når det gælder almindelige komplekse sygdomme, som influeres af mange gener og af miljøfaktorer, har stort set ingen påståede fund dog kunnet eftervises senere.

En fremsynet artikel i 1996 af Risch & Merikangas [2] omhandlede denne observation. Forfatterne viste ved hjælp af styrkeberegninger, at koblingsanalyse ikke var velegnet til at finde gener for komplekse sygdomme med mange gener involveret, og hvor hvert gen har lille effekt. Det ville kræve titusinder af familier i hver undersøgelse. Den nødvendige prøvestørrelse ved associationsstudier er derimod langt mindre, og Risch & Merikangas forudså, at GWA-studier ville blive fremtidens genkortlægningsmetode. To forudsætninger måtte dog opfyldes. Det var nødvendigt med detaljeret viden om mønstre for variation i det humane genom, og det skulle være teknisk muligt rutinemæssigt at genotype 100.000-vis af SNP'er per person.

Den første præmis er blevet opfyldt gennem massiv grundforskning; den anden ved at biotekfirmaer som Affymetrix, Illumina og Perlegen i skarp konkurrence har udviklet og kommercialiseret DNA-mikrochips, som giver op til 1 mio. SNP-genotyper pr. person med meget lille fejlrate.

Haplotypevariation og dækning af genomet

Et centralt krav til GWA-studier er, at så meget som muligt af den genetiske variation i genomet dækkes. Det humane genomprojekt fastslog rækkefølgen af de 3 mia. basepar og placeringen af de 25.000 gener i genomet, men det var ikke designet til at belyse genetiske variationer inden for og mellem forskellige etniske grupper.

Det internationale HapMap-projekt fokuserer på denne opgave. I alt 270 individer fra fire forskellige etniske grupper (hvide, vestafrikanere, kinesere og japanere) er blevet genotypet for flere end 3 mio. ud af de ca. 11 mio. kendte SNP'er, svarende til en gennemsnitlig tæthed på 1 SNP pr. 1.000 basepar [3].

HapMap projektet har ikke blot givet information om allelfrekvenser for enkelte SNP'er, men også om korrelationer mellem SNP'er, der sidder tæt ved hinanden på samme kromosom, dvs. om hyppigheder af forskellige haplotyper. Det har vist sig, at haplotypediversiteten er langt mindre end forventet. Hvis man f.eks. forestiller sig fem SNP'er ved siden af hinanden, vil der være 25 = 32 mulige haplotyper i populationen, men ofte ses kun et par stykker. Det skyldes, at rekombinationer fortrinsvis sker i bestemte områder af genomet (hotspots). På populationsniveau er der således en struktur af haplotypeblokke, hvor SNP'er inden for hver blok er højt korrelerede [4].

Det er denne blokstruktur, som gør GWA-studier mulige. I stedet for at skulle genotype alle 11 mio. SNP'er for hver person i et studium kan man nøjes med et par SNP'er i hver haplotypeblok, svarende til 300.000-500.000 SNP'er i alt, og stadig fange størstedelen af den genetiske variation.

Hvis der reelt set er en kausal genvariant i en blok, og man har fanget signalet, kan det således skyldes to ting. Man kan have været heldig, at den SNP, der viser kraftigst association til sygdommen, er en funktionelt betydningsfuld variant. Som oftest vil man dog i stedet have genotypet en SNP, der er i såkaldt koblingsuligevægt med den kausale variant, dvs. at der er høj korrelation mellem de to loci. Det at prædiktere et individs genotype for en SNP ud fra kendte genotyper af en eller flere omkringliggende SNP'er kaldes imputation og er et vigtigt statistisk redskab til analyse af associationsstudier af hele genomet [5].

Fundne associationer

Efter tilløb i 2005 og 2006 med succesfulde GWA-studier af aldersrelateret makulær degeneration [6] og Crohns sygdom [7] tog sagerne for alvor fart i 2007.

I juni måned blev verdens hidtil største GWA-studium publiceret af det britiske Wellcome Trust Case Control Consortium [8]. Studiet inkluderede 14.000 patienter fordelt på syv forskellige sygdomme (bipolar sygdom, koronararteriesygdom, Crohns sygdom, kronisk leddegigt, hypertension, type 1- og type 2-diabetes) og resulterede i 24 signifikante varianter. Halvdelen heraf bekræftede tidligere fund, og af den anden halvdel er ti varianter blevet eftervist i uafhængige case-kontrol-studier. Figur 1 illustrerer resultaterne fra GWA-studiet af Crohns sygdom.

En lang række yderligere GWA-studier har fundet og bekræftet genvarianter for sygdomme som prostatakræft, brystkræft, tyktarmskræft, myokardieinfarkt, diabetes, atrieflimren, dissemineret sklerose, galdesten, grøn stær og fedme, samt andre fænotyper som højde og pigmentering af hår, øjne og hud (Tabel 1 ).

Perspektiver

Den første bølge af GWA-studier har givet et væld af overbevisende resultater, og den indhøstede viden og erfaring giver et fingerpeg om feltets udvikling. Det er kendetegnende, at de fundne genvarianter sjældent er i formodede kandidatgener og ofte ikke engang i nærheden af noget gen. Mekanismerne bag associationerne mellem genvarianter og sygdom er derfor som oftest fuldstændig ukendte, og en stor kommende udfordring bliver at belyse dette nærmere ved hjælp af funktionelle studier i dyremodeller, celle- og molekylærbiologisk forskning samt kliniske forsøg.

To yderligere fællestræk ved GWA-studier understreger, at samarbejde på tværs af forskningsgrupper er yderst vigtigt. For det første er den relative risiko for at udvikle sygdom ofte kun let forhøjet for bærere af en genvariant. Det er derfor nødvendigt med meget store studier, f.eks. i form af konsortiesamarbejder, for at opnå god statistisk styrke. En tommelfingerregel siger, at man har brug for minimum 1.000 cases og 1.000 kontroller for at kunne finde genvarianter med relativ risiko på 1,5. For det andet er potentialet for falsk-positive resultater enormt med 300.000 eller flere tests. Der stilles derfor skrappe krav fra bevillingsgivere og tidsskrifter om, at associationssignaler skal bekræftes i en eller flere uafhængige case-kontrol-populationer [9], hvilket igen fordrer samarbejde.

En række resurser bliver udviklet med henblik på at muliggøre deling af data. National Institute of Health (NIH) i USA har som det fremmeste eksempel skabt en database (dbGaP), hvor fænotype- og genotypedata fra alle NIH-finansierede GWA-studier vil blive lagret og stillet til rådighed for øvrige forskere [10]. Som forsker kan man dermed kombinere sine egne GWA-data med publicerede data for den samme sygdom og få ekstra statistisk styrke. Eller man kan vinde styrke ved at tilføje data fra etnisk matchende kontrolpersoner til sin egen kontrolgruppe. Med 1.000 cases og 4.000 kontroller får man eksempelvis omtrent lige så stor styrke som med 2.000 cases og 2.000 kontroller.

Et fra en dansk synsvinkel spændende aspekt ved den næste bølge af GWA-studier er, at der lægges vægt på også at inddrage miljøfaktorer og gen-miljø-vekselvirkninger. Her giver de danske sundhedsregistre samt eksistensen af store epidemiologiske kohortestudier med tilhørende biobanker unikke muligheder for detaljeret og præcis information om fænotyper og kovariater. Dette afspejles allerede af, at 4.000 individer fra kohorten Bedre sundhed for mor og barn er blevet udvalgt til et GWA-studium af præterm fødsel under NIH-programmet Genes, Environment and Health Initiative.

Associationsstudier af hele genomet har vist sig som et uovertruffet redskab til identifikation af genetiske risikofaktorer for komplekse sygdomme. Ultimativt set må værdien af anstrengelserne dog måles i vore fremskridt i forebyggelse og behandling af sygdom. For at nå dertil forestår der i de kommende år et stort forskningsarbejde med afklaringen af de kausale mekanismer, som ligger bag associationerne mellem genetiske varianter og sygdom.

Bjarke Feenstra , Afdeling for Epidemiologisk Forskning, Statens Serum Institut, Artillerivej 5, DK-2300 København S. E-mail: fee@ssi.dk

Antaget: 24. marts 2008

Interessekonflikter: Ingen

Referencer

Hirschhorn JN, Lohmueller K, Byrne E et al. A comprehensive review of genetic association studies. Genet Med 2002;4:45-61.
Risch N, Merikangas K. The future of genetic studies of complex human diseases. Science 1996;273:1516-7.
The International HapMap Consortium. A second generation human haplotype map of over 3.1 million SNPs. Nature 2007;449:851-61.
Gabriel SB, Schaffner SF, Nguyen H et al. The structure of haplotype blocks in the human genome. Science 2002;296:2225-9.
Marchini J, Howie B, Myers S et al. A new multipoint method for genome-wide association studies by imputation of genotypes. Nat Genet 2007;39:906-13.
Klein RJ, Zeiss C, Chew EY et al. Complement factor H polymorphism in age-related macular degeneration. Science 2005;308:385-9.
Duerr RH, Taylor KD, Brant SR et al. A genome-wide association study identifies IL23R as an inflammatory bowel disease gene. Science 2006;314:1461-3.
The Wellcome Trust Case Control Consortium. Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature 2007;447:661-78.
NCI-NHGRI Working Group on Replication in Association Studies. Replicating genotype-phenotype associations. Nature 2007;447:655-60.
Mailman MD, Feolo M, Jin Y et al. The NCBI dbGaP database of genotypes and phenotypes. Nat Genet 2007;39:1181-6.