Kunstig intelligens (AI) bliver stadigt hyppigere anvendt ved behandling af store datasæt. Genomisk medicin er netop ofte baseret på sådanne store datasæt. Det kan dreje sig om målingen af genaktivitet af alle de over 20.000 proteinkodende gener, som er undersøgt ved genekspressionsundersøgelser, der er foretaget enten ved RNA-sekventering eller array-baserede metoder. Det kan også dreje sig om undersøgelser af de
muligvis endnu flere (antallet er endnu ikke kendt) ikkeproteinkodende gener, der koder for RNA-molekyler med oftest regulerende funktion. Endelig kan det dreje sig om endnu større datasæt, når det involverer globale analyser såsom sekventering af exomet med flere millioner positioner (datapunkter) eller helgenomsekventering med tre milliarder positioner.
Fakta
Fakta
Hvor et større antal individer undersøges for nogle få faktorer, kan klassiske statistiske værktøjer benyttes til at teste en forud defineret hypotese. Når antallet af målepunkter langt overstiger antallet af objekter, og klassiske statistiske værktøjer ikke længere er velegnede, kan den hypotesedrevne proces erstattes af en datadrevet proces, hvor det gælder om at finde mønstre i store datasæt. Mønstergenkendelse kan vise, om der i mængden af datapunkter er faktorer eller mønstre af faktorer, der er karakteristiske for f.eks. klinisk relevante outcomes.
De enorme datasæt, der genereres ved analyse af genomet, kræver nye dataanalyseværktøjer. Der er ikke generel konsensus om, hvilke af disse Big Data-værktøjer der hører under begrebet AI, men dog enighed om at de metoder, der indebærer en læringsproces i form af maskinlæring, hører under AI. I denne artikel vil vi forstå begrebet bredt. Først vil vi kort redegøre for forskellen mellem to hovedtyper af analyser, den usuperviserede og den superviserede. Derefter giver vi eksempler på Big Data-analyse i genomisk medicin.
Hvis man har et stort antal datapunkter for en kohorte af individer, kan man uden forudgående hypoteser anvende usuperviseret analyse til at finde umiddelbart skjulte mønstre eller sammenhænge. Man kan altså afgøre, om der i materialet er undergrupper af personer, der ligner hinanden mht. de nævnte data (Figur 1 og Figur 2). Der anvendes her ikke klasselabels såsom eventuel information om outcome, og man må efterfølgende undersøge, om de fundne undergrupper eller klynger giver biologisk eller klinisk mening. Det er således en meget eksplorativ analyse, og man taler om data-mining.
Ved superviseret analyse derimod har vi ud over de mange datapunkter information om »sandt« outcome, og øvelsen går ud på ud fra de mange datapunkter at finde en model, som kan forudsige outcome. Hvis det er kategoriseret som syg/rask, er der tale om klassificering, men hvis det er kontinuert, er der tale om regression (Figur 1 og Figur 2). Det er her vigtigt at være opmærksom på, at hvis antallet af datapunkter er meget større end antallet af individer, hvilket ofte er tilfældet, betyder det store antal frihedsgrader, at det næsten altid vil være muligt at bygge en model, der passer nogenlunde med outcome. Det er imidlertid ikke sikkert, at den efterfølgende passer på en uafhængig kohorte af individer. Det er derfor nødvendigt at dele materialet op i et træningssæt og et testsæt for derefter at træne eller oplære sin model i træningssættet og teste i testsættet (Figur 2). De algoritmer, som man bruger ved denne form for maskinlæring, kan være baseret på logistisk regression, support vector machines, neurale netværk, random forest eller lignende.
Den bedste måde at få et indtryk af mulighederne og udviklingen på er ved at se på en række eksempler.
NEXT-GENERATION SEQUENCING
En sekventering af hele genomet foretages ved, at et stort antal DNA-stykker på f.eks. 100 basers længde sekventeres, hvorefter puslespillet lægges, ved at de enkelte stykker holdes op mod et referencegenom på 3 × 109 baser for at bestemme den samlede sekvens. Det vil kræve op mod 1018 sammenligninger, og stykkerne vil endda ikke svare helt til referencen pga. genetisk variation og en fejlrate på 0,1-1%. Det stiller store krav til den efterfølgende bioinformatiske dataanalyse at håndtere de store mængder data og opnå præcis bestemmelse af genetiske varianter og klinisk anvendelige
resultater. Som en del af det mest anvendte next-generation sequencing-dataanalyseworkflow, som er udviklet af forskere fra Broad Institute, USA, indgår maskinlæringsmetoder til at træne matematiske modeller ud fra viden om kendte genetiske varianter og herefter anvende de opnåede modeller til at korrigere sekventeringsfejl og fejlbehæftede variantkald [1]. Senest har forskere fra Google AI Team anvendt deep learning-teknologi til udvikling af et nyt værktøj, DeepVariant, til yderligere reduktion af fejlraten og opnåelse af meget præcise sekventeringsresultater [2]. Oftest er der dog stadig behov for manuelt at gennemse/kvalificere resultaterne/variantkaldene for at sikre sig, at de fundne genvarianter/mutationer er korrekte.
USUPERVISERET MØNSTERGENKENDELSE
Som en slags proof of concept-eksempel på usuperviseret mønstergenkendelse er resultatet af en genekspressionsanalyse vist i Figur 3 [3]. Er det så muligt at finde mønstre i denne datamængde og finde grupper af tumorer, der ligner hinanden? AI-analysen fandt en gruppe på 32 tumorer (til venstre i figuren), som efterfølgende viste sig overvejende at have mutation i BRCA1, og (lidt til højre i figuren) en gruppe på 11 tumorer, som næsten alle viste sig at være HER2-positive. Af de resterende 140 tumorer blev 137 bestemt til at være østrogenreceptorpositive (ER+). I et meget tidligt arbejde fra 2001 sås blandt ER+-tumorer luminale subtyper, og der blev påvist forskelligt klinisk outcome i de to grupper [4]. Adskillelsen mellem luminal A- og luminal B-grupperne er senere forfinet baseret på analyse af ekspressionen af 50 udvalgte gener (PAM50-profilen), som i dag for undergrupper af patienter med brystkræft kan anvendes ved behandlingsvalg. Mønstre af genekspression i primærtumorer er således i stand til at finde biologisk og klinisk relevante undergrupper af patienter.
SINGLE-CELL SEQUENCING
Et andet eksempel på usuperviseret AI-analyse er ved avanceret single-cell sequencing. Man forsøger ofte at opnå forståelse af en sygdomstilstand ved at foretage forskellige undersøgelser af vævsprøver. En komplicerende faktor er her, at prøven ofte består af flere subpopulationer af celler. Det kan imødegås ved f.eks. at sortere cellerne, hvilket dog typisk kræver et betydeligt a priori-kendskab og adgang til markører eller antistoffer, som er specifikke for subpopulationerne. AI kan i kombination med avanceret RNA-sekventering af cellerne enkeltvist vise, om der i en celleblanding findes undergrupper af celler, også selvom man ikke på forhånd har noget kendskab til disse undergrupper. Cellerne i hver undergruppe må formodes at udtrykke de samme gener, og deres RNA-profiler må derfor ligne hinanden. Selvom profilerne af de enkelte celler er af meget dårlig kvalitet, er det ved brug af usuperviseret AI muligt at afgøre, hvilke celler der tilhører samme subpopulation, og derved få indblik i vævets kompleksitet.
SUPERVISERET ANALYSE OG PRÆDIKTION
Hvis formålet er at forudsige klinisk outcome og forbedre behandlingsvalg, giver det god mening direkte at benytte klinisk information, når informative gener udvælges, og en model/profil/signatur udvikles i et træningssæt og efterfølgende testes i et uafhængigt datasæt. Et af de tidligste eksempler herpå blev præsenteret i Nature i 2002 [5], hvor en ekspressionssignatur (RNA-profil) fra primærtumorer baseret på 70 proteinkodende gener viste sig at kunne forudsige metastase for en gruppe af patienter med brystkræft. Det blev selvsikkert proklameret: »This gene expression profile will outperform all currently used clinical parameters in predicting disease outcome«. Testen blev efterfølgende markedsført som MammaPrint af firmaet Agendia og benyttes i dag flere steder ved behandlingsvalg. Vi har efterfølgende påvist, at man også kan forudsige metastase vha. mønstre af aktivitet i ikkekodende gener [6].
FUNKTIONEL INTERPRETATION
AI bruges også til at forudsige betydningen af genetiske varianter for proteinfunktion. Det er nemlig en meget stor bioinformatisk opgave at tolke de mange varianter, man finder ved omfattende genetiske analyser. Specielt missense-mutationer, hvor én aminosyre ændres til en anden aminosyre i proteinet, er ofte vanskellige at tolke. Bioinformatiske prædiktorer som PolyPhen2 og MutationTaster er eksempler på hyppigt anvendt software, og de bygger begge på maskinlæring. PolyPhen2 inkluderer viden om, hvor godt konserveret en given position er i evolutionen, og hvilken kemisk konsekvens den pågældende aminosyreændring forventes at have [7]. Klassificeringen sker vha. maskinlæringsbaseret »probabilistic classifiers«. MutationTaster anvender Bayes-klassificering til at udregne sandsynligheden for, at en given variant er patogen. Modellen er trænet på mere end syv millioner mutationer med kendt effekt fra Human Gene Mutation Database [8].
POLYGEN RISIKO-SCORE
Der er gennem de seneste 20 år foretaget en lang række meget store genetiske associationsstudier, såkaldte GWAS, hvor typisk 500.000 eller flere kendte hyppige variationer i genomet er undersøgt. I en række internationale konsortier er der på denne måde undersøgt meget store patient- og kontrolgrupper. Der er fundet mange genetiske associationer i forskellige sygdomme, men effektstørrelsen for hver enkelt variant er typisk meget lille, og den kliniske relevans begrænset. Ved at kombinere de genetiske varianter i såkaldte polygen risiko-scorer er det dog i flere tilfælde lykkedes at lave modeller, der potentielt kan være klinisk relevante. Ved brystkræft er der således i et stort studie udført GWAS på 33.000 cases og 33.000 kontrolpersoner og udviklet en risikoprofil baseret på 77 varianter. For den femtedel af patienterne med den mest ugunstige profil er livstidsrisikoen for brystkræft 24%, hvilket er markant højere end den generelle risiko på ca. 10% i den undersøgte kohorte [9]. Beregningsmetoden bygger på en simpel lineær model, og der er et potentiale i at anvende AI til at udvikle mere avancerede klassificeringsmetoder baseret på disse data.
BRYSTKRÆFTGENERNE
Nedarvede mutationer i BRCA1 og BRCA2 giver en markant forøget risiko for mamma- og ovariecancer. Derudover responderer tumorer med mutationer i disse gener bedre på visse behandlingsformer (platinholdig kemoterapi og behandling med polyadenosindifosfat-ribosepolymeraserinhibitor) end andre. Der er dog også en gruppe af mammatumorer, hvor der ikke findes BRCA1-/ BRCA2-mutationer, men som udviser en molekylær BRCA-fænotype, og der er data, der tyder på, at disse tumorer også responderer på behandlingen. En engelsk gruppe har sekventeret genomer fra tumorer og normalvæv fra 550 mammatumorer og vha. maskinlæringsmetoder trænet en model, HRDetect, der med stor præcision kan udpege tumorer med BRCA-fænotype [10, 11].
Vi har i et igangværende studie sekventeret 66 hele genomer og anvendt den engelske metode.
I Figur 4 vises den genomiske profil fra en tumor uden BRCA-fænotype og en med tydelig BRCA-profil.
AI er de senere år blevet og vil fremover i stigende grad blive et vigtigt værktøj i klinisk forskning og specielt inden for genomisk medicin, hvor den markante stigning i datamængder vil fortsætte. Vi vil se signifikante resultater, som ikke vil kunne fremkomme uden anvendelse af AI. Klinisk er AI også begyndt at spille en rolle, og fremover vil klinisk beslutningstagning og kliniske valg utvivlsomt i stigende grad blive taget på basis af mønstre af mange parametre med opnåelse af øget præcision og individualisering til gavn for den enkelte patient.
Korrespondance: Torben A. Kruse. E-mail: torben.kruse@rsyd.dk
Antaget: 27. februar 2019
Publiceret på Ugeskriftet.dk: 1. april 2019
Interessekonflikter: ingen. Forfatternes ICMJE-formularer er tilgængelige sammen med artiklen på Ugeskriftet.dk
Summary
Torben A. Kruse, Martin J. Larsen, Qihua Tan, Lars Andersen & Mads Thomassen:
Genomic medicine and artificial intelligence
Ugeskr Læger 2019;181:V02190085
In this review, we discuss the management of genomic medicine, which is based on very large data sets with up to billions of data points when analysing the whole genome. By using artificial intelligence (AI) it is possible to find patterns in such data sets and thereby identify subgroups of patients differing clinically, or to extract informative data points and construct models, which will predict disease risk, prognosis or treatment response most often in a process including training and testing (machine learning). Future clinical decision making will increasingly be based on patterns and models obtained by AI analysis of many parameters.
Referencer
LITTERATUR
-
van der Auwera GA, Carneiro MO, Hartl C et al. From FastQ data to high confidence variant calls: the genome analysis toolkit best practices pipeline. Curr Protoc Bioinformatics 2013;43:11.10.1-33.
-
Poplin R, Chang PC, Alexander D et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol 2018;36:983-7.
-
Larsen MJ, Kruse TA, Tan Q et al. Classifications within molecular subtypes enables identification of BRCA1/BRCA2 mutation carriers by RNA tumor profiling. PLoS One 2013;8:e64268.
-
Sørlie T, Perou CM, Tibshirani R et al. Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. Proc Natl Acad Sci U S A 2001;98:10869-74.
-
van ‚t Veer LJ, Dai H, van de Vijver MJ et al. Gene expression profiling predicts clinical outcome of breast cancer. Nature 2002;415:530-6.
-
Sørensen KP, Thomassen M, Tan Q et al. Long non-coding RNA expression profiles predict metastasis in lymph node-negative breast cancer independently of traditional prognostic markers. Breast Cancer Res 2015;17:55.
-
Adzhubei I, Jordan DM, Sunyaev SR. Predicting functional effect of human missense mutations using PolyPhen-2. Curr Protoc Hum Genet 2013;chapter 7:unit7.20.
-
Schwarz JM, Rödelsperger C, Schuelke M et al. MutationTaster evaluates disease-causing potential of sequence alterations. Nat Methods 2010;7:575-6.
-
Mavaddat N, Pharoah PD, Michailidou K et al. Prediction of breast cancer risk based on profiling with common genetic variants. J Natl Cancer Inst 2015;107:djv036.
-
Davies H, Glodzik D, Morganella S et al. HRDetect is a predictor of BRCA1 and BRCA2 deficiency based on mutational signatures. Nat Med 2017;23:517-25.
-
Nik-Zainal S, Davies H, Staaf J al. Landscape of somatic mutations in 560 breast cancer whole-genome sequences. Nature 2016;534:47-54.