Hype omkring nye AI-værktøjer er lige så almindeligt som uhyrlige prisstigninger i supermarkedet. Derfor var der også grund til skepsis, da Google DeepMind lancerede AI-værktøjet AlphaFold2 som et gennembrud i 2020.
Google-folk løber med Nobelprisen
Men AlphaFold2 har faktisk løst et problem, som igennem mere end et halvt århundrede må have kostet proteinforskere søvnløse nætter og grå hår. Nemlig, om det er muligt at forudsige, hvordan et protein folder i sin unikke 3D-struktur ud fra de aminosyrekæder, det er bygget af.
Svaret er ja. På få minutter kan værktøjet med stor præcision gøre netop det. Forskeren taster en aminosyresekvens ind i programmet, og snart efter træder en 3D-struktur frem på skærmen.
For andre end proteinforskere lyder det måske ikke så sindsoprivende, men kendskab til strukturen er en forudsætning for at forstå basale biologiske mekanismer bag sundhed og sygdom og dermed også for udvikling af ny medicin. For der er en sammenhæng mellem proteinets struktur og funktion.
Og derfor har udviklerne bag AlphaFold hos DeepMind i London, firmaets engelske CEO Demis Hassabis og den amerikanske forskningsleder John Jumper, fået Nobelprisen i kemi for deres bedrift. De fik i øvrigt prisen sammen med den amerikanske professor i biokemi fra Washington University David Baker, der som den første i 2003 konstruerede et helt nyt protein.
Men hvad er AlphaFold egentlig for et værktøj? Hvad kan det bruges til i lægevidenskabens tjeneste? Og er den nye version, AlphaFold3 fra maj 2024 også et gennembrud?
Ugeskrift for Læger har talt med tre danske proteinforskere, som har fulgt udviklingen og selv har fingrene i AlphaFold.
Og ifølge dem har værktøjet allerede har haft stor indflydelse på forskningen og vores viden om sygdomsmekanismer. Også selv om det har sine fejl og begrænsninger, og der stadig udestår et vigtigt spørgsmål om proteinernes foldning.
Trænet på data fra eksperimenter
Under coronapandemien kom alle på fornavn med et enkelt protein: spikeproteinet, som findes på overfladen af coronavirus og får det til at ligne en sømine fra første verdenskrig.
Men normalt tænker vi ikke over andre proteiner end dem, vi spiser i form af æg, ost og bøffer, og slet ikke de omkring 20.000 forskellige proteiner, som indgår i vores væv og i livsvigtige processer i kroppens celler. Eller de hundrede af millioner af proteiner, som findes i alle andre levende organismer fra grønalger over kardinalbiller til søpapegøjer.
Proteinforskere derimod tænker stort set ikke på andet. Og mange af dem er især optaget af at finde og analysere proteinernes struktur, som ofte er nøglen til proteinets funktion.
Spikeproteinets struktur er for eksempel afgørende for, at virus kan trænge ind i raske celler og sprede sig.
Derfor har generationer af forskere helt tilbage til 1950’erne tilbragt dag efter dag igennem måneder og år i laboratorier for igennem krævende eksperimenter at kortlægge strukturen af hvert enkelt protein ud fra de aminosyrer, de består af.
Proteiner er sammensat af mellem 50 og flere tusinde aminosyrer, som snor og folder på hver sin måde. Aminosyrerne findes i 20 variationer, så kombinationsmulighederne er nærmest uendelige.
Resultaterne af forskernes arbejde, flere end 200.000 proteinstrukturer, er samlet i en stor åben database, Protein Data Bank, som blev etableret i 1971. AlphaFold2 er trænet på den database og dertil på en database baseret på genomsekvenser af alverdens mulige organismer. Så de to databaser er grundlaget, når AI-værktøjet ved hjælp af neurale netværk og mønstergenkendelse forudsiger strukturen af et protein ud fra en aminosyresekvens. Langt over 200 mio. strukturer er nu forudsagt ved hjælp af AlphaFold og andre lignende algoritmer, og flere kommer til hver dag og indgår også i databasen. Programmet har over 2 mio. brugere.
Strukturbiologien blev erklæret for død
En af de erfarne brugere af AlphaFold herhjemme er Rasmus Kock Flygaard, strukturbiolog og gruppeleder på Institut for Molekylærbiologi og Genetik på Aarhus Universitet.
I en af de bygninger, som tidligere husede det gamle kommunehospital, har han travlt med at studere de tredimensionelle strukturer af proteiner. Men han burde være arbejdsløs.
»Da AlphaFold kom i 2020 sagde mange, at nu var strukturbiologien død. Og vi skulle se os om efter et andet arbejde. Men det viste sig hurtigt, at man stadig skal lave sine eksperimenter og verificere sine hypoteser via god solid forskning«.
»Vi kan opbygge hypoteser på en helt anden måde nu, fordi alle eksperimenter og alle projekter kan nu i princippet starte med lige at køre en AlphaFold-forudsigelse, og så designer vi eksperimenterne ud fra den. Det sparer tid, det sparer penge, og det hjælper til at udvikle nye forskningsspørgsmål«Rasmus Kock-Flygaard, strukturbiolog, Institut for Molkylærbiologi og Genetik, Aarhus Universitet
Men det nye værktøj har gjort en kæmpe forskel.
»Der er et før og et efter AlphaFold«, siger han.
»I ,gamle dage’ – og det er kun tre år siden – måtte jeg i laboratoriet og lave eksperimenter og håbe på, at de lykkedes. Jeg kunne også få computerprogrammer til at finde ud af, om der var opdaget nogle strukturer, som lignede den sekvens af aminosyrer, jeg var interesseret i. Hvis det var tilfældet, kunne jeg på computeren modellere, hvordan mit protein ville se ud. Det virkede nogle gange, men som regel ikke«, siger Rasmus Kock Flygaard.
»Så kom AlphaFold, og jeg kunne i princippet give den en hvilken som helst sekvens af aminosyrer, og så kunne den modellere en 3D-model, og den var exceptionelt god til det«, fortæller han.
»Vi kan opbygge hypoteser på en helt anden måde nu, fordi alle eksperimenter og alle projekter kan nu i princippet starte med lige at køre en AlphaFold-forudsigelse, og så designer vi eksperimenterne ud fra den. Det sparer tid, det sparer penge, og det hjælper til at udvikle nye forskningsspørgsmål«.
En vigtig gevinst ved det nye værktøj er tidsbesparelsen.
AlphaFold står på skuldrene af proteinforskerne
»I nogle tilfælde er jeg gået fra at bruge år til dage. Til et eksperiment skal man have fat i sit biomolekyle i ret isoleret form for at studere det til 3D-struktur. Og det er tidskrævende. Og nogle gange er det endda ikke særlig godt«.
De »gamle« metoder er dog ikke sendt ud i kulden. Og de leverer stadig de mest pålidelige resultater.
»Der er tilfælde, hvor de klassiske eksperimenter virker helt fint, og der ikke er den store gevinst ved at bruge AlphaFold. Hvis man for eksempel skal ind og lave udvikling af nye farmaceutiske stoffer, der skal binde til en receptor eller et eller andet, så skal man stadig lave alle sine almindelige solide grundforskningseksperimenter«, forklarer Rasmus Kock Flygaard.
»Det er nødvendigt for at sikre, at det faktisk forholder sig sådan, inden man eventuelt måtte gå i en retning for at udvikle det som et lægemiddel. Så der er ikke nogen discipliner, der er døde af, at AlphaFold er kommet på banen. Det har bare ændret nogle af de måder, vi tilgår vores eksperimenter, og kun til det bedre, mener jeg«.
Om AlphaFold version 3 siger han:
»Den kan meget mere, den er 100 gange hurtigere, og den bliver mere og mere biologisk relevant«.
Bidrag til Nature-artikel
Rasmus Kock Flygaard har blandt andet bidraget med en AlphaFold-analyse til et studie, som for nylig er offentliggjort i Nature af et hold forskere under ledelse af professor Søren Paludan fra Institut for Biomedicin ved Aarhus Universitet.
Forskerne har opdaget en forsvarsmekanisme, som beskytter hjernen mod angreb af herpesvirus. Forsvarsmekanismen består af et protein i cellemembranen, som forhindrer virus i at sprede sig ved at binde sig til to proteiner, som herpesvirus ellers ville binde sig til i forsøget på at indtage neuronerne.
Søren Paludan havde brug for at få bekræftet de to proteiners rolle. Han bad derfor Rasmus Kock Flygaard og hans gruppe om at analysere proteinernes struktur og køre en forudsigelse af, om proteinet i cellemembranen kunne binde til dem.
»Det var ret tidligt i brugen af AlphaFold, og jeg var stadig lidt skeptisk. Især da vi kun fik én model, som så kemisk realistisk ud, og de statistiske parametre for, hvor sandsynlige modellen er, som AlphaFold selv beregner, ikke var super overbevisende«, fortæller Rasmus Kock Flygaard.
»Heldigvis havde Søren Paludan den rette attitude – han bad om at få vores bedste bud, og så fulgte han op med eksperimenter i laboratoriet med de her proteiner. Og de viste, at de proteiner faktisk spiller en afgørende rolle i forsvarsmekanismen«.
»Så den model, der måske ikke var enormt pålidelig, var faktisk god nok til, at de kunne designe deres eksperimenter efter den«.
Åbner for forskning i stor skala
På Biologisk Institut ved Københavns Universitet, mellem Tagensvej og Nørre Allé, finder vi en anden proteinkemiker, nemlig professor Kresten Lindorff-Larsen.
Han er del af Linderstrøm-Lang Center for Proteinvidenskab og leder af centeret PRISM (Protein Interactions and Stability in Medicine and Genomic), hvor forskningen er rettet mod arvelige sygdomme.
I centeret samarbejder forskere med forskellig ekspertise som dataanalyse, biofysik, cellebiologi og medicin om blandt andet at forklare, hvordan mutationer leder til sygdom.
Sammen med sin forskergruppe arbejder Kresten Lindorff-Larsen med computerbaserede analyser af proteiner, herunder computersimuleringer af proteinfoldning.
Og han beskriver AlphaFold som »en gamechanger«.
Da det nye værktøj kom i 2020, gik Kresten Lindorff-Larsen sammen med andre forskere i gang med at teste det. De sammenlignede forskningsresultater, hvor de henholdsvis havde anvendt AlphaFold2’s forudsigelser og proteinstrukturer fundet med klassiske eksperimentelle metoder.
»Vi fandt på tværs af en hel masse forskellige tests, at vores resultater var lige gode, uanset om vi brugte forudsigelser fra AlphaFold eller resultater fra eksperimenter, og det vil jo sige, at vi kan bruge værktøjet til at studere alle de systemer, hvor vi ikke har en eksperimentelt bestemt proteinstruktur«, siger han.
»AlphaFold2 er langt bedre end alt andet før det. Selvfølgelig er der kritik og ting, der ikke virker perfekt. Men det har gjort, at vi nu kan stille og besvare spørgsmål på en endnu større skala, end vi kunne før. Nu kan vi lave analyser, der dækker hele det humane proteom – altså alle kendte menneskelige proteiner«.
Kresten Lindorff-Larsen anvender bl.a. AlphaFold til at undersøge, om hidtil ukendte mutationer er sygdomsfremkaldende.
Afsættet er et stort dansk register over mennesker med Lynchs syndrom, eller HNPCC, arvelig tarmkræft. Et register, som hans mor, der er pensioneret læge, i øvrigt arbejdede med.
»I forbindelse med registeret opdager man nogle mutationer, som ikke er set før. De fleste gør ingen forskel, men det er vigtigt at opdage dem, der gør. Og her kan vi bruge AlphaFold«, forklarer han.
»For at afgøre, om mutationerne kan forårsage sygdom, analyserer vi de proteiner, som de muterede gener koder for. Vi kigger især efter, om proteinerne er stabile eller ustabile. For et ustabilt protein kan miste sin tredimensionelle struktur, og det kan føre til tab af funktion«, forklarer han.
Et andet spørgsmål, som Kresten Lindorff-Larsen arbejder med i forbindelse med mutationerne, er at finde ud af, hvordan aminosyresekvensen folder. Altså selve foldningsprocessen. For den del af »proteinfoldningsproblemet« har AlphaFold ikke løst.
»Hvis vi ser på cystisk fibrose, er den hyppigste genændring bag sygdommen en mutation, der ødelægger foldningsprocessen af et bestemt protein. Så nogle af de lægemidler, der er på markedet, hjælper med den her foldningsproces eller beskytter den. Det er et godt eksempel på, hvor vigtigt det er i nogle tilfælde at have en bedre forståelse for foldningsprocessen snarere end proteinets endelige struktur«.
Og selvom AlphaFold ikke har foldningsprocessen med, men »kun« leverer den færdige struktur af et protein, mener han, at AlphaFold kan bruges i den her sammenhæng også.
»Tidligere forsøgte vi at forudsige foldningsprocessen for at finde strukturen. Nu gør vi det stik modsatte: Vi bruger strukturerne til at forudsige processen«.
Forudsagde uddeling af Nobelprisen
På DTU i Lyngby sidder professor Ole Winther, professor i genomisk bioinformatik ved KU og professor på DTU inden for data science og kompleksitet.
Han forsker både i basal maskinlæring og anvendelser af maskinlæring på biologi, også kendt som bioinformatik.
»Hvis vi ser på cystisk fibrose, er den hyppigste genændring bag sygdommen en mutation, der ødelægger foldningsprocessen af et bestemt protein. Så nogle af de lægemidler, der er på markedet, hjælper med den her foldningsproces eller beskytter den«Kresten Lindorff-Larsen, professor, proteinkemi, Biologisk Institut, KU
Også han ser lanceringen af AlphaFold som et gennembrud. Længe inden Nobelprisuddelingen sagde han:
»Proteinfoldningsproblemet er en hellig gral inden for biologien, og der er AlphaFold et rigtig godt bud. Nogle af dem, der har udviklet det her, vil få Nobelprisen«.
Ole Winther arbejder blandt andet med AlphaFold i et forskningsprojekt, hvor han undersøger proteiner i cellemembranen. Det er såkaldte transmembranproteiner, som for eksempel danner kanaler fra cellens yderside, gennem membranen og ind i cellen.
Det førnævnte spikeprotein, som vi kender fra coronavirus, er også et transmembranprotein.
»De er enormt vigtige, for at signaler og molekyler kan blive udvekslet mellem cellen og omgivelserne. Hver eneste aminosyre kan være inde i cellen, i membranen eller uden for. Og der kan vi bruge AlphaFold til at give os viden om strukturen, så vi kan forudsige, hvordan de sidder«.
Til at forudsige hvordan proteinerne sidder i membranen, anvender Ole Winther et andet værktøj, som kræver store mængder af træningsdata, og dem kan AlphaFold også levere.
»Før havde vi ikke data nok, men nu kan vi få en masse data om andre proteiner med samme struktur«.
Hallucinationer kan forekomme
Trods begejstringen for AlphaFold er de tre forskere ikke blinde for, at der også er begrænsninger – og fejl. Blandt andet en tilbøjelighed til at hallucinere, fortæller Rasmus Kock Flygaard.
»Version 3 har fået en tendens til at opfinde noget i de regioner, hvor den ikke rigtig ved, hvad den skal gøre. Så viser den en kendt struktur, og hvis man ser det, kan man begynde at tænke funktion, aktivitet og alle mulige ting ind i det. Men det er altså bare AlphaFold3, der hallucinerer«.
Tre eksempler på, hvad AlphaFold bliver brugt til
Tre eksempler på, hvad AlphaFold bliver brugt til
»Det kræver en masse forudgående træning og kendskab til biokemi at kigge på en output-model og så lave en hurtig vurdering af, om det er realistisk«, siger Rasmus Kock Flygaard.
Det er altså ikke alle og enhver, der kan afgøre, om en model er værd at gå videre med eller ej.
For Kresten Lindorff-Larsen er den største bagside ved AlphaFold3, at han ikke har fuld adgang til værktøjet. Det er udviklet sammen med et spin-off-firma, som er specialiseret i at arbejde med AI til udvikling af lægemidler. Og i modsætning til de tidligere versioner er adgangen til AlphaFold3 begrænset af konkurrencehensyn. Forskerne skal benytte en speciel server, og der er grænser for, hvor mange proteiner de kan søge efter. Det er særligt uheldigt for Kresten Lindorff-Larsen, fordi han arbejder med storskala-forsøg, hvor han analyserer tusindvis af proteiner på én gang.
Han har derfor sammen med ni andre kolleger verden over skrevet en protest til Tidsskriftet Nature, der ved lanceringen publicerede artiklen om AlphaFold3.
»Vores brev blev støttet af over 1.000 andre forskere i løbet af få dage og var nok med til, at der nu er planer om at gøre det mere tilgængeligt. Og der er også en gruppe mennesker, der arbejder på at lave en åben, tilgængelig version af AlphaFold3«, fortæller han.
En anden begrænsning er mangel på data om en del af aminosyrerne.
»En tredjedel af aminosyrerne i menneskets proteiner har ikke nogen veldefineret tredimensional struktur. De er sådan nogle ,spaghettimolekyler’, som skifter struktur hele tiden. De findes ikke i de her strukturdatabaser, fordi de ikke har nogen veldefineret struktur, men de er vigtige for alle mulige biologiske funktioner. Vi arbejder i øjeblikket på at kombinere AlphaFold med modeller for de her mere dynamiske dele af proteiner, og de første skridt er netop publiceret i Nature«.
Alle tre forskere kunne ønske sig, at AlphaFold omfattede det dynamiske miljø, proteinerne lever i. For i AlphaFold optræder de som i et vakuum. I version 3 kan de ganske vist ses forbundet med andre molekyler, som DNA, RNA og små molekyler, men stadig er de som fastfrosset i den fri luft og ikke i bevægelse og interaktion inde i cellens vandfyldte hulrum.
Kresten Lindorff-Larsen:
»Vi arbejder meget med proteinernes dynamik. Men det er vanskeligt at modellere, blandt andet fordi det er meget uklart, hvilke data man skal træne sin model på. For der findes ikke så store mængder data om dynamik«.
Ole Winther forestiller sig, at det en dag bliver muligt at se proteinerne inde i cellen som en filmstrimmel i stedet for som et snapshot.
»Det vil være næste niveau. Så kunne vi for eksempel undersøge, om et protein egner sig til et lægemiddel. For selv om det passer til en bestemt receptor, kan det være, at det kun sidder i meget kort tid på receptoren og så hopper ud igen, og så er det måske ikke så velegnet til medicin«.
DeepMinds CEO Demis Hassabis er opmærksom på betydningen af at dække de dynamiske processer ind.
»Biologi er et dynamisk system – biologiske egenskaber opstår i interaktion mellem forskellige molekyler i cellen, og AlphaFold3 skal ses som vores første store skridt henimod at modellere de her interaktioner«, er han citeret for at sige i forbindelse med lanceringen af AlphaFold3.
Så hvis ellers DeepMind kan løse udfordringen med at skaffe data om proteinerne i interaktion og bevægelse i deres eget miljø, kan det være, at en eventuel version 4 kan byde på mere dynamik, når den engang kommer.