De mogelijkheid om eiwitvouwing te voorspellen met kunstmatige intelligentie veroorzaakte een ware aardverschuiving in de structurele biologie, maar de voorspellingen kennen verschillende gebreken. NKI-onderzoekers gebruiken hun eigen algoritme om enkele van deze gebreken te verhelpen.
Eiwitstructuren bepalen vergde arbeidsintensieve analyses in het lab, tot AlphaFold en RoseTTAfold in 2021 op het toneel verschenen. Beide methodes gebruiken artificiële intelligentie om eiwitstructuren te voorspellen op basis van de aminozuurvolgorde (zie ook ons achtergrondverhaal van februari 2022). De ontwikkeling had enorme impact, maar de modellen missen biologische context en interpretatie. AlphaFold voorspelt maar één toestand, terwijl eiwitten heel dynamisch zijn. Daarnaast hebben de eiwitmodellen geen liganden. Hemoglobine heeft bijvoorbeeld heem nodig om zijn structuur aan te nemen, maar dat heem is niet aanwezig in het AlphaFold-model. Deze tekortkomingen inspireerden onderzoekers in de groep van Anastassis (‘Tassos’) Perrakis aan het Nederlands Kanker Instituut (NKI) om databases te combineren en zo meer informatie in het model te stoppen.
Kopiëren en plakken
De eerste stap was snel gezet, vertelt Ida de Vries, promovendus in Perrakis’ groep. Haar collega Maarten Hekkelman zou uitzoeken of hij de liganden in het eiwitmodel kon plakken en kwam even later alweer haar kantoor binnen: ‘Ik denk dat het lukt!’ Het algoritme van Hekkelman werkte zo snel en efficiënt dat ze besloten het uit te rollen over de hele AlphaFold database. Het resultaat is AlphaFill – een algoritme dat de aminozuursequentie en structuurovereenkomstigheid met experimenteel bepaalde structuren gebruikt om de ontbrekende liganden van die experimenteel vastgestelde structuren in het AlphaFold-model te plaatsen. AlphaFill vergelijkt sequenties van AlphaFold-modellen met eiwitsequenties van structuren in PDB-REDO, een aanvulling op de Protein Data Bank (PDB). ‘Als we een hit vinden, leggen we de 3D-structuur van het AlphaFold-model over de 3D-structuur die correspondeert met de sequentie in PDB-REDO’, legt De Vries uit. ‘Als er belangrijke liganden zoals kleine moleculen of metaalionen in het PDB-REDO-model zitten, kopiëren we deze en plakken ze in het AlphaFold-model. ’
‘We geven in ons model twee betrouwbaarheidsscores’
Clash score
Om het algoritme te valideren gebruikte De Vries alleen eiwitten waarbij de experimenteel bepaalde structuur exact overeenkomt met de AlphaFold-structuur. ‘De foutmarge is dan gelijk aan de foutmarge van het Fold-model. We kunnen geen validatie genereren voor alle liganden die we ooit in een AlphaFold model hebben geplakt, maar we geven in ons model wel twee betrouwbaarheidsscores: één voor de bindingssite en één voor de clash score.’ Die tweede geeft aan of het eiwit en het ligand te dicht bij elkaar zitten. AlphaFill laat de betrouwbaarheid per ligand zien met een kleurcodering: geel voor onbetrouwbaar en rood voor zeer onbetrouwbaar.
De Vries en collega’s publiceerden hun gevalideerde databank in november 2022 in Nature Methods. De AlphaFill databank bevat nu 1 miljoen eiwitstructuren, die allemaal beschikbaar zijn via alphafill.eu . Ze creëerden een webservice waarin gebruikers deze structuren kunnen bekijken, ontbrekende AlphaFold-structuren kunnen aanvragen en eigen structuren kunnen uploaden. ‘Begin februari 2023 hadden bezoekers al ongeveer 600 eigen structuren geüpload en was de webservice door meer dan 8000 mensen bezocht’ , zegt De Vries. ‘Dus we zien dat onderzoekers de tool gebruiken, ook buiten het NKI.’ Ze ziet dat NKI-onderzoekers AlphaFill gebruiken om binding sites te vinden. Als voorbeeld noemt ze een kinase waarbij AlphaFill zowel ATP als ADP in het model plakte. ‘Dat kan – want je weet op basis van het structuurmodel niet welke van de twee het is. Met de betrouwbaarheidsscores kunnen we zeggen welke van de twee het meest waarschijnlijk is en of het om de actieve of de inactieve variant van het kinase gaat.’
‘Gebruikers kunnen ontbrekende structuren aanvragen en eigen structuren uploaden’
Aanvulling
Het huidige algoritme is gelimiteerd door de structuren in PDB-REDO. Om die limitatie te passeren werkt het team aan een manier om te voorspellen waar liganden aan een eiwit binden. ‘We zijn relatief simpel begonnen’, aldus De Vries, ‘bij de metaalionen. Dat is maar één atoom per ligand en ze zijn belangrijk voor katalyse en structurele integriteit. Mijn collega-promovendus Ren Xie heeft het algoritme geschreven en het lijkt te werken, maar we zijn het nog uitgebreid aan het testen en valideren.’ In de afgelopen twee jaar is gebleken dat AlphaFold heel handig is, maar de experimenten in de structurele biologie niet kan vervangen. Hoewel AlphaFill een mooie aanvulling is, mist ook deze database de dynamiek van echte eiwitten in een realistische context. De Vries zou willen begrijpen hoe en waarom eiwitten een conformatieverandering ondergaan als ze gebonden zijn aan een partnereiwit . Nog mooier zou zijn om te begrijpen hoe een eiwit vouwt. ‘Maar dat is ook nog moeilijker. Er zijn nog een heleboel open vragen.’
Nog geen opmerkingen