Laat kunstmatige intelligentie los op oude meetresultaten en je zult niet willen geloven wat het toevoegt aan je kennis. Dat belooft systeembioloog Lennart Martens, overtuigd tegenstander van oogkleppen.

Het liep mis toen hij op zijn achtste een Commodore 64-computer kreeg, grinnikt Lennart Martens. ‘Na twee weken was ik in Basic aan het programmeren en sindsdien ben ik in hart en nieren een computernerd.’ Dat hij toch geen informatica is gaan studeren, dankt hij aan de invloed van een paar uitstekende scheikunde- en biologiedocenten – en een zeker gebrek aan goesting voor theoretische wiskunde.

Binnen het VIB-UGent Center for Medical Biotechnology leidt Martens de computational omics-groep, afgekort CompOmics. ‘High-throughputtechnieken zoals genomics, transcriptomics, proteomics en metabolomics leveren zo veel informatie op dat je software nodig hebt om er doorheen te ploegen’, legt hij uit. Het is een zeer gemengde groep van computerwetenschappers, fysici, bio-ingenieurs en biomedici: sommigen schrijven algoritmes, anderen passen ze toe. Maar de klassieke bioinformatica, die verse experimentele gegevens interpreteert, is niet de hoofdzaak. In plaats daarvan hergebruiken ze gearchiveerde data om modellen te bouwen die voorspellen welke analytische procedure je het beste kunt toepassen bij een volgend experiment.

‘Als je exploratief bezig bent, wil je niets op voorhand uitsluiten’

Martens kan zich voorstellen dat niet alle experimentatoren het even leuk vinden: ‘Mensen die het werk doen, gaan we vertellen hoe ze dat beter kunnen doen. Maar ik zie het als inspiratie voor wie de eigen expertise inzet om uit de voorgestelde oplossingen de echte soep te gaan maken. Het menselijke interpretatievermogen gaan we nog niet in de vuilnisbak gooien.’

Waar moet je aan denken bij zo’n voorspelling?

‘Vooral aan vloeistofchromatografie en massaspectrometrie. Als je je analyt laadt op een bepaalde LC, hoe lang gaat het er dan ongeveer over doen om je kolom af te komen? En welk patroon van pieken veroorzaakt het daarna ongeveer in de MS? Het originele idee was dat je zo je data beter kan interpreteren. Maar je kunt het ook gebruiken om op voorhand te zeggen wat een fraai LC-protocol is als je graag naar bepaalde moleculen wilt kijken. De kolom, de gradiënten, de solventen, de heleboel. Het werkt met eiwitten én met kleine moleculen. Bij die laatsten werken we al samen met een farmaceutisch bedrijf: hoe pak je het beste de routinematige controle van de productie aan?

We zijn er al een hele tijd mee bezig en we zijn er zeker niet alleen in. Maar dankzij de opkomst van machine learning is het in een stroomversnelling geraakt. Met zulke algoritmes kun je mensen beloven: probeer die chromatografie, die kolom en die gradiënt en dan ga je een optimale scheiding krijgen. Op basis van alle historische chromatografie van alle moleculen die je ooit hebt gedaan. Analytische scheikunde is een zeer conservatief vakgebied maar ook daar begint men in te zien dat een big data approach het werk kan vergemakkelijken en versnellen.’

Lennart Martens

Beeld: Bart Cloet

Machine learning heeft de reputatie dat ze soms naar bepaalde conclusies toe redeneert. Ben je niet bang voor confirmation bias?

‘Ja, je moet heel hard opletten. Bij kwaliteitscontrole maakt het niet zoveel uit, dan weet je meestal vrij aardig welke kanarie-in-de kolenmijnmoleculen je verwacht te zien wanneer er iets misgaat met de productie. Maar als je exploratief bezig bent, en bijvoorbeeld in plasma zoekt naar eiwitten die potentiële biomarkers zijn, dan wil je niets op voorhand uitsluiten.

Dat maakt machine learning-algoritmes juist zo interessant. Wat die kunnen doen is abstraheren. Kijken naar wat je ooit al hebt gezien, en dat is biased. Maar ook de onderliggende principes leren van het gedrag van die dingen in je instrumenten, en die toepassen op moleculen die je nooit eerder hebt gezien. Dan kun je bijvoorbeeld zeggen: ik neem het volledige proteoom, alle mogelijke eiwitten en stukjes daarvan inclusief degenen die we nog niet gezien hebben, en ik ga voorspellen hoe die zich gaan gedragen. In concreto hebben we daar ionbot voor ontwikkeld, een zoekmachine die op basis van LC- en MS-gegevens alle eiwitten in een sample probeert te identificeren.’

Zulke software bestaat toch al langer?

‘Ja, maar tot nu toe raakte ze in de war als de eiwitfragmenten te veel variatie vertoonden door fosforylatie of andere wijzigingen die na de eiwitsynthese optreden. Zulke posttranslationele modificaties zitten overal en om het nog erger te maken zijn er ook nog artefacten, modificaties zonder biologische functie. Soms zijn dat ongelukjes in de cel, bijvoorbeeld wanneer een reactief intermediair niet netjes zijn reactieweg volgt maar het enzym modificeert. Het kan ook een bijwerking zijn van de protocollen waarmee je je samples voorbereidt, zoals het afschermen van de uiteinden nadat je zwavelbruggen hebt doorbroken. In de MS tellen al die extra massa’s mee.

Naar zulke data hebben we twintig jaar lang gekeken met oogkleppen op. We wisten dat de modificaties er waren, maar uit puur pragmatisme veegden we ze onder het tapijt. Machine learning maakt aan deze vorm van bias een einde. Onze ionbot kan de posttranslationele modificaties voor het eerst allemaal meenemen. En we zijn daar wel een beetje van geschrokken want het zijn er heel wat meer dan we dachten.’

‘Een bepaalde modificatie was bekend van vijftig eiwitten, terwijl wij hem al 2.500 keer hadden gezien’

Dus de ionbot herkent de eiwitketen onder de modificaties?

‘De MS geeft aan wanneer een eiwitfragment een fosforylatie of een methylatie bevat, of een artefact zoals een oxidatie. Je kunt dat in kaart brengen voor het gehele eiwit en dan zie je dat sommige ketens massaal veel modificaties kunnen dragen. We hebben inmiddels een miljard menselijke MS-spectra gedownload uit de PRIDE-proteomicsdatabank waarmee ik ooit bij EMBL-EBI in Cambridge ben begonnen en die is uitgegroeid tot de grootste in zijn soort ter wereld. Die spectra bekijken we opnieuw met de oogkleppen af, en dat geeft ons voor de allereerste keer een hypergedetailleerd inzicht in wat we tot nu toe hebben gemist.’

Zitten er modificaties bij die je kunt linken aan biologische verschijnselen?

‘Sommige wel, omdat die ook al op de klassieke biochemische manier zijn bestudeerd. Neem de verschillen in fosforylatie tussen normaal weefsel en tumorweefsel. Als wij die bekijken vinden we terug wat al gekend is. Maar we zien ook veel nieuwe dingen, en modificaties waar nooit veel tijd en moeite in is gestoken. Onlangs vroeg iemand me naar een specifieke modificatie die een rol speelt binnen het aangeboren immuunsysteem. Hij kende een twintigtal eiwitten waarin dit voorkomt, en viel van zijn stoel toen wij er al 1.500 bleken te hebben verzameld. Een andere modificatie was bekend van vijftig eiwitten terwijl wij hem al 2.500 keer hadden gezien. Als we met die data publiek gaan, zou de shock value wel eens het grootste probleem kunnen worden. Mensen die zeggen: dat kan niet, wij weigeren te geloven dat er zo veel op eiwitten zit.’

Lennart Martens 2 klein

Publiek gáán maken, zeg je. Dat moet nog gebeuren?

‘Al heel veel mensen hebben onze data ontvangen. Als iemand iets vraagt, sturen we wat we hebben. Maar we worstelen nog met het aanschouwelijk maken. Als prototype hebben we de Scop3P-website gebouwd, die alleen fosforylatie weergeeft. Hij toont lineaire eiwitsequenties en 3D-structuren waarop staat aangegeven waar de fosfor zit. Het idee was daar een Scop3PTM van te maken met álle posttranslationele modificaties. Maar dat zijn er zo veel op een kluitje dat het onoverzichtelijk wordt.’

Kun je ook iets met de artefacten?

‘Om te beginnen kunnen we terugzoeken welke protocollen zijn gebruikt, om te zien welke de minste schade opleveren. Maar biologische artefacten bevatten ook informatie die heel nuttig kan zijn. Als een stof je eiwitten onbedoeld modificeert op een puur chemische manier, dan verwacht je dat die modificaties alleen aan de buitenkant zitten. Zulke modificaties geven dus een idee van de 3D-vorm. Dankzij AlphaFold-software heeft het ontsluieren van de vouwing geen prioriteit meer, maar het dynamische gedrag is veel belangrijker. Om de actieve site beschikbaar te maken, veranderen veel eiwitten hun structuur zodra ze een bepaalde factor binden. Vind je artefacten op een plek die normaal dicht zit, dan kun je er van uitgaan dat er twee conformaties zijn.’

Je onderzoek leunt op bestaande data, dus het ligt voor de hand dat je voorstander bent van open science. Werkt dat een beetje in dit vakgebied?

‘Ja en nee. We hebben massaal veel publieke data, PRIDE loopt als een tierelier. Maar wat nog niet goed werkt is de annotatie. Met machine learning wilden we puur op basis van het proteoom voorspellen uit wat voor weefsel een dataset afkomstig is. Het vinden van testsets waarvan de herkomst bekend is, bleek een groot probleem. Zelfs in de bijbehorende publicaties vonden we die gegevens vaak niet terug. Soms bleken mensen niet eens het instrument te hebben aangegeven waarmee ze hadden gewerkt; ze kozen gewoon het bovenste instrument uit het keuzemenu. Zo missen we veel van de toekomstige belofte van die data.

‘Als je wil dat je data een lang en nuttig leven tegemoet gaan, moet je ze wel stofferen met metadata’

Ik denk dat we te zeer gewend zijn ons te baseren op geschreven conclusies. Data genereerde je om te kunnen publiceren, en niemand ging die data ooit hergebruiken. Nu is dat aan het veranderen. Je conclusies zijn waarschijnlijk na vier of vijf jaar achterhaald, en de meerderheid van de papers wordt daarna nooit meer gelezen. Maar met de datasets kun je ook daarna wél nog allerlei dingen doen. Hele generaties wetenschappers hebben daar nooit bij stilgestaan. Maar om te zorgen dat je data een lang en nuttig leven tegemoet gaan, moet je ze wel stofferen met metadata. Als papers worden ingediend, zouden we daar veel beter op moeten letten.’

Moet je onderhand niet meer computerexpert zijn dan chemicus?

‘Dat is een heel gevaarlijke uitspraak. We gaan chemici en biochemici nooit vervangen, de mensen met de gouden handen heb je nodig. Maar we kunnen ze wel helpen. We kunnen aangeven dat in iemands geprefereerde eiwit een modificatie zit die er wel interessant uitziet. Dan kan hij besluiten of het de moeite is om daar een jaar van zijn leven in te steken. We moeten naar een partnership.’

Machine learning en deep learning

Kunstmatige intelligentie (AI) is een paraplubegrip voor software die op enig niveau de menselijke intelligentie probeert te imiteren, en in het beste geval zelfstandig kan redeneren. Machine learning is hier een subset van. Algoritmes zoeken naar verborgen patronen in bestaande databestanden die dienen als ‘lesmateriaal’. Aan de hand van die patronen voorspellen ze waar een volgende actie op zal uitdraaien. Lennart Martens’ groep in Gent werkt met deep learning. Dit is een geavanceerde vorm van machine learning waarbij de algoritmes een gelaagde structuur vertonen. Elke laag, meestal opgebouwd als een neuraal netwerk, diept de opbrengst van de vorige laag verder uit. Zo kom je uit op een ongekend detailniveau.

 

CV Lennart Martens

1995-1998: BSc biologie, Limburgs Universitair Centrum, Hasselt
1998-2000: MSc biotechnologie, UGent
2000-2002: application engineer, Sydney Tristar DC, Hasselt
2002-2006: PhD biotechnologie, UGent
2003: Marie Curie fellowship bij EMBL-EBI, Cambridge
2006-2009: PRIDE team leader, EMBL-EBI
2009-heden: groepsleider, VIB-UGent Center for Medical Biotechnology, VIB, Gent; Sinds 2016 associate director
2009-heden: hoofddocent systeembiologie, UGent; sinds 2014 hoogleraar.
2016-heden: associate director, VIB-UGent Center for Medical Biotechnology, VIB, Gent