Machine learning en computationele hydrogenering: een experiment

Geen opmerkingen

Geen resultaat is ook resultaat, bewijzen Delftse chemici. Ze publiceren een van de grootste datasets van een model van een rhodium-gekatalyseerde hydrogenering dat verrassend weinig liet zien, staat in Chemical Science.

Al een halve eeuw zetten rhodiumkatalysatoren alkenen enantioselectief om met waterstof (hydrogenering). Talloze artikelen zijn er al verschenen over dit soort katalysatoren en het onderliggende reactiemechanisme, dus je zou mogen verwachten dat er een goed ontwikkeld begrip is over deze katalytische reacties. Maar er is nog geen gestroomlijnde methode om snel de juiste liganden te kiezen voor je homogene katalysator als je van substraat wisselt. Adarsh Kalikadien, Evgeny Pidko en collega’s van de TU Delft en Janssen Pharmaceutica wilden kijken of ze hiervoor met machine learning een voorspellend model konden ontwikkelen, maar het project liep anders dan verwacht.

‘Het idee was niet ingewikkeld’, vertelt Kalikadien, PhD-student in de groep van Pidko. ‘We hebben een simpele modelreactie opgezet met een heel bekende rhodiumkatalysator. Het doel was om daarmee statistische modellen te maken om zo te kunnen voorspellen welke katalysatoren en liganden je kunt gebruiken, zodat je minder trial-en-error nodig hebt.’ Ze lieten verschillende machinelearningmodellen los op een combinatie van een computationele dataset en highthroughputexperimenten van Janssen.

Random

Het team vergeleek onder andere de prestaties van die modellen. Kalikadien: ‘We berekenden allerlei eigenschappen op basis van kwantumchemie – de meest intensieve en dure berekeningen –, 2D-cheminformatics en ook 1D-representaties.’ Die eigenschappen zijn verschillende representaties van de katalysator zoals een model ze zou zien. Als test voegden ze daar ook een random set aan toe, met 34 random getallen tussen de -100 en 100. ‘Het bizarre was dat alle simpelere modellen, dus óók het randommodel, dezelfde prestaties lieten zien als bij de dure variant; die bleek dus totaal niet informatief te zijn.’

‘We hebben álles open source gemaakt’

Iets wat niet in de paper is terug te zien, maar wat wel van invloed was op het project, was een kleine oversight binnen het team. ‘Op de computer teken je de 3D-structuur van de katalysator die je onder bepaalde condities hebt getest. Daar doe je dan DFT-berekeningen op en haal je eigenschappen uit’, vertelt Kalikadien. ‘Nu gebruikten we daarvoor de CAS-nummers van de liganden. Maar wat wij niet doorhadden, is dat onze CAS-nummers en de tekeningen op de flesjes in het lab niet matchte met onze 3D-structuren.’

‘Maandenlang hebben we met het team gediscussieerd over de eigenschappen en verbeteringen aangebracht en we hadden uiteindelijk echt goede berekeningen op hoog computationeel niveau’, vervolgt de PhD’er. ‘Maar tijdens een zekere meeting bleek dat de computationele structuren niet verwezen naar de juiste identifiers voor de experimentele data! We moesten daarom stuk voor stuk door al die structuren heen om te zien waar het niet klopte. Toen we de juiste moleculen verwerkt hadden en een nieuw statistisch model hadden gemaakt, kregen we tot onze verbazing bijna exáct dezelfde uitkomsten.’ Een van de conclusies was dus: voor deze out domain modelleringsaanpak maakt het niet uit wat je erin stopt. Het was een indicatie dat het model niet veel leerde van de gegeven representatie. ‘Achteraf gezien kunnen we erom lachen, maar tijdens het project heeft het wel wat van mijn mentale welzijn gekost’, zegt hij met een lach.

Waardevol

De bedoeling was dat dit een eenvoudig projectje zou zijn om tussendoor te doen, maar het ging dus niet zoals verwacht. ‘Veel resultaten vond ik zelf een beetje tegenvallen’, geeft Kalikadien toe. Desalniettemin was het onderzoek – en vooral de gegenereerde data – wél waardevol, vooral met het oog op de opmars van machine learning. ‘We hebben daarom álles open source gemaakt. Niet alleen is alle data in te zien, maar ook de code bieden we aan inclusief packages en handleidingen, zodat iedereen die wil hetzelfde soort onderzoek kan doen.’

Zo hebben ze dus een van de grootste datasets gepubliceerd van een bepaald type hydrogenatiereactie. ‘De publicatie was nog wel een uitdaging. Het was erg diep onderzoek naar de werking van machine learning binnen de chemie en niet alle conclusies waren positief. Dat zorgde ervoor dat een high-level tijdschrift het artikel weigerde omdat ze vonden “dat het hier niet thuishoort”. Gelukkig stond Chemical Science er meer voor open, dus daar konden we onze data, code en zelfs interactieve figuren wel publiceren.’

Zinvol

Hoe nu verder? ‘Onze representatie was niet zo zinvol als we hoopten, dus zijn we nu op zoek naar een representatie van de katalysator die misschien wat minder versimpeld is, maar nog wel zo simpel mogelijk’, zegt Kalikadien. ‘Je wilt ook voorkomen dat de kosten te hoog worden, dus we proberen meer informatie van het reactiemechanisme in het model te verwerken zonder het té uitgebreid te maken. Een dynamische versie van de representatie dus.’

Kalikadien, A.V. et al. (2024) Chem. Sci., DOI: 10.1039/D4SC03647F

Daniël LinzelAls vakredacteur heeft Daniël inmiddels ruim vijf jaar ervaring in het vinden van het verhaal achter wetenschappelijke publicaties, de mensen achter de doctorstitel en de meme achter het onderzoek.View full Profile