Il premio Nobel per la Chimica 2024 è stato assegnato a David Baker, Demis Hassabis e John Jumper per i loro contributi nello studio della modellistica delle proteine, molecole fondamentali per la vita. Baker ha ricevuto il riconoscimento per aver creato nuove proteine progettate in laboratorio, mentre Hassabis e Jumper per lo sviluppo di AlphaFold, un modello di intelligenza artificiale (IA) che ha ottenuto dei buoni risultati nella predizione delle strutture proteiche. Alcuni esponenti della comunità chimica, però, ritengono questo premio piuttosto controverso.
Il protein folding e la predizione della struttura di una proteina
La predizione della struttura delle proteine è sempre stata una sfida1. Le proteine, composte da lunghe catene di amminoacidi, si ripiegano in forme tridimensionali complesse che ne determinano la funzione. AlphaFold (con i suoi derivati), sviluppato nel 2020, ha permesso di predire le strutture di milioni di proteine con una velocità senza precedenti. Tuttavia, nonostante il clamore mediatico e il successo riconosciuto, i modelli costruiti da AlphaFold sollevano dubbi tra gli scienziati che lavorano nel settore.
Uno dei principali limiti di AlphaFold è la sua dipendenza dal Protein Data Bank (PDB), un database di proteine dalla struttura nota, usato come “training dataset” per addestrare l’IA dietro AlphaFold. Il PDB contiene circa 200 000 strutture proteiche, una frazione minima rispetto ai milioni di proteine stimate in natura. Questo restringe l’accuratezza dei modelli creati da AlphaFold, soprattutto per le proteine “non” globulari, che sono sottorappresentate nel PDB. Pertanto, bisogna riconoscere che i risultati ottenuti dipendono dall’esistenza di proteine simili a quella investigata nel suo “training dataset”. Il problema del protein folding (quello che si studia quando si parla di Anfinsen, Levinthal e Pauling) resta dunque un problema irrisolto (almeno per proteine con più di 100 amminoacidi), cui sicuramente, allo stato attuale degli studi, non può dare una risposta AlphaFold (con gli altri “AI-based tools”).
Gli strumenti basati sull’intelligenza artificiale
Un’importante ulteriore criticità degli strumenti tipo AlphaFold riguarda l’incapacità di distinguere tra diverse conformazioni funzionali delle proteine, molte delle quali, come i trasportatori, assumono più conformazioni durante la loro funzione2; invece, i modelli basati su IA non riescono ancora a cogliere queste differenze, e i risultati continuano a dipendere dai template presenti nel Protein Data Bank.
Inoltre, gli strumenti basati sull’IA mostrano difficoltà nella predizione dell’impatto delle mutazioni sulle variazioni conformazionali di una proteina e, ancor più, nella determinazione di modelli da associare a proteine in forme diverse (basti pensare agli aggregati proteici formati da fibrille).
Nonostante queste limitazioni, gli strumenti come AlphaFold hanno rivoluzionato il campo della modellistica proteica, rendendo estremamente veloci le predizioni della struttura di una proteina di cui esista una proteina simile nel PDB, un po’ come accade per i programmi di riconoscimento di impronte e/o visi, o nell’identificazione di altre forme (piante, animali, ecc.). Questi strumenti restano inoltre estremamente utili in altri ambiti come quello dell’“imaging biomedico” per le interpretazioni di risonanze, TAC, PET, ecc.
Ma si tratta di ambiti diversi. Nel campo della biologia strutturale, invece, si corre il rischio di distogliere l’attenzione dalle questioni scientifiche fondamentali, come la comprensione dei vincoli chimico-fisici che regolano il ripiegamento proteico.
A riguardo, approcci alternativi, come lo studio del “protein folding ab initio”3, 4, potrebbero offrire soluzioni più complete e rigorose, non dipendendo dai dati esistenti in eventuali “training dataset”. La comprensione delle leggi che governano il ripiegamento proteico resta un obiettivo lontano, ma fondamentale.
Conclusioni
Dunque, lo ribadiamo, anche se l’IA ha portato a progressi significativi, il problema del protein folding resta aperto. Speriamo che questo Nobel segni l’inizio di ulteriori sviluppi, possibilmente con nuovi investimenti in ricerche sul “protein folding ab initio in silico” che aiutino a rispondere alle domande fondamentali. Al contempo, sono necessari ulteriori investimenti nei metodi di risoluzione strutturale in vitro, viste le già importanti ricadute osservate con la diffusione dei metodi Cryo-EM, per comprendere meglio i meccanismi che governano la complessa biologia delle proteine e fornire dataset più completi per un impiego migliore di strumenti “AI-based”.
Riferimenti bibliografici
- C.L. Pierri, G. Parisi, V. Porcelli, “Computational approaches for protein function prediction: a combined strategy from multiple sequence alignment to molecular docking-based virtual screening”, Biochim. Biophys. Acta, 1804, 2010, pp. 1695-1712.
- D. Chakravarty, L.L. Porter, “AlphaFold2 fails to predict protein fold switching”, Protein Scociety, 31, 6, 2022.
- A. Onofrio et al., “Distance-dependent hydrophobic-hydrophobic contacts in protein folding simulations”, Physical Chemistry Chemical Physics, 16, 2014, pp. 18907-18917.
- C.L. Pierri, A. De Grassi, A. Turi, “Lattices for ab initio protein structure prediction”, Proteins, 73, 2, 2008, pp. 351-361.
Immagine di copertina: Alpha fold model for DmBCA – Drosophila melanogaster, fonte Wikimedia – AlphaFold Data Copyright (2021) DeepMind Technologies Limited. Jumper, J et al. Highly accurate protein structure prediction with AlphaFold. Nature (2021)