L'incroyable base de données DeepMind comprend désormais presque toutes les protéines connues de la science


L'année dernière, Alphabet's DeepMind a publié une base de données open source des structures 3D de centaines de milliers de protéines, y compris les 20 000 protéines connues du corps humain. Maintenant, cette base de données AlphaFold de structures protéiques s'est étendue à 200 millions, y compris presque toutes les protéines connues de la science. Les protéines sont des éléments constitutifs vitaux des cellules, exécutant d'innombrables processus biologiques essentiels à la vie. Ils sont constitués de chaînes d'acides aminés qui se replient en formes tridimensionnelles complexes qui déterminent leur fonction. Cartographier les structures des protéines est important pour comprendre ce qu'elles font, comment elles fonctionnent et comment les choses peuvent mal tourner, ce qui est essentiel pour tout rechercher, des nouveaux médicaments et traitements à l'amélioration de la protection des cultures et des animaux.

Mais déterminer la structure exacte d'une protéine à partir des acides aminés qui la composent est toujours délicat. Comprendre cela nécessite souvent beaucoup de puissance de calcul et de temps humain, une situation connue sous le nom de "problème de repliement des protéines". En conséquence, les progrès ont été relativement lents pendant des décennies. C'est-à-dire jusqu'à ce qu'Alphabet mette sa puissante intelligence artificielle DeepMind sur cette question. Initialement formé sur 100 000 structures protéiques connues, le système a développé la capacité de prédire les structures de millions d'autres protéines, chacune en quelques minutes ou secondes au lieu de mois ou d'années.

En juillet 2021, la première base de données sur la structure des protéines AlphaFold a été rendue publique pour que les scientifiques l'étudient. Il contenait à l'origine plus de 350 000 structures protéiques, dont environ 98,5 % de protéines humaines, ainsi que celles trouvées chez la drosophile, la souris, la levure et E. coli. Il a ensuite été élargi pour inclure environ un million de structures protéiques provenant de 10 000 animaux, plantes, bactéries, champignons et autres organismes. Au cours de l'année qui a suivi, plus d'un demi-million de scientifiques du monde entier ont accédé à la base de données pour les aider dans leurs recherches.

Maintenant, DeepMind a publié une mise à jour massive de la base de données, qui comprend désormais environ 214 millions de structures d'un million d'espèces. Cela couvre presque toutes les protéines actuellement connues de la communauté scientifique, ce qui donne un énorme coup de pouce à la recherche sur les traitements des maladies, les vaccins, le développement durable, la résistance aux antibiotiques et même la pollution plastique. "AlphaFold a accéléré et permis des découvertes à grande échelle, y compris la fissuration de la structure du complexe de pores nucléaires", a déclaré Eric Topol, directeur du Scripps Research Translational Institute. "Et comme les structures nouvellement ajoutées éclairent presque tout le monde des protéines, nous pouvons nous attendre à plus de mystères biologiques à résoudre chaque jour." L'ensemble de la base de données sur la structure des protéines comprend plus de 25 To de données et peut être téléchargé à partir des ensembles de données publics Google Cloud.


2022-07-29 20:39:37