Skoltech生物公司的科学家在预测单一突变对蛋白质稳定性的影响方面对AlphaFold进行了测试,该人工智能程序的预测与实验结果相矛盾,驳斥了它掌握了终极蛋白质物理学的说法。
斯科尔技术公司为高中生举办的生物信息学训练营变成了人类和人工智能在科学领域持续较量的最新篇章的场所。突破性的人工智能程序AlphaFold在早些时候解决了一个有50年历史的结构性生物信息学的关键问题后,被证明不适用于该领域的研究人员所面临的另一个挑战。PLOS One的一项研究报告了这一发现,其作者驳斥了一些AlphaFold爱好者的说法,即DeepMind的人工智能已经掌握了终极蛋白质物理学,是结构生物信息学的终点。
结构生物信息学是一个科学分支,探索蛋白质、RNA、DNA的结构以及它们与其他分子的相互作用。这些发现为药物发现和创造具有激动人心的特性的蛋白质提供了基础,例如在自然界中未见的反应的催化剂。
历史上,结构生物信息学的核心问题是预测蛋白质结构。也就是说,给定一个组成蛋白质的任意氨基酸序列,你如何可靠地计算出该蛋白质在体内将呈现何种三维形状--以及它将如何发挥作用。
2021年斯科尔技术在线举办的分子和理论生物学学院Playing With AlphaFold2项目的海报。资料来源:Dmitry Ivankov/Skoltech
50年后,这个问题被AlfaFold解决了,这是一个由Google DeepMind创建的人工智能程序,其前身早先在国际象棋、围棋和视频游戏《星际争霸II》中取得了超越人类的表现,一时间成为头条新闻。
这一里程碑式的成就导致人们猜测,神经网络必须以某种方式内化了蛋白质的基本物理学,并且应该超越它所设计的任务。一些人,甚至是结构生物信息学界的人,期望人工智能将很快给出该学科剩余问题的明确答案,并将其归入科学史。
"我们决定解决这个问题,将AlphaFold用于结构生物信息学的另一项核心任务:预测单一突变对蛋白质稳定性的影响。这意味着选择了某种已知的蛋白质,并准确地引入了一个突变,即可能的最小的变化。想知道所产生的突变体是更稳定还是更不稳定,以及稳定到什么程度。AlphaFold显然无法做到这一点,它的预测与已知的实验结果相矛盾就是证明。"该研究的主要研究者,Skoltech Bio公司的助理教授Dmitry Ivankov评论道。
当被问及参加该项目的高中生的作用时,该研究人员说,他们参与了突变数据的处理,编写处理预测结果的脚本,将AlphaFold指定的结构可视化,以及基本上是在愚弄该人工智能的在线版本。
Ivankov强调,AlphaFold的创造者实际上从未声称该人工智能除了根据氨基酸序列预测蛋白质结构外,还适用于其他任务。但一些机器学习爱好者很快就预言了结构生物信息学的终结。所以我们认为这是一个好主意,去检查一下,我们现在知道它不能预测单个突变的效果。"
在实践层面上,预测单个突变如何影响蛋白质的稳定性对于筛选许多可能的突变以确定哪些突变可能是有用的。例如,如果你想让一种用于洗衣粉的蛋白质添加剂对更高的温度有抵抗力,这样它就可以在更热的水中分解脂肪、淀粉、纤维或其他蛋白质。另外,已知的甜味蛋白质有朝一日可以用来代替糖,只要它们能经受住一杯咖啡或茶的热量。
在更基本的层面上,该研究的结果表明,今天的人工智能并不是万能的,虽然它可能在解决一个问题上取得了巨大的成功,但其他问题仍然存在,包括结构生物信息学中的十几个主要挑战。其中包括预测由蛋白质和小分子或DNA或RNA组成的复合物的结构,确定突变如何影响蛋白质与其他分子的结合能量,以及设计具有氨基酸序列的蛋白质,赋予它们所需的属性,例如催化其他不可能的反应的能力,作为一个微小的"分子工厂"的元素。
除了提醒人们,即使在AlphaFold之后,他们领域的科学家也有一两件事情要做,PLOS One上的研究报告的作者审查了人工智能程序的成功源于其"学会了物理学"的论点,而不是仅仅将人类已知的全部蛋白质结构内化并巧妙地操纵它们。显然,情况并非如此,因为了解相关的物理学,从稳定性方面比较两个非常相似但不完全相同的结构应该是比较容易的,但这正是AlphaFold没有完成的任务。
这一点得到了之前对人工智能的物理学"知识"所表达的两个保留意见的支持。首先,AlphaFold预测了一些带有侧基的结构,其悬空的方式表明锌离子将与之结合。然而,该程序的输入仅限于蛋白质的氨基酸序列,所以"看不见的锌"出现的唯一原因是人工智能被训练成与这种离子结合的类似蛋白质结构。如果没有锌,预测的侧组方向与物理学相悖。第二,AlphaFold可以预测一个单独的蛋白质结构,看起来有点像螺旋,而且确实是准确的--只要它与另外两个这样的链交错在一起。如果没有它们,预测在物理上是不可靠的。因此,与其说该程序依赖物理学,不如说是简单地再现了它从一个复合结构中分离出来的形状。
"有趣的是,这项研究是从一个以分子和理论生物学学院的学员为主角的'游戏性'项目中发展出来的。我们把它称为'与AlphaFold的游戏'。当AlphaFold可以公开访问的时候,我们的实验室就把它安装在Zhores超级计算机上。其中一个游戏是将已知的突变效果与AlphaFold对原始蛋白和突变蛋白的预测进行比较。这带来了一项研究,高中生有机会同时体验超级计算机和先进的人工智能,"该研究的主要作者,Skoltech博士生Marina Pak评论道。