前不久,DeepMind放出大招AlphaFold。在“蛋白质结构预测奥运会”CASP13比赛中,力压其他参赛者。 那么,DeepMind这项研究到底意味着什么?会带来什么样的影响? 作为业内人士,哈佛医学院系统生物学研究员Mohammed AlQuraishi对其进行了解读。他博士毕业于斯坦福大学,参加了CASP13,是AlphaFold大放异彩的见证者。
他认为,AlphaFold有进步,但并没有解决根本的问题。不过,它在生物化学中最重要的问题之一上取得了重大进展,大家应该为此感到高兴。 此外,AlphaFold推出之后,也引发了外界的质疑,不少人都认为这是一个高超的工程技术,并不能称得上是一个基础的科学见解。 AlQuraishi认为,AlphaFold两者兼具。 解读文章发表之后,引发了不小的关注。不少业内人士发表评论称,这是目前关于AlphaFold的最好的一篇解读。 AlphaFold有进步,但没有解决根本问题 从AlphaFold给CASP成绩带来的提升来看,的确是取得了进步。但这个进步,是学术研究的自然增长,还是AlphaFold依靠自身能力带来的呢?这是一个非常容易忽视、且容易引发分歧的问题。
上图中,呈现了每届CASP第一名和第二名的成绩,虚线代表着CASP13预期成绩,是根据CASP10到12的平均改善率预测的。 在CASP 10之前,整个增长曲线10年来基本上是平缓的。CASP11的提升,是因为引入了协同进化的方法。CASP 12带来的提升,是这些方法最终被证明了。即使没有AlphaFold,CASP13的成绩,也会因为在协同进化方法中广泛应用深度学习,出现进一步的提升。 AlphaFold的意义,在于取得了更大幅度的提升。从图中可以看出,第二好的方法,基本上和预计的差不多,而AlphaFold又在这个基础上提升了不少。 因此,可以说AlphaFold取得了实质性进展。 但这是否就意味着问题已经解决了,或者说解决得差不多了呢?答案依旧是否定的。 AlQuraishi表示,AlphaFold的技术还没有到达那一步。 如果按照AlphaFold这样的发展势头,四年内就能够达到真正解决问题的地步。当然,这是以发展势头能够持续为前提的。但如果没有新的概念突破,就没有任何理由能够证明,这个势头是可持续的。 一个有趣的假设是,如果其他有一个学术团体取得了与DeepMind相同的成果,会不会引发同样大的关注?答案当然是否定的。从CASP11→ CASP12的进步中就证明了这一点,当时的进步并不比这一次差,但新闻报道寥寥无几。 毫无疑问,DeepMind的影响力与受关注度,发挥了很大的作用,当然,这对整个领域的发展也有很大的帮助。
此外,AlQuraishi认为人们对DeepMind带来的进步过于乐观了,这是他们第一次进入这个领域,优秀的工程附加价值可能不会重复出现。 但不论如何,DeepMind都给当前的研究格局带来了极大的冲击。AlphaFold推出之后,CASP13上讨论最多的一个问题就是,这是学科基础的突破,还是DeepMind依赖高超的工程技术带来的突破? 学科基础的突破还是高超的工程技术? AlQuraishi认为,这个问题非常愚蠢,而且也会引起分歧。如果非要回答这个问题的话,两者兼有。 从学科基础突破方面来看,DeepMind有很多不错的想法。 首先,他们不仅预测了这些氨基酸的化学键之间连接的角度与相互作用,还预测了成对的氨基酸之间的距离。 虽然说之前也有学者采用了相同的方法,但多重迹象表明,两个团队是独立发展出这个想法的。至关重要的是,AlphaFold还进一步预测了距离分布。根据DeepMind官方博客的信息: 他们训练了一个神经网络来预测蛋白质中每对残基之间的距离分布。然后,将这些概率组合成一个分数,用来估计一个蛋白质结构的准确度,又另外训练了一个单独的神经网络,基于所有距离的总和来评估初步给出的蛋白质结构与正确答案的接近程度。
其次,AlphaFold在进一步预测蛋白质结构的时候,还运用到了势函数相关的知识。根据参考状态,把用神经网络生成的势函数中的势进行归一化。再用另一个独立运行的算法把它最小化,进而生成蛋白质折叠。 虽然这些想法看上去非常简单,但科学不就是用简单的想法产生深远的影响吗? 当然,DeepMind也利用了他们在机器学习方面深厚的专业知识。例如,分布预测的想法与他们在一年前发表的关于分布强化学习的论文有点相似。 这对AlphaFold有没有影响不得而知。但可以确定的是,机器学习和蛋白质两个领域的专业知识结合对于实现这些进步有很大的帮助。 在工程方面自是不消多说,现在大家看到的任何“优雅”的解决方案,都是多次试错的结果,这很大程度上取决于计算能力和人力资源。 学术团体的危机:到底发生了什么?未来怎么办? 很多相关的研究学者,尤其是参加CASP13的学者,看到DeepMind的研究成果,都有一种存在主义的焦虑感。
非常具有讽刺意义的是,这些学者的目标就是要淘汰蛋白质晶体研究者,现在也在担心自己被淘汰。 AlQuraishi认为,大多数人都经历了以下的几个阶段: 一开始,担心DeepMind团队凭借着一些卓越的洞察力,加上顶尖的工程技术,超越了我们所有人;然后,看到他们的见解与大多数人的想法并没有太多的不同,就松了一口气;进而开始贬低DeepMind的贡献,并将其取得的成功,归功于Alphabet掌握的资源。撇开上述观点的有效性不谈,他们潜在的担忧是,蛋白质结构预测作为一个学术领域,是否会像机器学习一样,最好的研究将会在工业界的实验室中诞生,而学术团体只能够分食剩下的残渣。 说实话,这个问题没有答案。这个设想也是未来可能出现的情景。随着DeepMind的加入,学术界的研究者这不得不考虑这一点。 关键是,学术研究团体,是否应该就此放弃他们的蛋白质结构研究项目,转向其他领域?换了新的领域,是不是还会有其他的科技公司进入,继续压迫他们的研究空间?就这些问题,AlQuraishi给出了自己的一些想法。 最重要的一点是,应该意识到DeepMind的进入,是一件不可预测的好事。推动了整个科学界在生物化学最重要的问题上取得了重大进展。是谁取得了进展不重要,重要的是取得了进展。 而且,DeepMind的进入也表明了现在有了新的、世界一流的研究团队在这个领域投入资源,并于现有最优秀的团队进行竞争。如果这样的情况每十年发生一次,我们应该张开双臂欢迎。 我们也应该鼓励他们像学术团体一样,公开分享他们的研究成果,学术团体也可以像他们学习如何改进工程实践。
更何况,DeepMind也提高了蛋白质结构问题的知名度,也会激励大量的人们进入这个领域。 面对DeepMind,最好的方法,就是的适应。就像人工智能领域一样,学术团体应该把目光放在对资源要求较低,需要关键概念突破才能带来进展的问题上。就蛋白质结构预测而言,这是一个多重的问题,真正解决这个问题,需要协同的方法。 此外,AlQuraishi也透露了DeepMind在AlphaFold上后续的动向,并表达了自己看法: DeepMind已经承诺了要发表一篇关于AlphaFold的论文,最终和确切的描述还要看他们的论文。不过,他们并没有发布源代码的计划,短期内也不太可能建立一个公开的预测服务器。话虽如此,但他们在CASP13期间乐于讨论他们的方法,并且似乎真的有兴趣与社区分享这种方法,并希望其他学者能够在此基础上进一步发展。我的感觉是,他们是为了科学。
|