Mila唐建:搭建生命科学领域的ChatGPT,用生成式人工智能开发创新型药物|唐建|人
“我对生物一直都比较感兴趣,读高中时老师告诉我们 21 世纪是生物的世纪,当我学习了人工智能,又相信 21 世纪是人工智能的世纪。”
在未来论坛主办的《理解未来》科学讲座期间,加拿大魁北克省人工智能研究中心(Mila)副教授、加拿大高等研究院(CIFAR)人工智能讲席教授唐建以《生命科学中的生成式人工智能:如何搭建生命科学的“ChatGPT”》为题,介绍了生成式人工智能在生命科学的应用。他表示,“后来我觉得,如果可以在人工智能和生物交叉的领域做一些事情,可能是一个最好的选择。”
如今,他不仅在同时研究 AI 和生物,也在“左手科研、右手创业”。他说自己是一个乐于接受新鲜事物和挑战的人。从科研到创业很多东西都不一样,又因为需要跨学科开展合作难度也比较大,但这也正体现出做这些事的价值。
图 | 唐建(唐建个人主页)
据介绍,唐建大学初期学的是地理专业,大二转到数学系,大四又成功保研至计算机系。在计算机学习的生涯中,他最早研究传统的机器学习,博士阶段的最后一年,才转而研究深度学习。
博士毕业后,他正式走上科研道路,在图表示学习领域取得了诸多成果。作为该领域的代表性学者之一,他提出的网络表示学习方法 LINE(Large-scale Information Network Embedding)已被广泛应用,引用量超过 5,000?次。
“人工智能和生物技术双重革命爆发,我们正处于做研究的最好时代” ?
2018 年,唐建开始人工智能和生物学科交叉的研究。当时,他将图表示学习技术运用到药物发现领域的研究中,并在小分子三维结构预测、大分子蛋白质设计等方面做了许多工作。
但在几年前,投身于该方向研究的人,还只是少数。近两年来,越来越多的投资被注入到该领域中。唐建认为,造成这一变化的原因,主要是由于人工智能给蛋白质结构预测及生物领域带来了巨大突破,同时新冠疫情的蔓延也激发了人们对健康和生物医药的重点关注。
“现在我们正处于最好的时代,因为我们正在经历人工智能和生物技术的双重技术革命。”唐建表示,“因此,我们看到了生成式人工智能在药物发现,特别是蛋白质设计领域里的巨大机会。”
基于在科研中的积累,他投身创业并在 2022?年成立人工智能驱动型生物制药公司百奥几何。
搭建 AI 大分子药物设计平台,为拯救患者生命提供创新型药物
在唐建看来,或许正是自小就萌生出的创业想法,以及不断寻求自我突破的性格,驱使他走上了创业这条路。
由他成立的百奥几何公司,旨在融合生成式人工智能和几何深度学习等技术,研发可编程的蛋白质,攻克传统大分子制药周期长、成本高、成功率低等难题,为挽救患者生命提供创新型药物。
唐建在该公司主要负责技术工作,通过搭建人工智能模型来进行抗体设计。作为一种新的扩散生成模型,该模型能够同时对蛋白质的氨基酸序列和三维结构进行建模,并展示两者之间的相互关系,从而生成具有特定功能的蛋白质。
目前,该团队已经搭建 AI 大分子药物设计平台,并正在建设高通量大分子药物湿实验验证平台。与此同时,其也联合英伟达、英特尔和 IBM 等公司,推出了专门针对大分子的开源机器学习平台 TorchProtein。
“我希望所做的技术,能够真正推进几款药物进入临床,解决像癌症这样比较复杂的疾病,拯救患者的生命。”唐建说。此外他也表示,随着生物医药领域智能化、数字化、自动化的发展趋势成为必然,期待能够在该领域做出世界知名的、国际化的高科技公司。
基于生成式人工智能,搭建生命科学领域的“ChatGPT”
创业之外,唐建手头的科研工作也在同步进行。基于生成式人工智能,他和团队在生物医药领域分别开展了小分子三维结构预测和大分子蛋白质设计等方面的研究。
在小分子的三维结构预测上,该团队主要基于扩散生成模型对其进行建模。具体来说,就是把一个完全随机的结构作为初始结构,经过多轮优化,最终收敛到一个稳定的蛋白质结构。其中每一步优化的过程,也被称为去噪。此外,在拓展该研究的基础之上,还实现了对复合物结构的预测。
在大分子蛋白质设计上,该团队提出基于扩散生成模型,同时设计蛋白质结构和序列,不仅实现了抗体?CDR Loop 结构和序列的生成,还设计了具有指定个数的 α 螺旋跨膜蛋白。
不仅如此,该团队还在抗体设计和优化方面进行了研究。比如,其与来自复旦大学的科研团队开展合作,基于从新冠病人身上得到的抗体 CR3022,先用 AI 模型进行了序列设计,后通过高通量的湿实验平台进行了测试,最终成功发现了拥有较强亲和力的抗体分子。
对于生成式人工智能来说,其最为关键的能力在于,能够生成新的数据。那么,如果将其用于生物医药领域,就能帮助生成全新的蛋白质,助力人们找到更好的药物。
作为一个典型的生成式人工智能模型,ChatGPT?自 2022 年年末被推出之后,迅速火遍全球,其能够像人一样对话交流、完成写论文、编代码等任务。“它本质上是一个聊天机器人。”唐建说。作为大规模的预训练语言模型,ChatGPT 首先针对互联网上大量文本和代码数据进行预训练,接着通过进一步的优化,使它能够用于对话等任务。
以基因测序、基因合成为代表的生物技术的发展,给生物医药领域带来了大量的数据。因此,唐建认为,在不久的未来人们也能借助这些数据搭建生命科学领域的?ChatGPT。
特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。