“生物版ChatGPT”，才是医药圈最值得关注的黑科技！

2023-02-22

　　自去年11月30日上线至今，ChatGPT 火爆全球，推出仅 2 个月就达到了月活过亿，成为历史上增长最快的消费者应用程序[1]。据广大网友反映，ChatGPT 产生的语句已经到了“以假乱真”的地步，使用体验完胜以往的各种聊天机器人。

　　我们离“生物版ChatGPT”有多远？

　　既然 ChatGPT 能够一键生成全新的语句，我们是否可以模仿其原理，做一款“生物版 ChatGPT ”呢？实际上，生物大分子也可以看成用遗传密码撰写的语句，特别是蛋白质，与自然语言存在高度的相似性，这启发研究人员用自然语言处理技术（简称 NLP）对蛋白质的序列信息进行编译，打造“生物版 ChatGPT ”。

　　去年 12 月，Meta AI 利用其基于 2.5 亿条天然蛋白质序列的预训练语言模型，生成了 228 条蛋白质序列，可表达性和新颖性俱佳[2]。几乎是同一时间，Salesforce Research 在 Nature Biotechnology 上发表了 ProGen，可以实现特定类别蛋白质序列的可控生成，该模型生成的酶能够展现出与天然酶相似的活性[3]。

　　而作为产业落地应用最直接的场景，大分子药物，特别是抗体等蛋白类药物能否用 AI “一键生成”，是各位从业者普遍关心的问题。从这个角度讲，上述工作还有一定差距，一是没有满足常规的以靶点为对象的药物设计理念，二是没有纳入对多种成药性目标（如免疫原性、理化性质）的考量。

　　换句话说，上述技术可以一键生成接近“天然”、可以正常折叠表达的蛋白，并使其符合某种宽泛要求（如具备溶菌酶活性），但还不足以成药。

　　“生物版ChatGPT”

　　能一键生成大分子药物吗？

　　晶泰科技作为 AI 药物研发的先行者，自主开发了大分子药物 De novo 设计平台XuperNovo?，该平台包含了一系列大分子药物从头设计策略，其中一款策略在内部被称为“ProteinGPT”，其技术路线与 ChatGPT 相似，可以一键生成符合要求的蛋白药物。

　　目前，ProteinGPT 已经正式应用在晶泰科技的各类大分子药物项目中，下面展示3 个真实应用案例：

　　●应用1．根据给定的靶点一键生成Binder蛋白

　　（上图将ProteinGPT的使用过程用ChatGPT的风格进行了展现，除序列信息为示例外，实际交互过程和实验结果均来自内部真实项目，下同）

　　实验人员随后对上述 15 条蛋白进行了表达和测试，其中 9 条（60%）表达成功，而这 9 条全部可以结合靶点 X，部分湿实验结果如下：

　　图1. 根据给定的靶点一键生成Binder蛋白的湿实验结果

　　可见，ProteinGPT 以 60% 的成功率完成了上述 binder 生成任务。考虑到任务的难度——首先需要生成可正常折叠表达的蛋白，其次还需要结合特定的靶点蛋白——这一表现堪称惊艳。

　　●应用2．根据指定要求一键生成抗体文库

　　实验人员随后从 ProteinGPT 生成的文库中随机选取了 26 条，其中 25 条得到表达（表达成功率 96.1%）。随后，加入了 3 条前人发现的具有良好性质的人源 VHH 抗体作为阳参，对这 28 条抗体进行了测试。湿实验结果如下：

　　图2. 28条序列的表达量数据

　　（灰色是阳性参照序列，绿色是AI生成序列，下同）

　　图3. 28条序列的疏水性数据

　　图4.28条序列的Humanness Score

　　可见，ProteinGPT 生成的 AI 序列：

　　● 表达成功率 96.1%，大幅超过行业平均水平；

　　● 59.6mg/L 的平均表达量大幅超过阳参序列 37.1mg/L 的平均表达量；

　　● 80% 的 AI 生成序列与阳参序列的 HIC 保留时间相当，疏水性满足成药要求；

　　● 免疫原性在行业通用的评估算法下大幅优于阳参序列。

　　考虑到这些 AI 序列都是机器生成的自然界不存在的蛋白序列（天然的人源 VHH 抗体不存在），这些抗体能够通过初步的成药性评估已属不易，未来的成药潜力值得期待，晶泰科技也正在构建该文库的过程中，未来将用该文库赋能双抗、纳米抗体药物开发。

　　●应用3．对性质欠佳的抗体进行改造，一键生成优化后的抗体

　　实验人员随后对这 10 条序列进行了表达和测试，湿实验结果如下：

　　图5. 针对热稳定性的序列生成的湿实验结果

　　（灰色是待改造序列，绿色是AI生成序列，下同）

　　图6. 上述序列的表达量湿实验结果

　　可见，ProteinGPT 生成的序列中有 9 条（90%）实现了热稳定性的提升，其中有4 条实现了“ Tm 提升到 72℃ ”的目标。在表达量方面，10 条序列中有 7 条优于原序列。最终，项目人员选择了热稳定性和表达量均得到提升的抗体继续推进下游开发。

　　ProteinGPT“一键成药”背后的秘密

　　与 ChatGPT 相似，晶泰科技在训练 ProteinGPT 的过程中也使用了无标记的蛋白质序列数据（约 2.8 亿条）+抗体序列数据（包括公开数据集中的数十亿条+晶泰科技内部积累的抗体 NGS 数据），但这些仅仅解决了自监督预训练的部分。高质量的标记数据，特别是与蛋白药物相关的标记数据是非常有限的，如抗体可开发性的公开数据只有 137 条。

　　为解决数据问题，晶泰科技率先提出“智能计算、湿实验、专家经验三位一体”的创新思路，搭建了国内规模最大的“干湿融合”的大分子药物研发团队，包括近百名科学家和工程师。

　　其中，湿实验平台既可以通过杂交瘤、展示文库、Single B Cell 等传统方式完成抗体药物从靶点到 PCC 的全流程研发，又可以为 AI 产生大量训练数据；计算团队除了 AIDD 外，还包括生信和 CADD 团队，可以通过 NGS4AI、MD4AI 等方式为 AI 贡献更多的训练数据。

　　最后，作为国内最早投身 AI 药物研发的企业，晶泰科技已经积累了超过 8 年的经验，在内部形成了 AI 算法向产业转化的一整套最佳实践，在很短时间内为 ProteinGPT 找到了最佳的落地应用场景。

　　图7. ProteinGPT的模型架构

　　One more thing...

　　自去年以来，晶泰科技内部的自动化能力开始走进公众视野，成为放大其 AI 数据优势的利器。除了将自动化运用于化学合成、晶型研究外，晶泰科技也在大分子药物方向部署了高通量的抗体筛选平台（如下图所示）。相较于传统的人工筛选，该平台的筛选通量可提高 1~2 个数量级，能够为内部 AI 模型贡献更大规模、更高质量的训练数据。

　　目前，晶泰科技在大分子领域的多个 AI 算法均已达到 SOTA 水平（State of the Art，AI 术语，指在公开测试集上取得全球最佳表现），而内部人员将其中相当一部分归功于晶泰科技在内部生成数据上的优势。Automation4AI，正日渐成为打造“生物版 ChatGPT ”的重要引擎。

　　图8.晶泰科技高通量抗体筛选平台

　　小结与展望

　　展望未来，要获得更加通用、好用的 DrugGPT、AntibodyGPT、mRNAGPT 等模型，我们还需要更多领域相关（domain-specific）的数据积累和算法创新。同时，由于相关方向跨学科的性质，我们需要把生物学家、化学家、AI 科学家和软硬件工程师放置在一个屋檐下，通过快速的迭代试错，找到 AI 造福人类生命健康的最佳路径。

　　如果您对晶泰科技的XuperNovo?、ProteinGPT等平台感兴趣，希望探索 AI 在大分子药物中的应用潜力，请联系 bd@xtalpi.com。如果您是 AI 或大分子药物研发的从业人员，愿意加入用 AI 变革药物研发的远大征程，欢迎投递简历至 career@xtalpi.com。

　　参考文献：

　　[1] Sensor Tower数据

　　[2] Verkuil R, Kabeli O, Du Y, et al. Language models generalize beyond natural proteins[J]. bioRxiv, 2022: 2022.12. 21.521521.

　　[3] Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.

　　晶泰科技是一家怎样的企业？

　　欢迎点击下面这条视频，

　　并关注晶泰科技视频号，

　　随时掌握 AI 药物研究领域的

　　前沿技术与最新动向

<<尝鲜ChatGPT，国内10家金融机构应用盘点

金钟：ChatGPT为什么没诞生在AI论文发表量全球第一的中国？｜阿尔特曼｜山姆｜论文>>

“生物版ChatGPT”，才是医药圈最值得关注的黑科技！

您可能还会对下面的文章感兴趣：

随便看看