机器学习等人工智能 (AI) 技术正在改变药物研发 (R&D),数据量和计算能力不断增加。
从历史上看,小分子一直处于药物发现中人工智能应用的最前沿,包括模拟小分子-靶点相互作用、先导候选物优化和安全性预测。
然而,人工智能工具越来越多地应用于大分子模式,包括抗体、基因疗法和基于 RNA 的疗法。这些疗法代表了(约占 2022 年批准的新分子的 40%)及其未来商业潜力。
例如在肿瘤学领域,预计到2030 年,大分子将占市场收入的 50% 左右,其中 80% 以上预计来自抗体。
麦肯锡概述了基于人工智能的方法如何应用于大分子药物发现,分析了开发这些方法及其管道的公司的前景,并提供了生物制药行业成功实施这些方法所需的视角。
1、三大应用领域
大分子药物发现中的人工智能机器学习工具正在许多领域得到应用。
文章重点关注大分子药物发现的三个方面——结构预测、功能预测和新候选药物的产生——这些方面的方法正在迅速成熟。机器学习在药物开发中的应用,例如预测反应性患者群体的工具,或降低或加速试验的工具,不包括在内。
预测大分子结构的工具
蛋白质结构的预测对于从靶标识别(例如预测抗原结构)到先导化合物识别和优化等领域的大分子药物发现很有价值。AlphaFold2在三维蛋白质结构预测的巨大成功,被视为一次里程碑式的进步。
该领域的许多公司现在都在使用 AlphaFold2 或其他具有类似精度的蛋白质结构预测模型,例如RoseTTAFold。
持续的开发正在改进诸如易用性、可扩展性、孤儿蛋白性能和可再训练性(例如 ColabFold、FastFold、OmegaFold 和 OpenFold)等方面,并使用类似于大型语言的不同架构提高泛化性和速度 模型,例如 ESMFold。
预测大分子功能的工具
人工智能工具的开发是为了支持预测大分子候选治疗药物的功能,包括抗原-抗体或RNA-蛋白质结合,以及与其可开发性相关的方面,例如药代动力学清除率。
这些预测可以使用机器学习模型(例如梯度增强树)或计算模型(例如分子动力学模拟)来进行。最近,深度学习方法(包括基于图的模型、卷积神经网络、循环神经网络或“大分子语言模型”)被用来预测关键的治疗特性,例如抗体亲和力。这些方法可以使用大分子的各种表示;例如抗体-抗原氨基酸的三维坐标,或氨基酸序列或卷积神经网络或大分子语言模型架构的核苷酸。
产生大分子候选治疗药物
快速增长的数据可用性正在支持算法的开发,这些算法可以大规模地生成蛋白质、抗体或mRNA,作为先导物生成或优化的一部分,例如,基于扩散、变分自编码器模型,或通过使用类似于GPT-4的大型语言模型,这些模型经过特定模式的数据训练,如蛋白质序列。
这些算法已经实现的具体例子包括开发新的抗原结构,确定*的mRNA结构的稳定性和免疫原性,以及新的蛋白质和抗体设计。设计的分子通常随后在高通量系统中进行评估,以实验确认功能特性,并进一步加强和改进候选分子的产生。
上面描述的工具是通用的:例如,RF扩散或ESM系列模型已用于新蛋白质生成以及结构和功能预测。这些工具现在正在补充或取代传统的计算方法。
麦肯锡分析了从事大分子药物设计的人工智能驱动的生物技术公司的前景,并确定了82家活跃在该领域的公司。这些公司中有超过60%是在过去5年内成立的,这表明这是一个由最近的技术变革驱动的新兴行业,比如AlphaFold的出现。这些公司之间也有一些新的整合证据,比如iBio在2022年收购了RubrYc Therapeutics。
图:生物技术公司将人工智能应用于大分子药物发现的趋势
AI大分子公司在2021年筹集了39亿美元,其中27亿美元仅由风险投资公司筹集。然而,2022年总投资大幅下降至7亿美元。
值得注意的活动包括,AbCellera和Absci(均专注于抗体发现)分别在2020年和2021年的首次公开募股中融资5.55亿美元和2亿美元,Generate Biomedicines(专注于蛋白质药物发现)在2021年的B轮融资中融资3.7亿美元。
成熟的生物制药公司正在通过内部和收购的方式投资于构建用于大分子药物发现的人工智能能力,例如基因泰克在2021年收购了Prescient Design,这是一家将机器学习应用于抗体发现的人工智能驱动的生物技术公司。
成熟的大型生物制药公司也与人工智能驱动的生物技术公司合作,2021年确定了51个合作伙伴关系,高于2016年的10个合作伙伴关系。这些交易包括BigHat Biosciences与Amgen、AbCellera与AbbVie、MAbSilico与OSE Immunotherapeutics的合作。
人工智能驱动的生物技术管线目前处于早期阶段。总计有三个进入临床II期的资产:Evaxion正在开发一种基于肽的转移性黑色素瘤个性化癌症免疫疗法,ZielBio正在开发一种针对实体瘤的plectin单克隆抗体,PharmCADD有一种针对SARS-CoV-2的mRNA候选疫苗。
还有三个项目处于I期:Peptilogics用于假体周围关节感染的肽抗生素,SparX Therapeutics用于胃癌的靶向claudin 18.2的单克隆抗体和PharmCADD的另一种针对SARS-CoV-2的mRNA疫苗。
据报道,开发这些分子的公司利用基于人工智能的靶标识别、功能预测和抗体生成(包括使用生成式人工智能)作为候选药物开发的一部分。
图:进入临床阶段的管线
2、结论及展望
就模式而言,处于临床前开发阶段的RNA疗法和多肽(约占所有分子的50%)比抗体疗法要多。这可能是由于抗体设计的更高复杂性和缺乏训练机器学习工具的功能数据。
分析表明,人工智能在大分子药物发现中的应用正在迅速增加。然而,尽管这些工具的潜在价值已经在学术环境中得到了证明,但到目前为止,大规模部署仍然具有挑战性。
要实现人工智能在该领域的潜力,需要解决几个因素。
首先,必须将人工智能模型充分融入研究过程,并对研究科学家进行适当的能力建设。通过这样做,公司可以快速训练和验证机器学习算法,同时也可以克服人工智能的幻觉。
例如,当使用大型语言模型进行高通量抗体亲和力预测时,通过集成的研究系统及时进行体外验证将进一步训练和提高计算机模型的性能。
其次,必须建立技术环境,例如复杂的数据工程管道(集成并能够自动标记公共和内部数据),合适的计算基础设施,以及源系统建模环境的集成。这使公司能够以能够为下一个实验提供信息和改进的速度训练和改进人工智能模型。
最后,AI技术需要在药物发现之外的整个研发过程中结合起来,进入试验设计和确定患者亚群等领域,以进一步提高试验效率和成功的可能性。