当前位置: 首页 » 资讯 » 产业 » 生物医药 » 正文

GPT-4 能否为生物医药带来变革?专家:不需要略懂皮毛的百科全书

作者:生辉SciPhi 来源: 头条号 80403/20

去年 12 月,OpenAI 旗下推出的 ChatGPT 火爆出圈,成为一款 “现象级” 的 AI 产品,从写邮件、做食谱、写诗歌、写出较高水平的代码再到拿到谷歌 L3 工程师 offer......时隔 3 个月后,OpenAI 推出了多

标签:

去年 12 月,OpenAI 旗下推出的 ChatGPT 火爆出圈,成为一款 “现象级” 的 AI 产品,从写邮件、做食谱、写诗歌、写出较高水平的代码再到拿到谷歌 L3 工程师 offer......


时隔 3 个月后,OpenAI 推出了多模态预训练大模型 GPT-4(Generative Pre-Training 4)。该模型能够接受图像和文本的输入,然后再基于这些信息输出正确的文本回复。这是 ChatGPT(GPT-3.5)的升级版,目前通过应用程序接口(API)和 ChatGPT Plus 为用户提供服务。暂不支持免费使用,月费用为 20 美元。


(来源:OpenAI 官网)


根据官方的公告, GPT-4 在多个方面得到了提升,包括回答准确性、拥有图像识别功能、高级推理技能、文字输入限制提升到 25000 个单词,单词处理能力是 ChatGPT 的 8 倍,并可以用所有流行的编程语言写代码。


官方的通稿中还指出, GPT-4 比以前的版本更流畅,也更适合用于处理更多任务。同时, GPT-4 也比 ChatGPT 更具有安全性。


OpenAI 声称, GPT-4 是公司迄今为止最先进的人工智能系统,也是该公司在扩展深度学习系统上的最新突破。并表示该模型比以往任何时候都更具有创造性和协作性,因为它可以更准确地解决复杂问题。


值得一提的是,今日,微软发布了 GPT-4 平台支持的新 AI 功能 - Copilot,并将 AI 驱动工具 Copilot 全面整合到 Microsoft 365 服务中,包括 Word、PPT、Excel、Outlook、Teams、Microsoft Viva、Power Platform。接入之后,每个人都可以用 Copilot 自动生成文档、电子邮件、演示文稿。


Insilico Medicine 创始人兼联合首席执行官 Alex Zhavoronkov 指出,OpenAI 使 GPT 模型实际有用,还能进行自然语言对话,这也是真正的突破。GPT-4 是一个比 ChatGPT 更大的模型,而且是多模态的,GPT-4 将是生成式人工智能应用场景探索的一大步。


“从此前的随机生成到如今的逻辑输出,ChatGPT 和 GPT-4 无疑是生成式 AI 技术,甚至是整个 AI 技术领域的一个重要发展里程碑。他们令人着迷的主要原因是超出了人类对它的预期,形成了类人的理解、整合、回答的能力,并且都是在模型内部实现的。ChatGPT 和 GPT-4 等都属于通用的模型,可以整合到 AI 制药平台,并应用和服务于生物制药中。” 亿药科技创始人谢正伟博士告诉生辉。


新版本显著提升多个功能


2018 年 6 月,OpenAI 发表论文介绍了自己的语言模型 GPT(Generative Pre-Training),这是该公司提出的一系列非常强大的预训练语言模型。此类模型的基础是 Transformer 架构,先在大规模语料上进行无监督预训练,然后再在较小的有监督数据集上为根据具体任务进行精细调节。


(来源:paperswithcode)


至今,OpenAI 已经相继推出了 GPT-1、GPT-2、GPT-3、GPT-3.5 和 GPT-4 版本,这一系列模型已在非常复杂的自然语言处理任务中取得了十分惊艳的效果,包括文本生成、自然对话互动、提供创意、数学计算、编写和调试代码、纠正语法以及翻译等。


根据官方资料,近期发布的 GPT-4 是迄今为止规模最大、功能最强大的多模态预训练模型。根据官方的公告,GPT-4 提高了精确度、推理、单词处理、数据处理形式、安全性。


整体来看,GPT-4 的参数量更多,这意味着它将比上一版更接近人类的认知表现。对于不被允许的内容请求,GPT-4 的响应可能性降低了 82%。在 OpenAI 的内部对抗性真实性评估中,GPT-4 得分比 ChatGPT 高 40%。


OpenAI 称,GPT-4 比 ChatGPT 精确度更高,并且在各项测试中表现良好,测试数据显示,GPT-4 在多种专业考试和学术水平上与人类考试接近。GPT-4 在模拟律师考试中的成绩超过 90% 的考生, 而 ChatGPT 在律师资格考试中仅超过 10% 的考生;在 SAT(Scholastic Aptitude Test,俗称 “美国高考”)的阅读考试中 GPT-4 超过 93% 的考生,在 SAT 数学考试中 GPT-4 超过 89% 的考生。


相比较之下, ChatGPT 的输入类型是纯文本,输出是语言文本和代码。而 GPT-4 的多模态,意味着用户可以输入不同类型的信息,包括视频、声音、图像和文本。相应地,具备多模态能力的 GPT-4 也可以根据用户提供的信息输出视频、音频、图片和文本。


就推理功能来看,GPT-4 能够针对 3 个人的不同情况做出一个会议的时间安排,回答存在上下文关联性的复杂问题;就词汇量来说,由于最多可以处理 25000 个单词,因此在理解和生成长篇内容上,GPT-4 的能力更强。


GPT-4 更适用于专业领域


前美团技术学院院长刘江博士曾在《ChatGPT 技术发展及未来展望》分享中表示,ChatGPT 尤其是近期发布的 GPT-4,可能是我们迄今为止见到的最具革命性的通用技术创新,这些模型背后真正强大的就是底层通用的人工智能模型 GPT,即通用智能大模型(Artificial General Intelligence,AGI)。


谢正伟指出,ChatGPT 和 GPT-4 是通用的模型,理论上讲可以应用于各种场景中。其中 GPT-4 更适用于专业领域,比如编程、文案、数据统计等,只不过在不同的领域会有多种不同的场景和模态,包括生物制药领域。“GPT-4 在某一个具体专业领域中会有极其广泛的价值,并能够真正带来生产力。”


百奥几何创始人、加拿大魁北克算法研究所的终身副教授唐建也指出,GPT-4 等多模态语言模型有潜力用于生物制药领域,不过当前对生物制药领域产生的影响很有限。


(来源:TechNode)


Alex Zhavoronkov 表示,GPT-4 无疑是一款极具革新的 AI 工具,但它依然缺乏准确性。尤其在生物医药领域,我们并不需要略懂皮毛的百科全书,而是真正可信的药物研发工具和合作伙伴。这些模型如果要应用于制药行业,首先需要在专门的生物和化学数据上进行训练,然后由专业的科学家对训练结果提供反馈,而不仅仅是由 OpenAI 通过对公众开放收集反馈这样易于达成。另外在制药行业中证明模型是否有价值,最低的标准是在让药物进入临床试验阶段。


谢正伟的观点也比较类似,他认为,GPT-4 等模型属于通用型的多模态语言、图像、声音模型,可以实现图像识别和语言识别等功能,但是不包含专业制药模块,现阶段很多药物研发方面的功能还是空白。但是,通过持续训练和优化,未来完全有可能实现更多功能,极大助力新药研发。专业的制药多模态模型应该包括一整套药物研发体系,包括靶点预测、小分子设计和优化、合成路线预测、ADMET 预测等功能,还包括基于基因列表序列给出药物分子设计、蛋白质 / 抗体结构预测和设计等。


“一方面,GPT 本身是一个简单但是规模庞大的架构,这个架构的排序训练方式理论上可以融合所有药物研发的模态数据,支持我们发展通用的药物研发模型;另一方面,它可以成为一个整合核心,通过 API 的方式调用各个子模块,子模块返回的结果还可以通过核心 GPT 进行整合报告,实现更加专业的预测。”


谢正伟告诉生辉,接下来的关键是将 AI 制药的专业模型与通用型多模态大型语言模型通过上述两种方式进行融合,开发出一个生物制药领域的多模态深度学习模型,从而具备设计、输出、优化分子的能力,这些工作我们已经开始进行了。


“下一步,我们可能会看到一波基于 GPT-4 的应用兴起,但真正要做到为生物医药领域提供帮助,还需要二次训练和调整。” Alex Zhavoronkov 说。


已开始探索将 GPT 模型应用于医疗健康领域


唐建告诉生辉,生成式 AI 模型在生物制药中已经开始走向成熟,但并不是因为 ChatGPT 和 GPT-4 这些模型,而是以几何深度学习和扩散模型为基础的生成式 AI 模型。目前相关模型在蛋白质和抗体设计方向已经有比较好的结果。


虽然还不够完善,但是业内已开始探索 ChatGPT 和 GPT-4 等生成式 AI 工具在医药健康领域中的价值。


公开资料显示,OpenAI 方面正在与一家旨在帮助盲人和视力障碍人士的技术公司 Be My Eyes 合作,将 GPT-4 提供的从动态图像输入到文本输出功能集成到虚拟志愿者功能中,用户可以通过 GPT-4 应用程序将图像发送给 AI 虚拟志愿者,该志愿者将针对各种任务提供即时识别、解释和对话帮助。


这家公司推出了一款称之为 Be My Eyes 的免费移动应用程序,旨在帮助盲人和视障人士识别物体并应对日常情况。包括一个由视力正常志愿者组成的在线社区,他们会随机接收不同照片或视频,并通过实时聊天提供帮助。


近期,Nature Medicine 上的一篇文章也探讨了 ChatGPT、GPT-4 等大型语言模型在医疗健康领域的应用潜力。文章中提到,通过分析特定的临床需求,ChatGPT、GPT-4 等大型语言模型可能提高医疗健康的服务水平和患者的生活质量。文中还提到,这些模型有望应用于治疗失语症等言语障碍、改善语言能力退化的神经退行性疾病患者的病情进展。比如说,这些大型语言模型也可以整合到语音脑机接口设计和开发中。


(来源:Nature Medicine


日前,Insilico Medicine 也宣布,其研发团队已在 AI 靶点发现平台 PandaOmics 上整合了先进的 AI 问答功能 ChatPandaGPT,支持在使用平台的时候,展开与生物医药有关的自然语言问答,帮助研究人员更便捷发现潜在靶点和生物标志物。


根据该公司官网的信息,ChatPandaGPT 是专门为提供与分子生物学、治疗性靶点发现和药物开发相关的信息和问答而设计的。基于自然语言处理和机器学习算法,ChatPandaGPT 可以自动对用户的问题进行理解和解释,并提供一种更个性化获得关于分子生物学、治疗性靶点发现和药物开发相关信息的方式。


(来源:Insilico Medicine 官方微信公众号)


生辉还了解到,百图生科研发了一款生命科学领域的超大规模多模态预训练大模型 “xTrimo”,重点关注蛋白质。目前,xTrimo 已经在蛋白结构预测、抗体序列生成、细胞表征等多个生命科学任务上实现 state-of-the-art(SOTA),并在细胞功能预测、denovo 药物设计上取得重要进展。


参考资料:

1.https://openai.com/research/gpt-4

2.https://mp.weixin.qq.com/s/Hduj5xyQ0W7G-JbY5TQbxw

3.https://www.nature.com/articles/s41591-023-02289-5

免责声明:本网转载合作媒体、机构或其他网站的公开信息,并不意味着赞同其观点或证实其内容的真实性,信息仅供参考,不作为交易和服务的根据。转载文章版权归原作者所有,如有侵权或其它问题请及时告之,本网将及时修改或删除。凡以任何方式登录本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。联系电话 010-57193596,谢谢。

财中网合作