今天介绍的文章其核心内容是关于使用大型预训练语言模型(LLMs)进行癌症药物协同作用预测。研究团队提出了一种基于LLMs的少样本学习方法,名为CancerGPT,用于预测罕见组织中药物对的协同效果。这种方法特别适用于缺乏结构化数据和样本量有限的生物学和医学领域。该研究发表于今年2月在影响因子15.2的npj digital medicine上。
论文链接:https://www.nature.com/articles/s41746-024-01024-9
1)研究背景
药物组合疗法在治疗复杂疾病(如癌症、传染病和神经疾病)中被广泛接受,预测药物对的协同作用对于药物发现和开发至关重要。与特定于任务的方法不同,大型预训练语言模型可以执行尚未明确训练的新任务。然而在药物协同作用预测这样一个包含结构化数据,且样本量有限的情况下,在众多领域大杀四方的LLMs的应用尚未得到充分评估。
:生物学样本中的少样本学习, 大型预训练语言模型可以成为生物医学中小样本预测的创新方法,这要归功于其权重中编码的先验知识。
在该研究中,研究者通过将表格数据转换为自然语言任务,利用LLMs中的预训练权重矩阵中编码的先验知识进行分类模型的构建。这个名为CancerGPT的模型约有124M参数,该模型基于GPT-3(约有175B参数)进行微调,以适应药物对协同作用预测任务。
2)方法细节
实现对药物组合协同作用的预测分为以下五步,如所示
:研究流程
1 数据准备:从公开数据库DrugComb中收集药物组合的协同作用数据,该数据库包含了大量癌症细胞系的药物敏感性和药物对协同作用数据。作者选择罕见组织类型的样本进行模型训练。
2 模型设计:将表格数据转换为自然语言文本,为LLM设计了预测任务提示,并在LLM的输出层添加分类头,用于预测协同效应。
3 模型训练:使用GPT-2、GPT-3和SciFive作为预训练的LLM,并在每个罕见组织类型的少量样本上进行微调。使用k-shot微调策略,即在每种罕见组织中使用有限数量的训练样本(k = 0到128)来适应和泛化模型。此外,使用外部常见组织的数据对CancerGPT模型进行预训练。
4 模型评估:使用AUPRC和AUROC评估模型在不同组织类型、不同样本量下的预测性能,并比较了LLM模型与数据驱动模型的优劣。
5 推理验证:对LLM模型的推理进行事实检查,以验证其预测的合理性。
3结果
如及所示, CancerGPT在肝脏、软组织和泌尿道等组织中显示出最高的准确性。随着训练样本数量的增加,CancerGPT的准确性提高,表明从少量数据中获得的信息补充了LLM编码的先验知识和外部数据中的信息。相比之下,协作过滤和 TabTransformer 这两种数据驱动模型在某些组织(包括子宫内膜、胃和骨骼)中表现出更高的准确性,这表明从外部数据(常见组织)学习的模式可以外推到这些组织。 CancerGPT(利用先验知识和外部数据)与数据驱动模型之间的准确性差异可归因于外部数据分布与感兴趣数据的相似性。与常见组织相比,某些罕见组织癌细胞系表现出独特的特征。这些组织具有其起源组织所独有的特定细胞特征,通过普通组织的训练可能无法准确预测这些特征。与所有基于 LLM 的模型(包括 CancerGPT)相比,当分布内外部数据可用时,数据驱动模型显示出更高的准确性。然而,在没有外部数据的情况下,或者当外部数据不分布时,定制的基于LLM的模型取得了最好的精度。
:七个组织集上的 k-shot 学习的 AUPRC
:七个组织集上的 k-shot 学习的 AUROC
当与其它LLM基模型(如GPT-2、GPT-3、SciFive)以及通用数据驱动预测模型(如XGBoost、协作过滤、TabTransformer)相比较时,CancerGPT在大多数情况下表现出更高的准确性。在缺乏外部数据或外部数据分布不匹配的情况下表现最佳。 CancerGPT 比 GPT-2 更高的准确性强调了针对特定任务进行调整的价值。这些修改可以提高准确性,同时保留模型的多功能性。然而,这种微调的优势可能会随着 GPT-3 等较大的 LLM 模型而减弱,特别是在需要更高泛化性的场景中。有趣的是,CancerGPT 尽管参数大小较小(124M),但其准确性优于参数大小较大(175B)的 GPT-3。这表明,只要分布内数据易于获得,GPT-3 的进一步微调可能会产生更高的准确性。
研究者比较了使用不同策略微调模型时的准确性。完整训练在 k-shot 调整期间更新 LLM 参数和分类头,通常比最后一层训练显示出更高的准确度,另一种方案是只训练最后一层,同时冻结剩余参数。结果显示完整训练尽管对数百万甚至数十亿个参数进行了广泛的调整,但精度的边际增长并不显着高。这表明 LLM 的最后一层表示已经封装了大量先验知识,有效地充当下游任务的基础。这类似于使用 ImageNet 进行预训练的模型可以增强图像分析通过迁移学习。
研究还评估了LLM是否能够提供其预测背后的生物学推理。作者使用零样本调优的GPT-3模型,随机选择了一个真实阳性预测作为示例,检查LLM是否能够提供该预测的生物学论证。他们提示LLM回答“药物1和药物2在给定癌症类型的细胞系中协同作用的详细原因”。通过将LLM生成的答案与现有科学文献进行比较,结果显示LLM提供了大部分准确的论证,除了少数2个案例中没有科学文献支持的情况。不止这样,LLM能够通过组合这些单独的科学事实来推断未见的协同效应。例如,两个药物都针对类似途径但不重叠的蛋白靶点,更可能协同作用。这意味着LLM能够提供大部分准确的生物学论证,表明其对药物协同预测的推断是有根据的,而不是纯粹凭空捏造。这为LLM在生物学预测任务中的潜力提供了有力证据。
4 对类似研究的启示
该研究使用 LLM 来“自动化”演绎推理,从而为少数样本预测模型奠定了基础。这种归纳(小样本微调)和演绎(封装在 LLM 中的知识)推理的组合是一个新颖的概念,通过cancerGPT这一基于 LLM 的预测模型成为可能,得以连接了两种不同的方法:数据驱动的依赖于归纳推理的机器学习模型,;以及使用演绎推理知识驱动的推理模型。
通过CancerGPT在零样本学习(即没有训练数据)中也表现出显著的准确性,并且在大多数情况下优于传统的基于表格预测模型。这项研究展示了“通用”生物医学人工智能的强大潜力,对于生物医学领域具有重要和及时的意义。CancerGPT的成功表明,即使在数据稀缺的情况下,LLMs也可以通过迁移学习灵活地增强生物医学预测。CancerGPT在缺乏在预测罕见组织中药物对协同作用数据的情况下表现出优越性,这为药物开发在这些癌症类型中具有重要意义,并为LLMs在生物医学推断任务(如其他疾病预测任务)中的推广奠定了基础。
该研究的范式,即只针对最后一层训练使 LLM 的主干保持不变,而其准确性与完全训练的模型相当,且模型所需的参数更少,推理成本更低。这意味着使用大量科学文献进行预训练的 LLM 可以使用基于最后一层训练的迁移学习来灵活地增强生物医学预测。
研究还指出了LLMs在生物医学预测任务中的局限性,即 LLM 模型可能只是从文本中回忆,而不是推断出未见过的任务。作者还提出了未来研究的方向,包括验证LLMs在更广泛的生物学预测任务中的泛化能力,以及如何将LLMs中提取的信息与传统的基因组或化学特征相结合。