大模型自动化建模分析在医疗研究中的应用

admin 49 2025-01-05 编辑

 

今天介绍的文章来自Nature communication,该研究介绍了基于ChatGPT 4扩展工具ChatGPT ADA。该工具可以在没有具体指导的情况下,对真实世界的临床数据集和来自各种医学专业的大型试验的研究细节进行分析,以预测癌症发展、疾病并发症等临床结果或致病基因序列等生物标志物。引人注目的是,ChatGPT ADA 制作的 ML 模型通常优于同类模型。这意味着使用chatGPT ADA,可从头开始构建机器学习预测模型,简化复杂的数据分析

https://www.nature.com/articles/s41467-024-45879-8

1)背景

机器学习在分析临床数据方面的应用迅速扩大。涵盖医学影像分析、公共卫生、临床试验绩效和组织运营 。然而,开发、实施和验证这些模型的复杂性使大多数临床医生和医学研究人员无法访问它们。它还将其使用限制为那些结合了医学和数据科学专业知识的人或团体。

大语言模型的成功,可以通过人类语言执行构建并验证机器学习模型的工作,OpenAI企业版推出的ChatGPT ADA, 可以读取用户上传的文件,包括图片,表格文字等多种格式,还可以用于分析数据和数学问题、创建图表以及编写、执行和优化计算机代码。该工具使用很简单,例如,用户上传数据,输入例如“分析这些患者数据并构建一个预测 12 个月死亡率的机器学习模型”。根据此提示,ChatGPT ADA 将执行任务并提供有关该过程的反馈。

2 研究设计

该研究的目的是考察ChatGPT ADA在自主开发和实施机器学习方法中的有效性和可靠性。研究者纳入了来自不同医学专业的四项大型临床试验的真实世界数据集,这些试验将需要使用机器学习模型应用于高级数据分析()。研究者假设 ChatGPT ADA 可以直观地使用,不需要事先接受 机器学习理论和实践方面的培训和指导即可高效准确地实施高级 机器学习方法,且 这些实现的结果与专业数据科学家的结果相匹配。

研究者收集了来自四项大型临床试验的真实世界数据集和研究细节,并将其输入到 ChatGPT 高级数据分析 (ADA) 工具中。该工具在提示后自主选择适当的机器学习模型进行分析。这些模型经过专家检查和全面评估。将基于 ChatGPT ADA 的预测与原始研究(基准出版物)和重新实施模型后的验证预测进行了比较。

研究设计流程图

3 结果

之后分别介绍4项研究,对比大模型和专家构建的预测模型。首先是内分泌肿瘤Z(嗜铬细胞瘤和副神经节瘤)的转移可能性预测。原始研究的训练和测试集队列分别包括 493 名和 295 名患者。以 12 位临床专家的预测为参考,作者实现了多个有监督机器学习模型,包括决策树分类器、支持向量机、朴素贝叶斯和 AdaBoost 集成树分类器。ChatGPT ADA 选择了梯度提升机 (GBM) 模型进行预测,并在 AUROC 值(0.949 对 0.942)、准确性(0.922 对 0.907)和 F1 分数(0.806 对 0.755)方面,相对于目前表现最好的已发布模型取得了略微的性能提升()。

图 2:与 ChatGPT ADA 交互以分析内分泌肿瘤学数据集的示例屏幕截图。

:基于 ChatGPT ADA 的机器学习 模型的 ROC 曲线(蓝色,实线)和由经验丰富的数据科学家重新实现的验证性机器学习模型(红色,虚线)

第二份测试数据集来自14,597名参与者的海绵细胞学检测和流行病学数据筛查,包含105个细胞学特征和15个流行病学特征预测高级别上皮内瘤变和癌。研究者手动实现了设计了6个机器模型,即逻辑回归、自适应提升、LightGBM、 极端梯度提升、随机森林(RF) 和支持向量机。相比之下,ChatGPT ADA 选择了 GBM,并以 0.979 的 AUROC 值优于原始模型。

第三个实验旨在根据特定的基因序列,即三个基因中144个位点的遗传变异来识别遗传性听力损失患者。实验使用来自 1778 名患者和对照组的数据,研究者实现了六个有监督机器学习模型,即决策树、随机森林、k 最近邻、自适应增强、多层感知器模型和支持向量机 。其中支持向量机表现最好(AUROC值为0.751),优于三位临床专家。ChatGPT ADA 选择的预测模型是随机森林,在 AUROC 值 (0.773) 方面优于原始模型,但在准确性 (0.767 对 0.812) 和 F1 分数(0.845 对 0.861)方面表现较差。

第四个实验从多队列的健康记录中识别有心脏淀粉样变性风险的患者,数据包括2142名患者及对照组。研究者手动设计了三种机器学习模型,即逻辑回归,极端梯度提升和随机森林。随机森林模型表现最好(AUROC 值为 0.930 )。 ChatGPT ADA择的预测模型也是随机森林,在 AUROC (0.954) 和其他性能指标方面优于研究者构建的模型。

除了构建自动模型,ChatGPT ADA还能够对模型给出可解释性分析,例如通过SHAP值量化每个特征对模型预测的贡献,研究者指示 ChatGPT ADA 自主执行 SHAP 分析,而无需提供具体指导。图 4 详细介绍了对每个临床试验的最佳表现 机器学习模型做出贡献的前 10 个最具影响力的特征。SHAP 值衡量特征对模型输出的影响。高绝对 SHAP 值表示重大影响,正 SHAP 值将模型的预测提升到基线以上。

通过 ChatGPT ADA 选择的机器学习模型的前 10 个预测特征实现模型可解释性

3 讨论

ChatGPT企业版推出的高级数据分析服务,经过该研究,已证明可用于构建医学相关的机器学习模型。ChatGPT ADA 选择的模型始终表现出与原始研究中使用的手工制作的 机器学习方法相当或超过的性能。这一观察结果证明了 ChatGPT ADA 能够自主选择、训练和优化合适且性能出色的机器学习模型。在构建模型的每一步,ChatGPT ADA逐步进行统计分析,以确定模型输出的准确性、可靠性和一致性,从而不会出现大模型常见的“幻觉”问题(即给出不符合事实的回答)

ChatGPT ADA 通过获取表格数据、建议如何处理数据、构建模型并以所需格式输出结果,大大降低了开发和实施 ML 方法的复杂性。用户可以经由自然语言与其沟通,可以选择是否查看用于分析的代码及中间结果。ChatGPT ADA在构建模型中,会实施提高模型稳健性和泛化的策略,例如正则化、基于验证的模型选择以及选择更简单的模型。ChatGPT ADA还能够对模型进行可解释性分析,给出特征重要性排名,从而指导医学实践。

ChatGPT ADA这样工具的出现,使得医疗人员能够更方便的构建机器学习模型,而不必掌握相关领域知识。这使得研究能够更为普及,一线医生也可以利用该工具构建指导医疗实践的模型。然而,这样的工具由于将数据上传到第三方平台,可能会侵害患者隐私,泄露机密数据。且OpenAI还会使用用户上传的数据训练模型,这些都成为使用该工具的障碍。

可能的解决方案是采取离线版的开源模型,将大模型及其参数下载到本地,之后就不再连网。之后研究者或医生上传的医疗数据都可以在本地大模型的支持下进行代码生成,执行,最终完成数据分析。虽然到目前开源大模型的性能还弱于ChatGPT 4,也没有现成的这类工具,但随着开源大模型的快速发展,未来会有更多这类工具以简化研究人员的高级数据分析,无论研究者在机器学习方面有经验还是没有经验,并有可能大大减轻数据预处理和模型优化的负担。鉴于这些工具的新颖性、局限性和挑战,它们应该作为专业培训、资源和指导的扩展及增强,而不是替代品。

大模型自动化建模分析在医疗研究中的应用

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 3D基因组之Hi-C简介(二)
相关文章