谷歌、DeepMind联合提出Med-PaLM 2,MedQA数据集上的得分高达86.5%

发布时间:2023-05-26 17:08:50.0

检索医学知识、对其进行推理、并能够回答医学问题,与医生相比的能力一直被视为这样一个大挑战之一。大型语言模型(LLM)在医学问答方面促进了显著进展;Med-PaLM是第一个在美国医疗执照考试(USMLE)风格问题上超过“及格”分数的模型,其在MedQA数据集上得分为67.2%。然而,这项工作及其他之前的工作表明,仍有很大的改进空间,特别是当模型的答案与临床医生的答案进行比较时。在这里,我们介绍了Med-PaLM 2,它通过利用基础LLM改进(PaLM 2)、医学领域微调以及提示策略(包括一种新颖的集成细化方法)来弥合这些差距。Med-PaLM 2在MedQA数据集上的得分高达86.5%,比Med-PaLM提高了超过19%,并创造了新的最先进水平。我们还观察到,在MedMCQA、PubMedQA和MMLU临床主题数据集中,性能接近或超过了最先进水平。我们在多个与临床应用相关的方面对长形式问题进行了详细的人工评估。在对1066个消费者医学问题进行成对比较排名时,医生在与临床效用相关的九个方面中有八个方面更喜欢Med-PaLM 2的答案(p<0.001)。我们还观察到,在240个长形式“对抗性”问题的新数据集上,与Med-PaLM相比,在每个评估方面都有显著的改进(p<0.001),以探索LLM的限制。虽然需要进一步的研究来验证这些模型在实际环境中的功效,但这些结果突显了在医学问题回答方面朝着医生级别的表现快速进展。


论文链接:Towards Expert-Level Medical Question Answering with Large Language Models - AMiner


引言


大型语言模型(LLMs)的进展使得人工智能(AI)系统能够使用语言理解和交流医学领域的能力,承诺更加丰富的人类-AI互动和协作。特别是,这些模型在多项选择研究基准测试中展示了令人印象深刻的能力。

在我们之前的Med-PaLM工作中,我们展示了医学问题回答的全面基准测试、模型答案的人类评估以及医学领域的对齐策略的重要性。我们引入了MultiMedQA,一个广泛覆盖医学考试、消费者健康和医学研究的医学问题回答多样化基准测试。我们提出了一个人类评估规则,使医生和普通人能够对模型答案进行详细评估。我们的初始模型Flan-PaLM是第一个超过MedQA数据集(包括类似于美国医疗执照考试(USMLE)的问题)常见的及格标准的模型。但是,人类评估显示需要进一步的工作,以确保包括对开放性问题的长形式答案在内的AI输出是安全的,并且符合这个安全关键领域中人类的价值观和期望(通常称为“对齐”过程)。为了弥合这个差距,我们利用提示调整来发展Med-PaLM,结果比Flan-PaLM获得了大幅提高的医生评估。但是,与医生相比,模型答案的质量仍然存在关键缺陷。同样,虽然Med-PaLM在MultiMedQA的每个多项选择基准测试上均达到了最先进的水平,但这些得分仍有提升空间。

在这里,我们通过Med-PaLM 2进一步弥合这些差距,并进一步提升LLM在医学领域的能力。我们使用改进的基础LLM(PaLM 2)、医学特定领域调整和一种新颖的提示策略,开发了这个模型,使得它能够进行更好的医学推理。Med-PaLM 2在MedQA上比Med-PaLM提高了超过19%,如图1(左)所示。该模型还接近或超过了MedMCQA、PubMedQA和MMLU临床主题数据集的最先进表现。


2-WGDrWh2Xhz.png

图1


虽然这些基准测试是衡量LLMs中所编码的知识的有用指标,但它们并不能捕捉模型生成事实性、安全的回答以回答需要微妙答案的问题的能力,这在真实世界的医学问题回答中很常见。我们通过应用我们之前发表的医生和普通人评估规则来研究这一点。此外,我们引入了两个额外的人类评估:首先,对消费者医疗问题的模型和医生答案进行成对排名评估,涵盖九个临床相关的方面;其次,医生评估模型响应在两个新引入的对抗测试数据集上的表现,旨在探究LLMs的限制和安全性。

我们的主要贡献可概括如下:

• 我们开发了Med-PaLM 2,一种新的医学LLM,使用新的基础模型(PaLM 2)和医学特定领域调整进行训练。

• 我们引入了集成细化作为一种新的提示策略,以改进LLM推理。

• Med-PaLM 2在多个MultiMedQA基准测试中取得了最先进的结果,包括MedQAUSMLE风格的问题。

• 长形式回答消费者医疗问题的人类评估表明,Med-PaLM 2的答案在与临床效用相关的九个方面中,如事实性、医学推理能力和低伤害可能性等,优于医生和Med-PaLM的答案。例如,72.9%的情况下,Med-PaLM 2的答案被认为能够更好地反映医学共识,而医生的答案则只有27.1%的情况。

• 最后,我们引入了两个对抗性问题数据集,以探究这些模型的安全性和限制。

我们发现,与Med-PaLM相比,Med-PaLM 2在每个方面上的表现都显著提高,进一步强调了全面评估的重要性。例如,在90.6%的情况下,Med-PaLM 2的答案被评为低风险,而Med-PaLM的比例为79.4%。



问题与方法


1.数据集


多项选择题评估数据集: 


3-3qyn4GW1nM.png

图2


长形式问题评估数据集:


4-oC33GlJd24.png

图3


2.建模


对于Med-PaLM的基础LLM,我们使用了PaLM。而Med-PaLM 2则是建立在PaLM 2之上的,这是Google的大型语言模型的一个新版本,在多个LLM基准测试任务上有着显著的性能提升。


我们使用了Chung等人使用的指令微调协议,对基础LLM进行了微调。使用的数据集包括MultiMedQA的训练集,即MedQA、MedMCQA、HealthSearchQA、LiveQA和MedicationQA。我们训练了一个“统一”的模型,使用图4中的数据集混合比例(每个数据集的比例)来优化MultiMedQA中所有数据集的性能。这些混合比例和包含这些特定数据集的选择是经验确定的。除非另有说明,Med-PaLM 2指的是这个统一的模型。为了进行比较,我们还创建了一个Med-PaLM 2变体,仅在多项选择题上进行微调,这导致在这些基准测试上取得了改进的结果。


3.多项选择题评估


5-tWjIIcKKMp.png

图4


指令微调数据混合。不同MultiMedQA数据集用于“统一”Med-PaLM 2模型指令微调的训练示例数量和数据混合中的百分比表示的总结。


4.重叠分析


6-EKFHTEN653.png

图5


Med-PaLM 2的集成细化(ER)示意图。在这种方法中,LLM被调节为生成多个可能的推理路径,以使其能够细化和改进其答案。


5.长形式问题评估


7-hoPeqqOj35.png

图6


Med-PaLM 2结果与GPT-4报告结果的比较。Med-PaLM 2在几个多项选择基准测试上实现了最先进的准确性,并于2023年3月14日首次宣布。GPT-4结果于2023年3月20日发布,GPT-4-base(非生产)结果于2023年4月12日发布。我们包括Flan-PaLM的结果,以便进行比较。ER代表集成细化。最佳结果跨提示策略。


实验结果


本文的实验评估了Med-PaLM 2语言模型在医学问答任务中的表现。研究人员分析了测试集污染对评估结果的潜在影响,并设计了一种方法来识别训练数据和测试问题之间的重叠文本段。


结果显示,从临床效用的角度来看,如事实性、医学推理能力和伤害可能性等方面,Med-PaLM 2的答案优于医生生成的答案。然而,作者指出,评估结果可能不适用于每个医学问答设置和受众。他们还建议需要改进的评估框架来衡量进展,达到医生级别的表现。


作者进一步讨论了使用集成细化来聚合除多项选择题之外的答案,以产生更好的长形式生成的可能性。

文章来源:https://www.aminer.cn/research_report/64704c3f7cb68b460fd9f8a0?download=false

招商电话: 0755-28566888
园区地址: 广东省深圳市龙岗区横岗街道德泉路26号
备案序号: 粤ICP备2023056571号