


自然杂志论文地址:Large language models encode clinical knowledge | Nature
aixrv.org论文地址:[2305.09617] Towards Expert-Level Medical Question Answering with Large Language Models (arxiv.org)
2023年6月,谷歌CEO桑达尔・皮查伊(Sundar Pichai)向全世界AI开发者发布了谷歌最新的大型语言模型(LLMs)PaLM 2,作为对标OpenAI最新大模型GPT-4的竞品,PaLM 2展现出了强大的多语言和推理能力。除此之外,PaLM 2在其他专家领域上的可扩展能力也不容小觑,Med-PaLM 2就是由谷歌DeepMind的医疗健康团队在PaLM 2的基础上微调得到。可以直接给Med-PaLM 2输入一幅X光片,它会自动根据输入信息来对患者的病情进行分析和诊断。
Med-PaLM 2能够根据用户的输入来检索医学知识,并对其进行推理来回答医学问题,可以达到辅助医生完成日常报表,甚至辅助医生进行诊断的效果。事实证明,LLMs在医学领域的应用前景非常广阔。在Med-PaLM 2的这份长达30多页的技术报告中,作者对Med-PaLM 2训练所使用的数据集、建模方法、提示工程(Prompt Engineering)以及多项实验评估进行了详细的介绍。此外,作者团队还提到Med-PaLM 2是目前第一个在美国医疗执照考试上达到“专家”水平的大语言模型。需要明确的是,Med-PaLM 2是一个二代模型,它的前代模型Med-PaLM曾经就是第一个在MedQA数据集上以67.2%的分数达到SOTA的模型。如今迎来全面升级的Med-PaLM 2在MedQA数据集上的得分达到惊人的86.5%(提升了超过19%),作者认为,这得益于PaLM 2基础大模型的改进、使用医学领域知识进行微调和最新设计的提示工程三方面的因素。
引言
在先前发布Med-PaLM时,DeepMind就一同发布了MedQA数据集,这是一个涵盖医学考试、消费者健康和医学研究的多样化医学问答测试基准,是目前行业内公认的医学大模型评估基准。此外考虑到医学问答的多样性,作者还在此基础上提出了一个人工评估准则,使医生和普通人能够对模型答案进行详细评估。此外MedQA包含了类似于美国医学执照考试(US Medical Licensing Exam,USMLE)中的问题,因此其非常贴合现实的医学评价环境。此次发布的Med-PaLM 2相比前代,在MedQA上的性能提升非常显著,如下图所示。
虽然Med-PaLM 2在MedQA上的测试结果非常可观,但由于医学领域关乎到人的健康,仅通过简单的基准测试难以全面评估模型的生成事实性、回答的安全性。倘若Med-PaLM 2在回答医学问题时也产生了大模型常见的“幻觉(Hallucination)”现象,那带来的后果会更加严重。因此,除了在MedQA上的直观定量对比,研发团队还选取了1066个消费者医疗问题来进行人工评估,如上图右侧所示,在九个与临床效用相关的轴线上(如事实性、医学推理能力和低风险性),黄色条线为Med-PaLM 2的回答得分,蓝色条线为人类医师的回答得分,这些得分均由另外一组医生给出,可以看到,Med—PaLM 2在9个轴线中的8个上都达到了更好的效果。此外,作者还引入了两个对抗性医学问题数据集,来进一步探索这些医学大模型的安全性和局限性。