来自清华大学的研究团队提出了一种名为“智能体医院”(Agent Hospital)的模拟医院,它可以模拟治疗疾病的整个过程。其中,所有病人、护士和医生都是由大型语言模型(LLM)驱动的自主智能体。
该研究的核心目标是让医生智能体学会如何在模拟环境中治疗疾病。为此,研究团队提出了一种名为 MedAgent-Zero 的方法。由于仿真系统可以根据知识库和 LLM 模拟疾病的发生和发展,医生智能体可以不断从成功和失败的病例中积累经验。
模拟实验表明,医生智能体在各种任务中的治疗效果都在不断提高。更有趣的是,医生智能体在“智能体医院”中获得的知识适用于现实世界的医疗保健基准。在治疗了约一万名患者后(现实世界中的医生可能需要花费两年多的时间),进化后的医生智能体在涵盖主要呼吸系统疾病的 MedQA 数据集子集上达到了 93.06% 的准确率。
清华团队开发了名为AgentHospital的AI医院小镇模拟系统,完全模拟医患看病全流程。AI医生可自主进化,仅几天可治疗约1万名患者,诊断呼吸疾病准确率高达93.06%。研究采用MedAgent-Zero系统,通过病历库和经验库训练医生智能体,实现高效进化。未来计划扩大疾病范围,加强社会模拟,优化LLM选择。
论文链接:https://arxiv.org/abs/2405.02957
--------
清华大学近日宣布,其首个 AI 医院小镇已经建成并投入使用。该医院小镇采用了最先进的 AI 技术,包括 AI 医生、AI 医疗设备和 AI 医疗管理系统等。
研究人员进行了两类实验,来验证MedAgent-Zero策略改进的医生智能体,在医院中的有效性。
一方面,在虚拟医院内,作者们进行了从100-10000个智能体的交互实验(人类医生一周可能会治疗约100名病人),涵盖了8种不同的呼吸疾病、十几种医疗检查,以及每种疾病的三种不同治疗方案。
通过MedAgent-Zero策略训练的医生智能体,在处理模拟病人的过程中不断自我进化,最终在检查、诊断和治疗任务中的准确率分别达到了88%、95.6%和77.6%。
随着样本的不断扩增,MedAgent-Zero的训练性能,在达到一定量时趋于平稳。
在检查、诊断、治疗三个任务方面上的性能,MedAgent-Zero也随着样本增加,不断波动,但整体准确性呈现出上升趋势。
诊断呼吸疾病,准确率高达93.06%
再看如下三张图,分别展示了不同疾病的检查精度、诊断精确度、以及治疗精度,随着样本的增加,也在平稳攀升。
另一方面,研究者让进化后的医生智能体,参加了对MedQA数据集子集的评估。
令人惊讶的是,即使没有任何手动标注的数据,医生智能体在Agent Hospital中进化后,也实现了最先进的性能。
在经验积累上,图11、图12和图13分别显示了,检查、诊断和治疗任务中,经过验证经验和错误答案的积累。
当训练样本增加时,经验数和错误答案数都缓慢增加。
如图所示,经验曲线低于错误答案曲线,原因是智能体无法反映所有失败的经验。此外,诊断经验比其他任务更容易积累。
一起来看个案例研究。
下表中说明了,经验库、病理库和MedAgent-Zero,在患者诊疗中的三个任务上的性能。
在得知病人症状之后,AI医生不仅需要使用病历库,同时还需要经验库,也就是相辅相成。
若是少了其中的一方,便会导致诊断准确性的下降。
如下,通过添加经验和记录,MedAgent-Zero针对所有3个任务都给出了正确的回答。
以上结果表明,模拟环境可以有效地帮助LLM智能体在处理特定任务时完成进化。
MedAgent-Zero在使用GPT-3.5时,比SOTA方法Medprompt高出 2.78%,在使用GPT-4时比SOTA方法MedAgents高出1.39%。
这一结果验证了新模型有助于,在没有任何MedQA训练样本的情况下,仅使用模拟文档和医疗文档进行智能体进化,从而有效提高医生智能体的医疗能力。
其次,基于GPT-4的MedAgent-Zero的最佳性能为93.06%,优于MedQA数据集中的人类专家(约87%)。
第三,基于GPT-4的医生智能体比基于GPT-3.5的任何其他方法都表现得更出色,这表明GPT-4在医疗领域更强大。
另外,在对MedAgent-Zero进行的消融研究中,
同时利用「病历库」和「经验库」的MedAgent-Zero取得了最佳性能,表明这两个模块对诊断的帮助。
随着病例的积累和经验库的扩大,医生智能体准确率总体上越来越高。
无论是使用GPT-3.5还是 GPT-4,使用8000个病例积累的经验库,其性能都高于使用2000/4000/6000个病例的性能。
不过,经验库越大并不总是越好,因为研究者还发现在2,000-4,000个案例之间有明显的下降。
局限性
最后,研究人员还提到了这项研究的局限性。
- 只采用GPT-3.5作为Agent Hospital和评估的模拟器
- 由于智能体之间的交互及其演化涉及API调用,AI医院的运作效率受到LLM生成的限制
- 每个患者的健康记录和检查结果,是在没有领域知识的情况下,模拟真实的电子健康记录生成的,但仍与现实世界的记录仍存在一些差异。
在未来,研究者们对Agent Hospital的计划将会包括:
第一,扩大规模覆盖的疾病范围,延伸到更多的医疗科室,旨在反映真实医院提供的全面服务,以供进一步研究。
第二,在加强智能体社会模拟方面,比如纳入医疗专业人员的全面晋升制度、随时间改变疾病的分布、纳入病人的历史病历等。
第三,优化基础LLM的选择和实施,旨在通过利用功能强大的开源模型,更高效地执行整个模拟过程。