当前位置: 首页 > 科技观察

AI史上最高分!谷歌大模型创美国行医执照考试题新纪录,科学常识水平堪比人类医生史上AI最高分

时间:2023-03-12 16:26:02 科技观察

谷歌新机型刚刚通过美国行医执照考试题的验证!并且在科学常识、理解、检索和推理能力等任务上,直接匹配人类医生的水平。在一些临床问答表现中,最高表现超过了原来的SOTA模型17%以上。这一进展一出,瞬间在学术界引发热议,不少业内人士感叹:终于来了。在看完Med-PaLM与人类医生的对比后,广大网友纷纷表示已经开始期待AI医生的预约了。有人调侃这个时间点的准确性,恰逢所有人都认为谷歌会因为ChatGPT而“死”的时间。让我们看看这是一个什么样的研究。AI史上最高分由于医疗的专业性,如今AI模型在该领域的应用很大程度上没有充分利用语言。这些模型虽然有用,但存在诸如专注于单任务系统(如分类、回归、分割等)、缺乏表现力和交互性等问题。大模型的突破为AI+医学带来了新的可能,但由于该领域的特殊性,仍需考虑潜在危害,如提供虚假医疗信息等。基于这一背景,GoogleResearch和DeepMind团队以医学问答为研究对象,做出了以下贡献:提出了医学问答基准MultiMedQA,包括医学检查、医学研究和消费者医学问题;在MultiMedQA上评估了PaLM和微调变体Flan-PaLM;提出了指令提示x的调整,使Flan-PaLM更加符合医学,产生了Med-PaLM。他们认为,“回答医学问题”的任务非常具有挑战性,因为要提供高质量的答案,人工智能需要了解医学背景,回忆起适当的医学知识,并对专家信息进行推理。现有的评估基准往往仅限于评估分类准确率或自然语言生成指标,无法在实际临床应用中进行详细分析。首先,该团队提出了一个由七个医学问答数据集组成的基准。包括现有的6个数据集,其中还包括MedQA(USMLE,美国医学执照考试题),还引入了他们自己的新数据集HealthSearchQA,其中包含搜索到的健康问题。这些包括有关体检、医学研究和消费者医学的问题。接下来,该团队使用MultiMedQA评估了PaLM(5400亿个参数)和Flan-PaLM,这是一种指令经过微调的变体。例如,通过扩展任务的数量、模型的大小以及使用思维链数据的策略。FLAN是GoogleResearch去年提出的微调语言网络。它对模型进行微调,使其更适合一般的NLP任务,并使用指令调整来训练模型。结果发现,Flan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU等多个基准测试中实现了最先进的性能。特别是,MedQA(USMLE)数据集优于之前的SOTA模型17%以上。在这项研究中,考虑了具有不同大小的PaLM和Flan-PaLM模型的三个变体:80亿个参数、620亿个参数和5400亿个参数。但是,Flan-PaLM仍然存在一定的局限性,在处理消费者医疗问题上表现不佳。为了解决这个问题,让Flan-PaLM更适应医学领域,他们调整了指令提示,产生了Med-PaLM模型。△例:新生儿黄疸多久会消失?该团队首先从MultiMedQA自由反应数据集(HealthSearchQA、MedicationQA、LiveQA)中随机抽取了一些示例。然后要求5名临床医生组成的团队提供模范答案。这些临床医生位于美国和英国,在初级保健、外科、内科和儿科方面拥有专业经验。最后在HealthSearchQA、MedicationQA和LiveQA中留下40个例子用于指令提示调优训练。多项任务接近人类医生水平为了验证Med-PaLM的最终效果,研究人员从上述MultiMedQA中提取了140个消费者医疗问题。其中,100个来自HealthSearchQA数据集,20个来自LiveQA数据集,20个来自MedicationQA数据集。值得一提的是,这还不包括原本用来调整命令提示符生成Med-PaLM的问题。他们分别让Flan-PaLM和Med-PaLM生成这140个问题的答案,并邀请了一组专业的临床医生来回答。以下图为例。当被问及“耳痛严重是什么意思”时,Med-PaLM不仅会列出患者可能感染的疾病,还会建议如果有以下症状,就应该去看医生。耳痛可能是多种潜在疾病的征兆,包括:中耳感染(中耳炎)、外耳感染(中耳炎)、耳垢嵌塞。它也可能是更严重疾病的征兆,例如脑肿瘤或中风。如果您有持续超过几天的严重耳痛,或伴有耳痛的其他症状,例如头晕、发烧或面部无力或麻木,您应该去看医生进行评估。医生可以确定疼痛的原因并提供适当的治疗。就这样,研究人员将三组答案匿名化,交给了来自美国、英国和印度的九名临床医生进行评估。结果表明,在科学常识方面,Med-PaLM和人类医生的正确率达到了92%以上,而Flan-PaLM对应的数字为61.9%。在理解、检索和推理能力方面,总体来说,Med-PaLM几乎达到了人类医生的水平,两者相差无几,而Flan-PaLM也表现垫底。在答案的完整性上,虽然Flan-PaLM的答案被认为遗漏了47.2%的重要信息,但Med-PaLM的答案有了明显的提升,只有15.1%的答案被认为遗漏了信息,进一步缩小了范围与人类医生距离的关系。然而,虽然缺失的信息较少,但较长的答案也意味着引入错误内容的风险增加,Med-PaLM的答案中有18.7%是错误的,是三者中最高的。考虑到答案可能的危害性,29.7%的Flan-PaLM反应被认为具有潜在危害性;对于Med-PaLM,这个数字下降到5.9%,而人类医生的相对最低值为5.7%。此外,Med-PaLM在医学人口统计偏差方面的表现优于人类医生,Med-PaLM的答案中只有0.8%存在偏差,而人类医生的偏差为1.4%,Flan-PaLM为7.9%。最后,研究人员还邀请了五位非专业用户来评估三组答案的实用性。只有60.6%的Flan-PaLM答案被发现有帮助,这个数字在Med-PaLM中增加到80.3%,最高的是人类医生的91.1%。综合以上所有评价,可以看出指令提示的调整对性能提升效果显着。在140个消费者医疗问题中,Med-PaLM的表现几乎赶上了人类医生的水平。这篇论文背后的团队来自谷歌和DeepMind。GoogleHealth在去年被曝大规模裁员重组后,可以说是在医疗领域大举发力。就连GoogleAI的负责人JeffDean也出来站台,表示强烈推荐!也有业内人士看完后称赞:临床知识是一个复杂的领域,往往没有明显的正确答案,还需要与患者对话。此次GoogleDeepMind的新模式堪称LLM的完美应用。值得一提的是前段时间刚刚通过USMLE的另一支队伍。往前算,今年PubMedGPT、DRAGON、Meta的Galactica等一波大模型涌现,屡屡刷新专业考试记录。医疗AI如此红火,很难想象去年的噩耗。那时,谷歌与医疗AI相关的创新业务一直没有做。去年6月,曾被美国媒体BI曝出陷入危机,不得不大规模裁员重组。而在2018年11月,GoogleHealth刚成立时,更是风光无限。不仅仅是谷歌。其他知名科技公司的医疗AI业务也经历了重组和收购。看完谷歌DeepMind这次发布的医疗模型,你看好医疗AI的发展吗?论文地址:https://arxiv.org/abs/2212.13138参考链接:https://twitter.com/vivnat/status/1607609299894947841