哈佛研究惊曝:AI急诊诊断准确率碾压两名人类医生!

编者按 当AI开始在急诊室挑战人类医生的判断力,医疗领域的颠覆性变革已悄然来临。一项最新发表在《科学》杂志上的研究揭示,OpenAI的模型在部分诊断场景中甚至比资深内科医生更精准——尤其是在信息最匮乏、决策最紧迫的初诊阶段。这绝非危言耸听,而是哈佛医学院和贝斯以色列女执事医学中心联合团队的真实发现。然而,专家们也警示,AI尚未准备好承担生死攸关的真正责任,缺乏问责框架和临床实践的深度验证。本文将带你深入这场围绕AI与人类医生较量背后的真相,既惊叹于技术的飞跃,又不失对生命尊严的敬畏。
一项新研究探讨了大型语言模型在多种医疗场景下的表现,包括真实的急诊病例——其中至少有一个模型似乎比人类医生更准确。
该研究本周发表在《科学》杂志上,由哈佛医学院和贝斯以色列女执事医学中心的医生和计算机科学家领导的团队完成。研究人员表示,他们进行了多种实验,以衡量OpenAI的模型与人类医生的比较情况。
在其中一个实验中,研究人员聚焦于进入贝斯以色列急诊室的76名患者,比较了两名内科主治医生与OpenAI的o1和4o模型提供的诊断结果。这些诊断由另外两名主治医生评估,他们不知道哪些来自人类,哪些来自AI。
研究指出:“在每个诊断节点上,o1的表现要么名义上优于两位主治医生,要么与它们相当,”并补充说,差异“在第一个诊断节点(初始急诊分诊)尤其明显,此时患者信息最少,且做出正确决策的紧迫性最高。”
在哈佛医学院关于这项研究的新闻稿中,研究人员强调他们“完全没有预处理数据”——AI模型接收到的信息与电子病历中每次诊断时可用信息相同。
有了这些信息,o1模型在67%的分诊案例中成功提供了“精确或非常接近的诊断”,而一位医生的精确或接近诊断率为55%,另一位为50%。
哈佛医学院AI实验室负责人、该研究的主要作者之一Arjun Manrai在新闻稿中表示:“我们几乎对所有基准测试了AI模型,它超越了之前的模型和我们的医生基线。”
需要明确的是,该研究并未声称AI已准备好做出急诊室中的真实生死决定。相反,它指出这些发现表明“迫切需要前瞻性试验来评估这些技术在真实患者护理环境中的表现。”
研究人员还指出,他们只研究了模型在基于文本信息时的表现,而“现有研究表明,当前基础模型在非文本输入上的推理能力更为有限。”
该研究的主要作者之一、贝斯以色列医院的医生Adam Rodman警告《卫报》说,目前“没有关于AI诊断问责的正式框架”,患者仍然“希望人类引导他们做出生死决策,以及引导他们应对具有挑战性的治疗决定。”
在一篇关于该研究的文章中,急诊医生Kristen Panthagani表示,这是“一项有趣的AI研究,但导致了非常夸张的标题”,尤其是因为它将AI诊断与内科医生的诊断进行了比较,而不是急诊医生。
Panthagani说:“如果我们要将AI工具与医生的临床能力进行比较,我们应该从与真正从事该专科的医生比较开始。如果LLM能在神经外科委员会考试中击败皮肤科医生,我不会感到惊讶,但这对实际帮助不大。”
她还辩称:“作为首次接诊患者的急诊医生,我的主要目标不是猜测你的最终诊断。我的主要目标是确定你是否患有可能致命的病症。”
本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/kx/24743.html