微软开发了一个叫 MAI-DxO 的系统,让AI能像真正医生那样一步一步进行诊断,包括提问、开检查、分析结果,最终判断病因,而不是直接给出答案。

它模拟多个医生一起工作,逐步推理并准确诊断复杂的病例。结合了不同AI模型的优势,协同工作来完成诊断任务。

💡 有什么厉害之处?

  • 更准:它比医生更容易诊断出复杂疑难病,成功率高达85%。
  • 更省钱:它不会随便给你做一大堆没用的检查,它会自己算成本,更省钱也更有效率。
  • 更像医生:不是一次就答,而是“想一想 → 问问题 → 逐步分析”。
  • 联合会诊:它其实是很多AI(像GPT、Claude这些)组合起来工作,像是几个医生一起讨论,非常全面。

微软让这个AI去“挑战”了304个医学杂志里的真实病例,结果它的诊断正确率是 85%,而专业医生平均只有 20%。这个差距非常大!

🔮和医生比,有什么优势?

MAI-DxO 详细功能和特点

五个虚拟医生角色协同诊断(Panel of Virtual Doctors)

MAI-DxO并非单一的AI模型,而是一个协调多个AI模型的系统,模拟了医生之间的协作,形成了一个虚拟的“医生团队”。这个团队有不同的角色,分别承担不同的任务:

每个“医生”角色根据自己的职责,提出建议并进行讨论,最终做出决定。这种方法通过多轮决策来模拟医生如何在有限的信息下不断收集证据、提出新问题、下达检查指令,直到最终确认诊断。

  • 三大决策步骤

    • 提问:AI提出关于患者症状、病史等的相关问题。
    • 开检查:AI根据推理结果要求执行相应的诊断测试(如CT、血液检查等)。
    • 诊断:在累积足够证据后,AI给出诊断结果。

🔧 1. 多模型协同工作(Orchestrator)

  • 多AI模型合作:MAI-DxO 不是一个单一的AI模型,而是一个协调器,它能将多个基础语言模型(如GPT、Claude、Llama等)组合起来工作。
  • 这些AI模型就像不同领域的医生一起“讨论病例”,可以针对不同方面进行推理和决策。

MAI-Dx Orchestrator 可将任何语言模型转变为虚拟临床专家小组:它可以提出后续问题、安排检测或给出诊断,然后进行成本检查并验证自身推理,最后决定是否继续执行。


🧩 2. 逐步推理(Sequential Diagnosis)

  • 逐步诊断:MAI-DxO不单纯依赖一次性的诊断,而是采用“逐步推理”的方式。系统会从初步症状开始,逐步询问更多问题、做更多检查、收集更多信息,然后才做出最终的诊断。
  • 比如:如果病人说有咳嗽和发热,MAI-DxO 会首先考虑是不是感冒,然后要求做血液检查、X光等,逐步确认病因。

💡 3. 成本效益分析(Cost-Efficiency)

  • 成本意识:MAI-DxO能够在诊断过程中,自动评估每个步骤的成本,并且做出更经济的决策。它不会盲目要求做所有检查,而是权衡诊断准确率与成本之间的关系。
  • 这对于减少不必要的医疗开支、避免过度检查非常重要,尤其是在成本压力大的医疗系统中。

🔄 4. 自我审查与验证

  • 自我审查:每当MAI-DxO做出推理或诊断时,它会进行自我验证,检查是否合理并进行调整。这个过程类似医生在做出判断后进行复查,确保没有遗漏重要的信息。

🧑‍⚕️ 5. 模拟医生团队

  • 虚拟医生团队:MAI-DxO不仅仅是一个“单一专家”,它模拟了多个医生(不同专业背景)一起合作解决问题。它的设计像一个虚拟医生小组,各种诊断方法互相补充,形成一个多元化的决策过程。
  • 模型协调性:这种协调机制使得MAI-DxO能够将多个不同的推理模型结合起来,使其在复杂情况下能做出最好的判断。

MAI-DxO的效果和表现

MAI-DxO在一系列严格的评估中展示了非常强的性能,尤其是在复杂诊断任务上,下面是它的具体表现:

1. 在诊断准确性上的表现

  • 85.5% 的准确率:在与304个NEJM(《新英格兰医学杂志》)病例进行比较时,MAI-DxO 与 OpenAI 的 o3 配对,在这些复杂病例上的诊断准确率达到了 85.5%
  • 对比医生的表现:在相同任务上,21位经验丰富的医生(美国和英国的医生,拥有5至20年的临床经验)的平均准确率仅为 20%,远远低于MAI-DxO。
  • 还MAI-DxO 提升了所有模型在这 304 个病例上的表现

2. 在成本效率上的表现

  • MAI-DxO不仅诊断得准确,而且还能做到更低成本。传统的医疗检查中,医生可能会因为担心漏诊而做更多的测试,而MAI-DxO能在确保诊断准确的同时,减少不必要的检查,从而降低了总诊断成本。

3. 较强的 资源管理能力

  • 成本-效益平衡:MAI-DxO具备成本控制功能,能够在保证诊断准确性的基础上,合理控制成本。
  • 它的这种能力非常重要,特别是在资源有限、医疗开销巨大或者需要处理大量病例的环境中。

4. 模型协作效果

  • 多个模型的优势互补:通过不同AI模型之间的协作,MAI-DxO能够在复杂的诊断任务中利用不同模型的强项,提供更加全面和准确的诊断结果。

以上图表通过显示不同AI系统的准确性和成本,帮助我们了解哪些系统(如MAI-DxO)在诊断时既准确又节省成本,远超医生和单一AI模型的表现。


MAI-DxO展示了显著的效果,特别是在:

  • 高精度诊断和成本效益方面,远超传统的人工诊断。
  • 它的多模型协作自我验证能力使其在解决复杂病例时具有明显的优势。

尽管如此,MAI-DxO仍然需要更多的临床验证实际环境测试,尤其是在日常常见疾病的诊断中。它目前还是处于研究阶段,未来需要在安全性和合规性方面通过更多的审查。

MAI-DxO的优势与局限性

1. 优势

  • 准确性与成本的平衡:MAI-DxO能够在不牺牲准确性的情况下,显著降低诊断成本。
  • 模拟医生团队:通过多个虚拟医生角色的合作,避免了个体偏差和过早下结论的错误。
  • 高效的信息提取:通过逐步问诊、测试的方式,系统能高效地挖掘有价值的信息,避免冗余操作。
  • 增强弱模型性能:通过协调多个角色,MAI-DxO帮助较弱的模型提升推理能力,降低误诊率。

2. 局限性

  • 特殊病例优先:目前实验数据来自极具挑战的NEJM病例,并不代表日常的普通病例,因此无法验证MAI-DxO在常见病上的表现。
  • 没有处理患者情感与伦理问题:MAI-DxO主要关注诊断准确性和成本效率,缺乏对患者情感、伦理或沟通方面的处理。
  • 全球差异:成本估算主要基于美国的价格,无法反映全球不同医疗系统的实际费用。

3. 未来展望

  • 适应常见疾病:未来将验证MAI-DxO在常见病上的表现,尤其是在低资源环境下的表现。
  • 集成更多医疗数据:可以考虑集成影像学数据、基因组信息等,进一步提高准确性。
  • 临床实际应用:未来可以与临床环境结合,推广到智能分诊、智能助手等领域。

论文:https://arxiv.org/pdf/2506.22405