最近刷到上交、创智和瑞金联合发布的CX-Mind,主打胸片诊断的“可验证推理链”,号称能输出每一步影像证据。作为一线做医学影像AI落地的工程师,我第一反应是:终于有人开始解决黑盒信任问题了。但仔细看了技术细节和708,473张影像的评测数据,有几个点值得深挖。

核心技术点其实是多模态大模型在推理链上的显式化——它不仅给出分类或检测结果,还输出类似“左肺下叶磨玻璃影->密度增加->边界模糊->符合早期肺炎特征”这样的路径。这比传统CNN或ViT直接出概率有意义得多,因为临床医生能回溯证据,而不是被迫接受一个“置信度0.95”的谜之结论。但实测中,推理链的稳定性是最大坑:我在类似任务上试过,模型经常在中间步骤出现“幻觉证据”,比如把血管影误判为结节边缘,导致最终结论正确但推理链错误。CX-Mind虽然号称用瑞金医院数据微调,但跨中心泛化时推理链是否会断裂?评测的三项能力域(检测、分类、推理)是否包含对抗性样本下的鲁棒性测试?

个人经验是,可解释性往往是双刃剑。如果推理链不够健壮,反而会误导医生过度信任误判。我建议团队公开更多失败案例,比如推理链断裂时的典型模式。另外,想讨论两个问题:一是这种“可验证推理”在急诊场景下(30秒出报告)是否会导致推理链被截断?二是行业里如何统一推理链的评估标准?

从行业格局看,CX-Mind标志着AI诊断从“结果导向”转向“过程透明”,这可能是FDA审批和临床采纳的关键转折点。但工程落地时,推理链的存储、传输和可视化成本不可忽视。长远来看,如果能把推理链与DICOM元数据结合,或能催生新的诊断审计生态。