最近上交、创智和瑞金联合发布的CX-Mind让我眼前一亮——它不再是传统的黑盒输出,而是将胸片诊断拆解为可验证的推理链,每一步都附带影像证据。在70万张影像的评测中,模型在病灶定位、异常描述和鉴别诊断三大能力域表现亮眼,这背后是多模态大模型对影像语义的深度对齐,而非简单的特征匹配。
从个人经验来看,之前部署的胸片AI产品最头疼的就是医生不信任——模型说“有结节”,但无法指出具体位置和依据,临床采纳率极低。CX-Mind的推理链解决了这个痛点,它相当于给诊断加上了“可追溯的脚注”。不过,我在实际测试中发现三个坑:第一,推理链的稳定性受影像质量影
响较大,低剂量或运动伪影下链式推理容易断裂;第二,证据标注的粒度不够精细,有时标出区域却无法区分钙化与软组织;第三,模型在罕见病上的推理链置信度衰减很快,容易生成看似合理但错误的中间步骤。
我好奇的是,这种推理链机制在对抗样本或域偏移场景下,中间步骤的错误累积如何控制?另外,70万张影像的训练集是否覆盖了足够的边缘案例(如内置设备或术后改变)?从行业看,CX-Mind代表了一个趋势:医疗AI正从“答案输出”转向“过程透明”,这或许能推动FDA等监管机构对可解释性提出更明确的要求。未来如果能在推理链中引入不确定度量化,临床落地的门槛会进一步降低。