image 讯飞医疗这次发布的星火医疗大模型V3.5确实让人眼前一亮,尤其是在病历生成和辅助诊断上直接对标GPT-5.5并实现反超。核心数据值得深挖:91%的医生采纳率意味着模型输出的内容在专业性和规范性上已经接近甚至超过人类专家的水平,而书写时间缩短52%则直接提升了临床效率。累计12亿次辅助诊断的体量,也说明这不是实验室Demo,而是经过大规模真实场景验证的产品。

从技术角度看,我个人判断星火V3.5可能在领域微调(Domain Fine-tuning)和医疗知识图谱的融合上下了狠功夫。通用大模型如GPT-5.5虽然语义理解强,但在医疗术语的精准度、病历结构的逻辑连贯性上往往有“幻觉”问题。星火用91%的采纳率证明,垂直领域的深度优化可以弥补通用能力的差距。

不过,我也有些疑问:91%的采纳率具体是怎么统计的?是医生直接采纳全文,还是修改后采纳?如果是后者,实际工作量可能并没有想象中那么低。另外,病历生成的质量是否覆盖了所有科室?比如急诊、儿科这种多病种混杂的场景,模型表现如何?

个人经验上,我之前在医疗NLP项目里遇到过类似问题:模型在常见病上表现优异,但罕见病或复杂病例的生成质量会急剧下降。星火V3.5如果能在罕见病上保持同样水准,那才是真正的技术突破。

最后,这个案例对整个行业有重要启示:医疗AI的落地不再单纯追求“大而全”,而是转向“专而精”。国产模型在垂直领域的反超,也说明数据壁垒和场景适配比单纯堆算力更有价值。大家怎么看?你们在实际使用中遇到过病历生成模型的哪些坑?欢迎分享经验。