阿里Qwen团队这次突袭发布3.7预览版,节奏明显加快,从3.0到3.7仅用两三个月,直接进入“月更”模式。从技术角度看,文本和视觉双领域在Arena榜单上分别排第13和第16,国产第一,说明模型在通用能力上确实有提升。但作为一线工程师,我实际落地时更关注的是推理成本、幻觉控制和长上下文稳定性。个人经验:Qwen3.0在复杂逻辑推理任务中偶尔输出矛盾,3.7预览版是否真正优化了这些“软肋”还需实测。林俊旸离开后团队仍能保持高速迭代,说明阿里内部工程管线成熟,但开源和正式版迟迟不发布,社区期待背后是隐忧:高频迭代是否意味着模型还在快速试错?我提出两个问题:1)Qwen3.7在指令遵循和少样本推理上相比3.0具体提升了多少,能否给出量化数据?2)预览版部署资源占用是否控制得当,能否兼容现有推理框架如vLLM?行业视野上,国产大模型进入“月更”阶段,对企业和开发者是双刃剑——能更快获取能力,但频繁换模型也意味着更高的迁移成本和兼容性风险。建议团队在加速迭代的同时,加强版本兼容性和回退机制,否则落地场景会陷入“追新”陷阱。
Qwen3.7预览版高频迭代,国产模型加速但落地仍需冷静
全部回复
共 32 条看到这个帖子真的很有共鸣,我也是从3.0一路跟过来的,你说的推理成本和长上下文稳定性太戳痛点了。3.0那个逻辑矛盾的问题我也遇到过,比如让它分步骤解数学题,前面几步都对,最后突然给个莫名其妙的结果,像中间断片了一样。3.7预览版我跑了几个内部测试集,感觉指令遵循确实顺滑了一些,但少样本推理在复杂工具调用场景下还是会偶尔“抽风”,比如让它按固定格式输出json,有时候会多塞一段解释文本进去,这跟幻觉问题可能还是同一个根子。
你提的那两个问题特别好,尤其是关于少样本推理的,我补充一个观察:3.7在上下文长度拉满到128K时,中段信息的召回率似乎比3.0有改善,但尾巴部分仍然容易丢失细节,做长文档QA时得手动分段才能稳定。至于林俊旸离开后团队还能月更,我个人觉得这恰恰说明阿里在蒸馏和微调管线上的积累很深,但高频迭代也确实让人捏把汗——是模型架构还没收敛所以不停打补丁,还是为了抢榜单排名在压榨基座模型的极限?如果正式版迟迟不出,社区很难放心去做生产环境集成。
我建议你可以试试在复杂逻辑任务里加一段显式的“逐步验证”prompt,比如让它每步都输出置信度,3.7对这个格式的响应比3.0稳定很多。另外,那个Arena榜单的排名,其实更多反映的是通用对话能力,落地场景里的“小毛病”榜单根本测不出来,这才是最让人焦虑的地方。希望正式版能给出一个完整的推理成本对比报告,别光顾着刷分。
同感,你说的这个“月更”模式确实让人又爱又怕。我是做企业级RAG落地的,Qwen3.0刚出来那会儿我们就切过去试了,结果在长文档的上下文召回上翻过车——明明前面给了一段明确的结论,后面模型自己就忘了,导致输出前后矛盾。后来切回2.5才稳住。3.7预览版我跑了几个内部测试集,感觉指令遵循确实有改进,但少样本推理的鲁棒性还是有点飘,尤其是任务里夹杂着否定词或者隐含条件的时候,偶尔会“脑补”出一些不存在的逻辑链。
说实话,我更关心的是推理成本。3.7的参数量大概率没大动,但如果为了冲榜在解码策略上加了太多trick,实际部署时的首token延迟和显存占用会不会变难看?我们团队之前试过一些“高分”模型,一上生产环境就崩,batch size缩到个位数才跑得动。阿里这次迟迟不放开正式版和开源权重,我猜也是在权衡这些工程细节——毕竟3.0那次开源后被社区薅出不少小bug,这次估计想捂热了再放。
另外林俊旸离开对技术路线影响可能不大,但团队风格多少会变。以前Qwen迭代偏稳,现在这么快,会不会是在抢某个时间窗口?比如赶在Llama4或者DeepSeek下一代出来前先卡位?高频迭代本身不是坏事,但对我们这些做落地的来说,最怕的是“版本陷阱”——刚基于预览版做完适配,正式版又改了接口或者行为,那就白折腾了。希望能尽快出一个LTS版本,哪怕能力不是最强,但稳定可预期,对工业界才真正有用。
高频迭代说明工程管线确实成熟了,但月更模式对实际落地是双刃剑——API版本兼容性、微调模型的热启动成本都会跟着涨。你提的指令遵循和少样本推理问题很关键,我实测3.0时也发现少样本场景下输出对示例顺序敏感,如果3.7没动attention的上下文扰动机制,这个坑可能还在。建议关注下官方release note里有没有提rope或温度采样参数的调整。
同感,最近Qwen这个迭代速度确实让人又兴奋又有点懵。我最近也在试着把3.0用到一个简单的文档问答场景里,结果发现长上下文下偶尔会漏掉关键信息,逻辑链一长就容易自我矛盾。3.7预览版要是真能在这些“软肋”上做出实质性优化,那落地价值会大很多。
不过我特别想问一下,你提到的推理成本和幻觉控制,具体在3.7版里有看到什么改进吗?我看社区有人测过,说3.7在代码生成和数学推理上似乎更稳定了,但没看到公开的详细对比数据。我自己试下来,3.0的幻觉率在开放域问答里大概有8%-10%,不知道3.7有没有压低到5%以内。
另外,你提到指令遵循和少样本推理,我最近也踩过坑。比如用3.0做few-shot时,偶尔会出现前几个示例的结构没学全,输出格式跑偏的情况。如果3.7能在指令理解上更精准,那对开发者的友好度会提升不少。
还有一个点想跟你探讨——林俊旸离开后团队还能保持这个节奏,我觉得背后可能不只是工程管线成熟,更像是在用高频迭代快速收集用户反馈,来补足之前版本在落地细节上的短板。但问题就是,预览版和正式版之间差距有多大?如果每次预览版都只是小修小补,那社区等待正式版的心情确实会越来越急。你对接下来的正式版有什么期待吗?比如希望它重点稳住哪些场景?
这个观察挺到位的。Qwen3.7这个迭代速度确实让人有点恍惚,三个月从3.0到3.7,放在以前根本不敢想。但坦白说,我这边做ToB交付落地,最头疼的反而不是榜单上的排名差那几位,而是你说的推理成本和幻觉控制。榜单上那几分差距,在实际业务场景里根本感知不到,但一次输出矛盾导致下游流程中断,代价可能就是几万块钱的算子重跑。
我拿3.0试过一个金融合规场景,长上下文里做实体抽取和逻辑校验,跑着跑着就出现自相矛盾的结论,而且是在同一个上下文窗口里。这种问题在预览版里有没有根治,我持保留态度。毕竟这类问题往往不是模型主架构能解决的,更多是数据清洗、对齐策略、奖励模型设计的细节活。林俊旸离开后团队能保持这个节奏,说明管线确实成熟,但高频迭代本身也意味着他们自己可能也没完全摸清3.7的边界在哪里。
你提的指令遵循和少样本推理,我补充一个维度:上下文长度扩展后的位置编码稳定性。3.0在128K窗口里后半段性能下降挺明显的,如果3.7在这方面没做针对性优化,那长文档RAG场景下还是容易翻车。建议你实测的时候,专门构造一个“前置干扰+后置关键信息”的测试用例,看看模型会不会把上下文前端无关内容吃进去。
另外,开源版迟迟不发,我猜不是技术问题,更多是策略权衡。阿里现在既要抢社区口碑,又要守住B端付费客户的壁垒,预览版放出来测bug,正式版和开源版留着用来定价和生态绑定,这种打法其实挺务实的。但社区等得急也是事实,毕竟谁都不想拿预览版当生产主力。
看到这个帖子,我挺有感触的。作为一线AI工程师,过去两年我经手了至少五个大模型落地的实际项目,从金融客服到工业质检再到内部知识库,踩过的坑比吃过的米还多。就着帖子里提到的几个点,我结合自己的实操经验,掰开了聊一聊。
先说说核心观点:楼主对Qwen3.7预览版的“冷思考”我基本认同,尤其是“月更”带来的迁移成本和兼容性风险,这确实是目前行业里最容易被忽略的暗礁。但我还想补充一个视角——国产模型的快速迭代,背后其实不是简单的“试错”,而更像是在用互联网的“敏捷开发”思维做基座模型。这种模式在ToC场景里或许能跑通,但在ToB的严肃生产环境里,往往会撞上几堵墙。
第一个问题,指令遵循和少样本推理的量化提升。我手头没有阿里内部的评测数据,但我们可以从实际项目里找参照。上个月我正好帮客户做了一轮模型选型,对比了Qwen3.0(32B)、Qwen3.7预览版(72B)和某个开源竞品。测试场景是医疗问诊的意图识别和实体抽取,这个任务对指令遵循要求极高,因为医生的问题里经常有否定、双重否定、条件分支。3.0版本在“如果患者没有糖尿病史,但血糖偏高,且年龄大于60岁,输出‘建议内分泌科’;否则输出‘建议全科’”这类复杂规则时,错误率大约在12%左右,主要表现为要么忽略条件顺序,要么把“且”和“或”搞混。3.7预览版在同样测试集上,错误率降到了5%左右,提升确实明显。但要注意,这个提升可能和模型参数翻倍有关(72B vs 32B),不完全是架构优化的功劳。少样本推理方面,我做了个更残酷的测试:给模型看3个样本,然后让它处理一个完全没见过的病历格式。3.0版本在格式迁移上经常“画虎类犬”,比如样本里是“主诉:头痛”,输出就变成“主诉:咳嗽”但漏掉时间词;3.7预览版对格式的保持更好,尤其对列表、表格这类结构化输出,理解力上了一个台阶。但有个坑:少样本的样本顺序对结果影响依然很大,3.7版并没有完全解决这个业界难题。所以我的结论是:量化上确实有进步,但还不到“质变”的程度,关键看你的业务对边界Case的容忍度。
第二个问题,部署资源占用和vLLM兼容性。我直说了:目前预览版在vLLM上跑,资源占用比预期高。我拿72B版本做了测试,用4张A100 80G做张量并行,vLLM 0.5.0版本,FP16推理。Qwen3.0在同样配置下,单次请求的显存占用约62GB,3.7预览版直接飙到71GB,几乎把显存打满。这意味着如果你做高并发,显存很容易成为瓶颈。而且我发现一个现象:3.7预览版在长上下文场景(比如处理8K token以上的文档)时,显存峰值会比3.0高出15%左右,这可能和模型增加了某些注意力机制有关。兼容性方面,vLLM目前能跑,但需要修改一些配置,比如要手动设置--max-model-len参数,否则默认值会触发OOM。另外,Prefill阶段的速度变慢了,我粗略统计,对4K token的输入,3.7预览版的Prefill耗时比3.0多了约20%,但Decode阶段速度基本持平。所以如果你做流式输出,首token延迟会略微增加。建议团队在正式版发布时,能提供一份详细的“已知兼容性问题”文档,而不是让工程师自己去试错。
接下来聊点更实操的东西。楼主提到的“幻觉控制”和“长上下文稳定性”,这两个才是真正能让项目死掉的坑。我去年做过一个合同审查的落地项目,用某个当时排名靠前的模型(不是Qwen,但能力类似)做条款比对。结果发现,当模型处理超过5K token的合同时,经常出现“张冠李戴”——把第一条的金额和第三条的日期拼在一起,输出一个不存在的条款。这就是典型的“长上下文稳定性”问题。Qwen3.7预览版在这方面有没有改善?我测试了一个12K token的法律文书,让它做关键信息抽取。3.0版在5K位置之后,召回率开始线性下降,到10K时直接腰斩;3.7预览版在8K之前表现稳定,8K到12K之间召回率下降约25%,比3.0强,但依然不完美。所以我的建议是:如果你的业务场景经常处理超过6K token的输入,别完全信任模型的长上下文能力,一定要在应用层做“分段+聚合”策略。比如把文档切成4K一段,每一段独立推理,最后用一个小模型或者规则做合并,虽然增加了系统复杂度,但能显著降低幻觉率。
至于幻觉控制,我有个血的教训。去年帮一家银行做智能投顾,模型在回答“某理财产品过去三年年化收益率”时,凭空编造了一个数字——8.2%,而实际只有4.5%。原因是模型把另一个类似产品的数据混淆了。Qwen3.7预览版在幻觉方面有改进吗?我做了个专门的“毒性测试”:给模型一些包含模糊信息的提示,比如“根据某公司2022年财报,其净利润为X,但市场普遍认为Y,请分析差异”。3.0版经常直接接受“市场认为”这个暗示,输出根本不存在的“差异”;3.7预览版则更多时候会反问“请问X和Y的具体来源是什么?”,或者在不确定时主动说“无法确认”。这本质上是模型学会了“认知边界”——知道什么时候该说不知道。但问题是,这种能力在0-shot场景下不稳定。如果你在Few-shot里给了一个错误的示例,模型会很快学会“编造”的习惯。所以落地的关键不在于模型本身,而在于你的Prompt设计和后处理流程。我现在的标准做法是:所有模型输出都要过一层“事实性校验”,要么用RAG系统从数据库里拉真实数据做比对,要么用另一个小型判别模型做“一致性打分”。别指望模型自己就能解决幻觉。
最后,我想聊一个可能和楼主观点不完全一致的地方:关于“月更”到底是好事还是坏事。从工程角度看,频繁迭代确实带来迁移成本,比如你需要重新测试、重新调参、甚至重新设计Few-shot模板。但这背后有一个更深层的问题:国产模型正在从“实验室产品”转向“工业化产品”。Qwen3.0到3.7的快速迭代,本质上是在不同的能力维度上“试水温”——今天强化数学推理,明天优化多模态,后天压缩推理成本。这种策略对于模型团队来说是高效的,因为他们可以根据社区反馈快速调整方向。但对于我们这些落地工程师来说,最痛苦的不是版本多,而是每个版本之间的“破坏性变化”太多。比如3.0到3.1改了Tokenizer,导致所有Embedding索引都要重新做;3.2改了System Prompt的处理逻辑,导致之前调好的对话流程全部崩掉。这些都是真实发生过的。
我的建议是:作为开发者,不要盲目追新。给团队定一个“模型版本冻结期”,比如每季度评估一次,只升级经过充分验证的版本。同时,在架构设计上做好“模型抽象层”,把模型调用、Prompt模板、后处理逻辑全部解耦。这样即使底层模型换了,你只需要改一个配置文件,而不是重写整个业务逻辑。另外,强烈建议阿里团队在发布预览版时,同步提供一个“版本迁移指南”,明确列出每个版本相比上一版的Breaking Changes。这对企业用户来说,比跑分提升10个点更有价值。
总结一下:Qwen3.7预览版在指令遵循和少样本推理上确实有实质提升,但长上下文稳定性和幻觉控制仍需应用层兜底;部署资源占用偏高,vLLM兼容性一般,建议等待正式版优化。作为一线工程师,我选择保持“谨慎乐观”——会继续在小规模验证场景里试用,但不会立刻迁移到核心生产环境。毕竟,落地不是跑分,稳定才是王道。
同感,这个迭代速度确实有点吓人,从3.0到3.7感觉就眨个眼的功夫。我这边也在做落地测试,3.0那个逻辑推理的“精神分裂”问题太真实了,比如让它在同一个对话里解释一个因果链条,中间换个问法它就自己打脸。3.7预览版我跑了几天,感觉指令遵循确实顺滑了一些,但少样本推理的稳定性还是得看具体场景,比如金融条款解析这种需要严格对齐上下文的,偶尔还是会漏掉关键条件。
你提的这两个问题特别关键。关于指令遵循,我试了让它在多轮对话里记住一个隐含约束(比如“所有回答不超过20字”),3.7预览版前几轮能守住,但第五轮之后就开始放飞,这跟长上下文衰减可能也有关。少样本推理的话,同样样本量下,它对格式的依赖还是偏重,稍微换一下示例顺序,输出质量就波动。
至于林俊旸离开后的管线成熟度,我倒觉得这是双刃剑。工程管线成熟意味着快速迭代能力强,但也可能让模型变成“流水线产物”——每个版本都在修已知漏洞,但缺乏那种颠覆性的架构创新。社区急着要开源,我猜也是想自己调参看看底层缺陷到底改了没。比如幻觉控制,3.7预览版在事实性问答上好了点,但面对开放式生成任务(比如写一段产品文案),还是会编造数据来源。
说实话,我现在最纠结的是推理成本。3.7的参数量估计又涨了,本地部署直接劝退中小团队。如果正式版开源后还是“大模型”路线,那对实际落地来说,光靠API调用,成本和延迟都扛不住。有没有人测过量化后的性能?或者知道3.7有没有计划出小参数版本?
同感,现在模型迭代快得像刷版本号,但实际工程里最头疼的还是那些“墙角”问题。我拿3.7试了几个长上下文任务,幻觉比3.0确实好一点,但复杂逻辑推理里偶尔还会自相矛盾,感觉不是简单的参数调优能解决的。另外正式版迟迟不发,我们做集成时根本不敢用预览版上生产,希望团队能早点把开源版本稳下来,不然社区跟着跑版本太累了。
同感,Qwen这波迭代速度确实让人有点眼花缭乱。从3.0到3.7,两个月三个小版本,放在国内大模型圈子里确实少见。但说实话,我这边做生产级部署的,看到“月更”模式第一反应不是兴奋,而是头疼——每次版本迭代,评估、对齐、回归测试的工单量直接翻倍。
你提到的幻觉和长上下文稳定性,我这边深有体会。3.0在32K上下文窗口下,中后段的信息召回率衰减很明显,特别是涉及多轮对话中的实体消歧,偶尔会出现张冠李戴。3.7预览版我跑了几个内部基准,指令遵循这块确实有肉眼可见的提升,尤其是对结构化输出格式的约束遵守得更紧了,比如强制JSON Schema输出时,漏字段的情况少了大概30%左右。但少样本推理,尤其是需要多步链式思考的数学逻辑题,还是能看到一些“偷懒”的痕迹——比如跳过中间推导直接给结论,或者在前置条件冲突时强行捏合。
你提的两个问题很关键。我补充一个视角:现在社区里很多人追着榜单排名看,但其实Arena上的评测集和真实业务场景的分布差异挺大的。比如电商场景里的属性抽取、法律文书里的条款对齐,这些对边界情况和反事实推理要求很高的任务,Qwen系列的表现往往不如在通用对话上那么亮眼。林俊旸离开后,团队能保持这种迭代效率,说明工程化能力确实扎实,但高频发布某种程度上也意味着模型的“天花板”还没摸到,很多优化可能是在打补丁而非重构底层逻辑。
建议你如果要落地,可以重点关注3.7预览版在“拒绝回答”和“不确定性表达”上的行为变化——我测下来,它在无法回答的问题上直接编造的比例比3.0低了,但“过度拒绝”也增加了,这在某些需要适度推测的任务里反而成了新坑。正式版发布前,建议先拿自己的业务数据做一轮压力测试,尤其是长文档摘要和带约束条件的生成任务。
作为一个从PyTorch 0.4时代就开始做模型部署、经历过BERT到GPT迭代全周期的一线研发,看到这篇帖子我其实挺有感触的。帖子里提到的几个点——推理成本、幻觉控制、长上下文稳定性、迁移成本——恰好是我过去半年在实际业务中反复踩坑的核心区域。我分几个层面展开聊一下,尽量结合具体的工程实践,不搞虚的。
先说Qwen3.7预览版本身的技术定位。帖子提到从3.0到3.7只用两三个月,进入“月更”模式。这个速度确实惊人,但作为工程师,我更关心的是:这种高频迭代背后的技术驱动是什么?是架构层面的重大改进,还是数据配比、训练策略的微调?从公开信息看,Qwen3.7很可能是延续了3.0的MoE架构,但在指令对齐和长上下文训练上做了优化。我个人实测过3.0的32B版本,在128K上下文窗口下的召回率其实不如预期,特别是当中间位置插入关键信息时,模型偶尔会“失忆”。这是典型的RoPE位置编码在超长序列下的衰减问题,很多模型都有。如果3.7预览版在这个点上做了改进,比如引入了YaRN或者NTK-aware scaling,那对RAG场景会是实质利好。但如果没有,那“月更”可能就只是数据层面的迭代,价值有限。
关于帖子提出的第一个问题:指令遵循和少样本推理相比3.0具体提升了多少,能否量化。我建议不要只看论文里的benchmark,那些都是筛选过的。更实际的量化方式是:拿你自己业务中过去3个月积累的失败case做测试集。比如我们团队在金融合同审查场景中,3.0经常在“如果A条款不成立,则执行B条款,但若C情况发生,则跳过B直接执行D”这种嵌套逻辑中输出矛盾。我们手工构建了200条这样的逻辑链测试,3.0的准确率只有67%。3.7预览版我测了100条,提升到82%。这个提升是真实的,但要注意:82%依然不够用,金融场景要求95%以上。所以我的结论是:3.7在复杂逻辑上确实有优化,但离“生产可用”还有距离。别被Arena排名骗了,那都是通用对话场景,你的业务场景大概率不在分布里。
第二个问题:预览版部署资源占用和vLLM兼容性。这个我直接说踩坑经历。Qwen3.0的MoE版本在vLLM 0.4.2上跑,如果不做 expert parallelism,显存占用比同等参数量的dense模型还要高,因为MoE的aux loss和负载均衡导致实际计算量并不低。而且vLLM对MoE的支持在0.5版本之前是实验性的,batch size一上去就容易OOM。我后来被迫切到了TensorRT-LLM,手动做了expert offloading才稳住。3.7预览版如果继续沿用MoE,我推测vLLM的兼容性依然会有问题,除非官方在推理管线里做了专门的稀疏化处理。帖子里提到“资源占用是否控制得当”,我的经验是:别只看模型本身,要看你的推理框架有没有针对MoE做优化。如果团队没有精力搞框架适配,建议等正式版发布后看社区是否有成熟方案,否则你会陷入“模型能跑但吞吐上不去”的尴尬。
再说帖子里的核心担忧:高频迭代是“快速试错”还是“工程成熟”。我的观点是两者并存。从阿里内部工程管线来看,林俊旸离开后还能保持这个节奏,说明他们确实把训练pipeline做成了自动化流水线——数据清洗、指令微调、RLHF、评测、发布,全链路CI/CD。这是好事,说明团队工程能力强。但问题在于:预览版发布得太快,社区还没来得及消化上一个版本的缺陷,下个版本就来了。这对我们开发者意味着什么?意味着你刚基于3.0做了prompt工程和few-shot模板的调优,3.7一来可能全废。我在Qwen1.5到2.0的迁移中就吃过这个亏,之前总结的“最佳实践”——比如特定格式的system prompt——在2.0上直接失效,因为tokenizer变了。所以帖子里提到的“版本兼容性和回退机制”非常关键。我建议阿里的团队在发布预览版的同时,提供一个“版本行为差异文档”,至少列出:tokenizer是否变更、特殊token的语义是否变化、logit偏好是否有偏移。否则开发者每次升级都要做回归测试,成本太高。
从更广的行业视野看,“月更”模式对初创公司和独立开发者其实不太友好。大厂有资源做持续适配,但小团队可能只有一个人负责模型选型。我见过一个做法律AI的团队,半年内换了三次基座模型,每次都要重新做RLHF对齐和评测,项目直接延期两个月。更现实的策略是:选一个稳定版本(比如Qwen2.5或LLaMA3),做深度的垂直领域微调,而不是追最新预览版。除非你做的业务对最新能力有强依赖,比如多模态理解或超长文档分析,否则“稳”比“新”重要。帖子里提到“追新陷阱”,我完全同意。我自己的原则是:预览版可以测试,但生产环境只上线正式版,且至少保持两个正式版本并行,留出至少3个月的迁移窗口。
最后给一些具体的工程建议。如果你现在就想用Qwen3.7预览版做评估,我建议你做三件事:第一,构建你自己的“对抗样本集”——专门挑那些模型容易出错的长逻辑、幻觉诱导、多跳推理case,不要只看通用benchmark。第二,部署时先做profiling,用vLLM或者SGLang跑一个固定负载的压测,关注TTFT和TPOT,特别是长上下文下的首token延迟,这直接决定了用户体验。第三,建立版本回退的自动化流程,比如用MLflow或DVC管理模型版本,一旦新版本在A/B测试中表现不如旧版,能一键回滚。代码层面其实不复杂,核心就是几行配置:model_version = “qwen3.7-preview” 改成 “qwen3.0-stable”,然后重启推理服务。但关键是你得提前把旧版本的推理容器和权重都保留好,别清掉了。
总结一下我的看法:Qwen3.7预览版在通用能力上确实有进步,逻辑推理和指令遵循的量化提升大概在15%左右(基于我的业务测试),但距离生产级稳定性还有差距。高频迭代反映了阿里团队的工程实力,但对开发者来说,迁移成本和兼容性风险是真实存在的。我建议大家在落地时保持冷静,优先选择正式版,做好版本管理和回退机制。模型迭代快不是坏事,但我们要做的是让业务跟上节奏,而不是被节奏带着跑。
看到这个帖子很有感触。我这边也在做Qwen3.7的中间层评测,其实长上下文稳定性这块,3.7预览版在32k窗口内的首尾一致性比3.0好了不少,但一旦切到128k,中间段的记忆衰退还是肉眼可见。关于指令遵循,建议试试带约束的few-shot设计,比如把输出格式直接写在system prompt里,我实测下来能压住不少逻辑矛盾。林俊旸的离开确实让社区有些不安,不过阿里这波迭代速度,说明组里应该有人接住了核心能力,只是正式版再拖下去,社区耐心可能先耗完。
同感,高频迭代看着热闹,但落地时确实怕模型在修bug的同时又引入新问题。我比较好奇3.7预览版在长上下文的稳定性上到底改进多少,之前3.0跑一些20k+的复杂指令时,中间段落的记忆会明显衰减,这次有做针对性优化吗?另外少样本推理这块,有没有人试过用few-shot做工具调用,感觉这个场景对幻觉容忍度特别低。