GLM-5.3呼声最高：视觉能力成社区焦点

清华教授、智谱AI灵魂人物唐杰最近在X平台上的动态引发广泛关注。继前一天畅谈“AI的终局就是AGI，一场猎龙游戏”后，他次日公开征集GLM-5.3版本的功能建议，短短时间内浏览量突破40万。这一举动并非首次，去年GLM-4.6开源时，唐杰也曾类似征集意见，社区反馈的需求在后来的版本中陆续实现，因此这次征集被开发者视为一次难得的“定制机会”。评论区迅速被“视觉”需求刷屏。两周前开源的GLM-5.2在编程领域表现惊人，开源界排名全球第二，仅屈居于Fable-5之下，但其纯文本模型的定位成为明显痛点：不具备视觉编码器，无法处理图像或生成视觉内容。而Fable-5作为原生多模态模型，视觉能力一应俱全，这让GLM用户倍感羡慕。事实上，智谱并非缺乏视觉技术，今年4月发布的GLM-5V-Turbo便是原生多模态模型，能看懂设计稿、截图，并直接生成可运行代码。智谱此前还推出过CogVLM视觉编码器，唐杰本人也发表过多篇视觉相关论文。问题在于，视觉能力未被整合到最强旗舰模型中。唐杰此前在年终总结中明确表示，多模态是未来方向，但他同时指出，当前多模态对提升AGI智能上界的帮助有限，更有效的方式可能是将文本、多模态、多模态生成分开发展。这种“第一性原理”导向的思考，与用户对即时视觉功能的迫切需求形成鲜明对比。用户更关心模型能否看懂截图或设计稿，而科学家则聚焦于复杂推理能力的突破。竞品的压力也在加剧，Kimi K2.5今年1月已实现原生多模态，Qwen3.5-Omni三月份将文本、图像、音频、视频统一集成，Gemini 3更是多模态全能选手。GLM旗舰款补足视觉能力，已成为市场环境下的必然选择。GLM-5.3的最终形态尚未确定，但社区呼声已为智谱指明方向。视觉能力的加入不仅能提升用户体验，还能在竞争激烈的多模态赛道中保持地位。对于开发者而言，关注GLM-5.3的进展，或许能提前规划基于多模态的应用场景。唐杰的分享中透露出对AGI终局的执着，但眼下的产品迭代，显然需要在理想与现实间找到平衡。GLM-5.3能否成为那个平衡点，值得期待。

GLM-5.3呼声最高：视觉能力成社区焦点

相关推荐

51天一个新版本，AI巨头开启生死时速

存储三巨头被起诉：内存四年涨700%，苹果也背锅

AI账单暗藏170万超额收费，Anthropic退钱不认账

51天一个新版本，AI巨头开启生死时速

存储三巨头被起诉：内存四年涨700%，苹果也背锅

📖 更多原创