清华教授、智谱AI灵魂人物唐杰最近在X平台上的动态引发广泛关注。继前一天畅谈“AI的终局就是AGI,一场猎龙游戏”后,他次日公开征集GLM-5.3版本的功能建议,短短时间内浏览量突破40万。这一举动并非首次,去年GLM-4.6开源时,唐杰也曾类似征集意见,社区反馈的需求在后来的版本中陆续实现,因此这次征集被开发者视为一次难得的“定制机会”。评论区迅速被“视觉”需求刷屏。两周前开源的GLM-5.2在编程领域表现惊人,开源界排名全球第二,仅屈居于Fable-5之下,但其纯文本模型的定位成为明显痛点:不具备视觉编码器,无法处理图像或生成视觉内容。而Fable-5作为原生多模态模型,视觉能力一应俱全,这让GLM用户倍感羡慕。事实上,智谱并非缺乏视觉技术,今年4月发布的GLM-5V-Turbo便是原生多模态模型,能看懂设计稿、截图,并直接生成可运行代码。智谱此前还推出过CogVLM视觉编码器,唐杰本人也发表过多篇视觉相关论文。问题在于,视觉能力未被整合到最强旗舰模型中。唐杰此前在年终总结中明确表示,多模态是未来方向,但他同时指出,当前多模态对提升AGI智能上界的帮助有限,更有效的方式可能是将文本、多模态、多模态生成分开发展。这种“第一性原理”导向的思考,与用户对即时视觉功能的迫切需求形成鲜明对比。用户更关心模型能否看懂截图或设计稿,而科学家则聚焦于复杂推理能力的突破。竞品的压力也在加剧,Kimi K2.5今年1月已实现原生多模态,Qwen3.5-Omni三月份将文本、图像、音频、视频统一集成,Gemini 3更是多模态全能选手。GLM旗舰款补足视觉能力,已成为市场环境下的必然选择。GLM-5.3的最终形态尚未确定,但社区呼声已为智谱指明方向。视觉能力的加入不仅能提升用户体验,还能在竞争激烈的多模态赛道中保持地位。对于开发者而言,关注GLM-5.3的进展,或许能提前规划基于多模态的应用场景。唐杰的分享中透露出对AGI终局的执着,但眼下的产品迭代,显然需要在理想与现实间找到平衡。GLM-5.3能否成为那个平衡点,值得期待。
GLM-5.3呼声最高:视觉能力成社区焦点
AITNT
3小时前
0
1