当我们在谈论视觉AI时,大多数人想到的仍然是识图、OCR或物体检测。但在Chance AI创始人、豆包前高级总监曾熙看来,这已经是上一个时代的把戏。真正的视觉AI新战场,是读心——理解场景背后的意图,并主动提供个性化服务。
想象这样一个场景:你坐在曼谷一家餐厅,手机对准一张泰语菜单。2026年的AI不仅能将泰文翻译成中文,还能记住你是一位素食主义者,从二十道菜中精准挑出那三道不含肉的,用标准泰语帮你完成点单,甚至顺手把附近评分最高的甜品店塞进你的下午行程。这个看似简单的场景,背后是多模态大模型、个性化记忆与场景理解的深度融合。
曾熙认为,视觉AI的进化正在经历三个关键阶段:第一阶段是感知,即识别图像中的物体和文字;第二阶段是理解,即结合上下文分析场景含义;第三阶段是行动,即基于用户画像和历史数据主动提供服务。目前行业大多停留在第一阶段,而Chance AI的目标是直接跨越到第三阶段。这意味着AI需要同时处理视觉信息、语义理解、用户偏好和实时决策,对模型架构和推理效率提出了极高要求。
从技术实现来看,这种能力依赖于几个关键突破。首先是多模态大模型对场景元素的联合理解,不再是孤立识别文字或物体,而是理解它们之间的关系。其次是长期记忆机制,让AI能够记住用户的饮食偏好、过敏信息、消费习惯等,并在不同场景中持续调用。最后是低延迟推理,在手机端完成实时处理,避免云端往返带来的体验延迟。曾熙透露,Chance AI已经在部分场景实现了端侧推理延迟低于200毫秒,这为实时交互奠定了基础。
对于AI从业者而言,这意味着视觉AI的商业模式正在从单纯的API调用转向场景化服务。当AI能够读懂用户内心需求时,广告推荐、本地生活、旅游助手等领域的用户体验将发生质变。未来的竞争焦点不再是模型参数大小,而是对用户行为的持续理解和主动服务的闭环能力。对于开发者来说,现在正是布局多模态记忆和场景推理技术的最佳时机,谁能在端侧实现高效推理和个性化记忆,谁就能在下一波视觉AI浪潮中占据先机。