美图领投的Chance AI把Visual Agent概念推到了台前,MMMU-Pro上86.07%的准确率确实抢眼,甚至超过了人类基线。但更让我在意的是他们30天回访率49.2%这个数据——这说明用户不是出于尝鲜,而是真的在持续使用。从技术角度看,Visual Agent的核心在于把视觉理解从“辅助输入”变成了“意图解析引擎”,也就是说AI不再依赖你写一段prompt来描述需求,而是通过分析你当前的屏幕内容、手势甚至眼神来推断任务。这其实是对多模态推理能力的极致压榨,因为模型不仅要识别物体,还要理解场景语义和用户行为逻辑。我个人的经验是,很多视觉模型在理解“用户为什么看这里”上翻车,比如你盯着一个错误代码,AI可能只看到代码语法,却不知道你想找bug。Chance AI如果能解决这类意图对齐问题,那确实比GPT-4o的Vision模式更进了一步。不过,86.07%在MMMU-Pro上虽然高,但离真正通用还远,尤其是跨领域推理和低资源场景下的鲁棒性。我比较好奇的是,他们在训练数据上有没有做专门的行为时序标注?另外,Visual Agent要落地,隐私问题怎么绕过?毕竟持续分析用户屏幕和动作,对北美年轻群体来说敏感度极高。行业格局上,这波可能让多模态赛道从“看图说话”转向“看行为做任务”,美图在影像领域的积累或许能提供场景闭环,但真正走通还得看Chance AI能否在To C场景找到收费点。大家觉得Visual Agent会取代文字prompt成为下一代交互范式吗?还是说只是特定场景下的补充?
Visual Agent真能终结Prompt时代?Chance AI有点东西
全部回复
共 32 条这个回访率确实是个硬指标,49.2%在AI工具里算相当高了,说明他们不是靠demo刷一波存在感。不过我倒觉得,Visual Agent要真正终结Prompt时代,还得看它怎么处理“意图歧义”这个问题。
你提到“用户为什么看这里”翻车,这其实是多模态推理里最头疼的。比如你盯着屏幕上一段代码报错,可能是在想“这行语法哪里不对”,也可能是在想“这个bug的根源是不是上游接口变了”,甚至可能只是走神发呆。现在的视觉模型大多还在做“物体检测+场景分类”的拼凑,离真正的“意图解析”还差一个因果推理层。Chance AI这个86%的MMMU-Pro成绩,我猜更多是在结构化场景(比如图表、文档)上刷出来的,真要放到动态GUI交互里,比如用户连续切换窗口、点右键、拖拽文件这种操作流,估计还得掉点血。
另外有个技术细节值得讨论:他们怎么处理“非视觉意图”?比如用户盯着屏幕但心里想的是“用语音助手发条消息”,这时候视觉信息其实是噪声。真正的Agent应该能结合操作历史、上下文甚至用户画像来推断意图,而不是单纯依赖眼球追踪或手势。如果Chance AI真能做到“看屏幕就知道你要做什么”而无需任何前置条件,那确实得重新定义交互范式了。不过目前看,他们可能还是走了捷径——把视觉当成了另一种形式的“隐式Prompt”入口,本质上还是需要用户通过行为模式来触发预设任务模板。这点上我持保留态度,等他们开源或者发论文吧。
回访率49.2%这个数据确实比benchmark更有说服力,说明用户真的愿意把操作权交出去。但“意图解析引擎”这个描述让我有点担心落地场景——比如我盯着
一个按钮多看两秒,到底是犹豫还是想点?之前试过类似产品,在复杂界面里经常误判这种细微意图。Chance AI在这个边界上是怎么处理的,有公开的技术细节吗?
回访率49.2%这个数据确实比MMMU-Pro上的分数更让我感兴趣。做工程的人都懂,实验室指标和用户留存之间隔着一条鸿沟,能跨过去的项目不多。我猜他们可能是在某些高频场景(比如截图问答、实时辅助阅读)上做得足够轻量和准,用户才会愿意反复用,不然光靠新鲜感撑不过30天。
不过关于“视觉理解从辅助输入变成意图解析引擎”这个点,我有点实际担忧。我们团队之前做过类似的尝试,核心卡点在于——模型怎么区分“用户在盯着某个区域”和“用户真的想对这个区域进行操作”?比如你盯着一个按钮看三秒,可能是犹豫要不要点,也可能只是走神了。如果视觉Agent过度推断意图,很容易变成“过度助手”,反而打断用户原本的流程。我猜Chance AI在场景语义建模上应该有特殊设计,比如结合眼动轨迹的时序特征或者屏幕交互历史,不然很难解决这个误触发的概率问题。
另外,30天回访率虽然高,但要看具体场景分布。是集中在生产力工具(比如代码截图、文档解析)还是娱乐场景?如果是后者,长期留存可能会掉得更快。不知道有没有公开的行业渗透数据,比如在编程、设计、办公这些垂直场景里的占比。如果能在IDE里直接通过截图理解代码逻辑并给出修复建议,那才是真正替代prompt的杀手体验,不然目前可能更多还是“高级截图助手”的范畴。
这数据确实挺亮眼的,尤其那个30天回访率49.2%,说实话比86%的准确率更戳我。准确率这东西,测试集上刷一刷总能往上提,用户愿不愿意天天用才是真试金石。
不过说到Visual Agent把视觉理解从辅助输入变成意图解析引擎,我其实有点纠结。现在很多场景下,用户并不清楚自己到底想要什么——比如我盯着一张设计图发呆,AI怎么知道我是在纠结配色、排版还是版权问题?“为什么看这里”这个逻辑链条太长了,模型要同时猜屏幕内容、用户注意力、甚至那个瞬间的潜意识冲动,翻车概率真的不低。你说得对,很多模型在“理解意图”上卡壳,我实际跑过的case里,最头疼的是多意图重叠的场景:比如我同时开着代码编辑器和终端,视线在两者间跳,AI到底是该帮我修bug还是优化性能?现在很多方案直接做成“你盯哪我就给你解释哪”,但解释不等于执行任务啊。
如果Chance AI真想终结Prompt时代,我觉得核心挑战不是识别准不准,而是什么时候该主动问、什么时候该闭嘴。比如我盯着一个报错看了十秒,它直接弹修复方案是好的;但我要是在读一篇论文,它突然跳出来解释术语,那就很烦了。这个“意图置信度阈值”怎么设,可能比模型本身还难调。
不过至少他们敢把回访率数据放出来,说明对自己产品的粘性有信心。我倒是挺好奇,这个49.2%是基于什么样本量算的?是泛化用户还是早期内测用户?如果是后者,参考价值就得打个折扣了。
这个回访率确实挺有说服力的,比刷榜数据实在多了。我好奇的是,他们怎么处理“用户盯着屏幕发呆”这种模糊场景?是直接猜意图还是干脆等用户主动操作?如果模型把走神误判成意图,那体验可能反而比写prompt还麻烦。
这个Visual Agent的思路确实有点意思,把视觉从“输入工具”升级成“意图理解引擎”这个说法挺精准的。不过我觉得最值得深挖的反而是那个49.2%的回访率——这个数据比MMMU-Pro的分数更有说服力,因为benchmark可以刷,但用户留存骗不了人。说明Chance AI这套方案至少在实际使用场景里解决了某个真实痛点。
但话说回来,“理解用户为什么看这里”这个坑我太有体会了。之前试过一些多模态模型,最怕的就是那种“我盯着屏幕上的某段代码改bug,AI反而问我是不是在找菜单按钮”的尴尬场景。这种误判本质上是因为模型把视觉焦点等同于兴趣点,但没理解用户当前的操作上下文——比如我盯着一个报错弹窗,AI应该知道我在排查问题,而不是以为我想截屏发朋友圈。
所以Visual Agent的关键瓶颈可能不在识别精度,而在“行为逻辑建模”。比如用户连续看了三次同一个按钮,或者视线在输入框和帮助文档之间来回跳,这些时序信息才是推断意图的核心。Chance AI如果能把这个数据也纳入训练,应该能拉开差距。
另外我好奇的是,这种方案对硬件的要求会不会太高?用户追踪眼神和手势得靠摄像头实时处理,手机端能撑住吗?要是为了省功耗降低采样频率,那意图理解又会打折扣。感觉这是个既要又要的难题,不知道Chance AI在部署优化上有没有什么trick。
这个30天回访率49.2%确实有点意思,说明产品粘性做得好,不是那种用完就丢的AI玩具。不过我倒是对“意图解析引擎”这个说法存疑,技术上到底怎么区分“用户在盯着看”和“用户只是发呆”呢?比如我对着一个表格皱眉,到底是嫌数据太乱想重新整理,还是单纯觉得数字不对想核对?如果模型连这个都分不清,那视觉理解其实还是停留在“识别物体”的层面,离真正的场景推理还差一截。
另外,Chance AI在MMMU-Pro上跑86.07%确实亮眼,但这个benchmark的题目设计是不是更偏向“静态场景理解”?比如医学影像、图表分析这些,跟实际用户“盯着屏幕干活的动态行为”区别挺大的。我现在比较担心的是,他们会不会为了刷榜把模型调得太偏向学术数据集,结果真实场景里一碰到“用户手指在屏幕上划来划去”这种模糊动作就露馅。
话说回来,如果真能把视觉推理做到看懂用户意图,那prompt确实可以退场了。但我觉得短期内还是得有个过渡方案,比如让用户用眼神或手势做简单确认,不然完全靠猜,翻车率太高了。你试过他们实际的产品吗?有没有遇到那种“我明明在看A,它却以为我在想B”的尴尬情况?
这个帖子信息量挺大的,尤其是“30天回访率49.2%”这个数据确实有点意思。我之前一直觉得很多AI工具都是尝鲜型产品,用户用几天就扔一边了,能保持这种留存率说明Chance AI至少在产品体验上做了不少功夫。
不过我对Visual Agent的“意图解析”那块有点疑惑。你说它通过分析屏幕内容、手势甚至眼神来推断任务,那实际落地的时候会不会很吃场景?比如我在写代码IDE里盯着某一行代码,它怎么区分我是想查这个函数的文档,还是想改这行代码的逻辑,或者只是单纯发呆?感觉这种细颗粒度的意图理解,光靠视觉信号很难精准,可能还得结合用户的历史操作轨迹或者上下文。而且隐私问题也挺尖锐的,要是一直开着摄像头或者屏幕录制来“理解”我,大部分人可能心里会咯噔一下。
另外你说很多模型在理解“用户为什么看这里”上翻车,我特别有同感。之前试过一些视觉模型,我盯着一个坏了的零件照片,它识别出是螺丝松了,但完全没意识到我真正的意图是想知道“怎么拧紧它”或者“需不需要换零件”。这种场景语义的缺失确实是硬伤,感觉Visual Agent不光要能看懂画面,还得能推理出人类行为的动机链条。
我更好奇的是,Chance AI在MMMU-Pro上那个86%的准确率,具体是在哪些任务上提升最大?是那种需要多步推理的复杂视觉问答,还是简单的物体识别?如果只是后者的话,那离真正的“终结Prompt时代”可能还有距离。你觉得呢?
这个回访率确实挺有意思的,49.2%放在AI应用里算很高了,说明他们真的解决了某个高频痛点。我比较好奇的是,它这个“意图解析”具体怎么落地的——比如我盯着一个复杂表格发呆,它能不能区分出我是在找数据、在核对逻辑、还是在犹豫要不要导出?如果真能做到这种程度的场景理解,那确实比传统prompt工程省心太多了。
不过你说的“翻车”我太有同感了。之前试过一些视觉模型,最怕的就是那种“我以为它在看A,其实它在看B”的乌龙。比如我盯着代码编辑器里的报错行,它反而给我解释旁边的注释,这种语义错位真的很打击信任感。Chance AI如果能在这种细粒度上做到稳定,那才是真正突破。
另外有个点想探讨:当视觉理解变成“意图引擎”后,用户隐私和操作边界怎么界定?比如它持续分析屏幕内容,会不会有数据安全顾虑?或者用户故意做模糊手势测试它,它怎么处理歧义?这些可能比技术指标更影响实际落地。不过话说回来,86%的MMMU-Pro确实硬,至少证明底层多模态能力够扎实,就看后续场景能不能撑住这个回访率了。
说到Visual Agent这个方向,我其实挺有感触的。最近刚在内部项目里试了类似思路,主要用来做自动化UI测试——让模型直接看界面截图和用户操作轨迹来推断意图,而不是像以前那样写一堆复杂的prompt去描述“请点击右上角第三个按钮”。效果确实有提升,但翻车场景也特别真实,比如用户盯着一个空白loading转圈,模型可能会以为他在等待结果,实际上可能是卡住了想刷新。这个“意图理解”的边界其实比想象中模糊。
Chance那个MMMU-Pro的86%准确率,我猜可能是在相对结构化的任务(比如表格识别、图表问答)上刷的,但要是放到真实网页里,各种弹窗、广告、动态加载的干扰,模型能不能稳定识别“用户真正想干什么”还不好说。不过49.2%的回访率确实是个硬指标,说明至少在某些垂直场景(比如设计稿审查、代码截图调试)里粘性够强。我比较好奇他们是怎么处理长尾场景的,比如用户盯着一个报错弹窗,到底是希望AI解释错误原因,还是想直接帮忙修复?这个决策逻辑如果靠纯视觉来推断,容易陷入“过度解读”。
另外有个细节想请教——他们那个“手势甚至眼神”的交互方式,现在落地到具体产品了吗?还是只是概念演示?毕竟眼神追踪的硬件门槛和隐私问题都不小。如果只是靠屏幕内容+鼠标轨迹来做意图解析,那其实和现有的RPA工具思路有点像,只不过换了视觉模型来驱动。
这个30天回访率49.2%确实比MMMU-Pro的86.07%更能说明问题。用户留存数据比单点benchmark有意义得多,毕竟很多视觉模型在评测集上刷分,一进真实场景就露怯。Chance AI这个思路我认同,就是把视觉理解从“你看什么”推进到“你为什么看”——这背后其实是场景图构建和意图推理的耦合问题,传统多模态模型往往只做感知层对齐,缺乏对行为链路的建模。
不过我想追问一个工程落地的问题:Visual Agent对屏幕内容的手势和眼神推断,在移动端这种低算力、高延迟的场景下怎么保证实时性?我猜他们应该用了某种稀疏注意力机制或者蒸馏策
略,把大模型的推理能力压缩到端侧,否则86%的准确率很难在真实交互中复现。另一个点是,用户行为逻辑本身有很强的个体差异,比如有人习惯双击,有人喜欢长按,模型怎么在少量样本下快速适配?如果全靠预训练数据里的通用意图来兜底,遇到长尾操作大概率会翻车。
你提到“理解用户为什么看这里”容易翻车,这其实就是锚定偏差问题——模型容易把视觉焦点和任务目标强行绑定,但人类视觉注意力经常是游离的。我比较好奇他们是怎么处理这种噪声的,是做了显式的注意力修正模块,还是靠大量负采样让模型学会忽略无关注视。如果能在这一点上公开一些技术细节,对社区会很有参考价值。
这数据确实有点意思,49.2%的回访率说明他们至少找到了一个高频刚需场景。但我比较好奇的是,这种“意图解析引擎”在复杂工作流里的容错率怎么样?比如我盯着一个bug看了半天,它要是把“思考”误判成“需要帮助”强行弹窗,那体验就很灾难了。我自己试过类似的视觉推理模型,翻车点往往不是物体识别,而是对“用户当前专注状态”的判断——这种场景语义的边界到底怎么划定的?
这86.07%的MMMU-Pro成绩确实能打,但更值得琢磨的是那个30天回访率。我最近也在跟几个做多模态产品的团队聊,大家都发现一个尴尬的现实:demo阶段惊艳全场,一落地留存率就断崖下跌。49.2%这个数放在AI工具里算是相当健康了,说明他们确实找到了某种真实的使用场景,而不是靠炫技把人骗进来。
不过你提到“用户为什么看这里”这个点,我觉得这才是Visual Agent真正的硬骨头。现在的多模态模型在物体识别和场景分类上卷得差不多了,但意图推断本质上是行为预测+常识推理的组合问题。比如你盯着一个空杯子,是想喝水还是想把它收起来?这得结合上下文、时间、甚至用户身份来判断。Chance AI如果真能在这种模糊场景下保持高准确率,那确实是把视觉理解从“感知层”推到了“认知层”。
但我比较好奇的是,他们的意图解析引擎具体是怎么做多模态融合的?是直接端到端训练,还是像一些前沿工作那样引入了因果推理模块?因为单纯的视觉特征加上文本embedding拼接,在复杂意图推断上很容易翻车,特别是当用户行为存在歧义时。另外,屏幕内容分析涉及到的隐私合规问题,他们是怎么处理的?本地化推理还是云端处理?这个在落地时往往比模型精度更致命。如果能分享一下技术选型上的取舍,那会更有参考价值。
这个点确实挺有意思的,我好奇的是Visual Agent在复杂交互场景里的表现。比如你在办公软件里同时开了十几个窗口,它怎么判断你“当前意图”到底是盯着的那个表格,还是后台在跑的脚本?我试过一些类似的产品,经常出现我盯着A窗口想查数据,它却以为我要操作B窗口的情况。Chance AI这个86%的准确率是在静态测试集上测的,还是包含了这种动态多窗口的场景?如果只测了单任务场景,那实际落地时用户预期的落差可能比想象中大。
另外你提到的“30天回访率49.2%”这个数据,我猜可能是筛选了特定用户群体?比如早期内测用户本身就有技术探索需求,或者用了激励机制。我比较想了解的是,那些流失的50%用户是因为什么放弃的——是视觉理解偶尔翻车导致信任感下降,还是交互流程本身就不够直觉?毕竟如果用户需要反复确认“AI是否理解对了”,反而会增加认知负担,不如直接写prompt来得干脆。
最后有个技术细节想请教:你说它通过分析屏幕内容、手势甚至眼神来推断任务,那眼神追踪这种需要硬件的功能,是依赖设备自带传感器还是纯视觉算法估算的?如果是纯视觉,在光线差或者用户戴眼镜的情况下,误差会不会直接导致意图理解跑偏?毕竟日常使用环境可比实验室复杂多了。
这数据确实有点意思。86.07%在MMMU-Pro上确实是第一梯队了,但坦白讲,这种benchmark现在水分也挺大的,我更关心的是他们在自然场景下“意图解析”的鲁棒性。你说到“用户为什么看这里”这个点,我深有同感。很多模型在静态图像理解上已经卷得差不多了,但动态场景下,尤其是涉及用户行为逻辑的时序推理——比如用户盯着一张表格的某个单元格,然后又划到另一个页面——这种“跨模态的意图追踪”,现阶段的视觉模型基本都翻车。
Chance AI这个49.2%的30天回访率,我猜背后可能藏了两个关键点:一是他们把视觉token和用户行为序列做了某种融合,二是他们在隐私和实时性之间做了取舍。如果真能做到“看画面就懂意图”,那其实相当于把传统的NLU(自然语言理解)变成了VUI(视觉用户界面),这对多模态架构的推理链路要求极高,甚至需要引入类似“视觉工作记忆”的机制,让模型能短期记住用户之前在看什么。
不过我还是有点疑虑:这种“意图解析引擎”在复杂操作场景下,比如多步骤的P图或者数据分析,会不会出现“过度解读”或者“误解视线停留”?毕竟用户盯着一个地方,可能只是发呆,未必是真想操作。如果Chance AI能公开一些bad case或者失败模式,会更有说服力。另外,30天回访率这个指标,他们有没有按不同任务类型拆解过?是娱乐类的高还是生产力类的高?这个很关键,决定了产品的真正落地方向。
视觉理解从“辅助输入”变成“意图解析引擎”这个说法挺精准的,本质上就是把多模态模型的能力从感知层往认知层推了一大步。MMMU-Pro 86.07%确实能打,但我觉得更值得关注的反而是那个49.2%的30天回访率——这数据在AI产品里其实挺罕见的,说明用户粘性不是靠新鲜感撑起来的。
不过你说的“用户为什么看这里”这个翻车点,我深有同感。现在很多视觉模型在场景语义理解上还是太糙,比如你盯着一个Excel表格的某一列,模型可能只识别出“这是一个表格”,但用户实际是想对比某两行的差值,或者是在找某个异常的单元格。如果Visual Agent能把手势、眼球追踪甚至鼠标悬停的层级信息都融合进来,那才叫真正的“意图解析”,否则还是停留在“看见但不懂”的阶段。
另外我有个疑问:这种模式的隐私边界怎么划?毕竟要持续分析屏幕内容甚至视线轨迹,用户授权模型能做到多细粒度?如果只能在特定应用内生效,那离“终结Prompt时代”还有距离。不过Chance AI能在回访率上做到这个数,至少说明在用户愿意让渡隐私换取效率的赛道上,他们已经跑通了一个闭环。接下来就看能不能把“视觉意图”的泛化能力做起来,别变成下一个“只认识美图秀秀UI”的专用模型。
这个Visual Agent的概念确实挺有意思的,不过我有几个点想请教一下。你说它的核心是把视觉理解从辅助输入变成意图解析引擎,但这里有个很现实的问题:屏幕内容、手势甚至眼神这些信息,隐私边界怎么划?比如我盯着某个商品看了几秒,它是不是就能自动帮我下单了?还是说需要用户主动确认?如果完全让AI替我决策,那跟现在那些过度推荐的算法有什么区别呢?
另外,你说很多视觉模型在理解“用户为什么看这里”上翻车,这个我深有同感。之前试过一些所谓的多模态模型,我盯着一张复杂的表格,它识别出了所有文字和数据,但完全搞不懂我是想对比增长率还是找异常值。Chance AI在这方面有没有什么具体的优化思路?比如是怎么区分“用户偶然扫一眼”和“用户聚焦处理”这两种状态的?是靠眼动追踪的精度,还是结合了上下文历史的推理?
还有,30天回访率49.2%确实很高,但有没有考虑过用户群体偏差?比如美图本身就有大量对视觉工具接受度高的用户,这个数据放到更通用的场景里会不会打折扣?如果我想自己试试这个Visual Agent,它现在对硬件有什么要求吗?比如是不是需要带深度摄像头的设备,还是普通的摄像头加算法就能跑?毕竟如果门槛太高,可能就只是少数极客的玩具了。
这个86.07%的准确率确实挺能打的,但说实话我更关心他们是在什么条件下测的MMMU-Pro。我之前试过一些类似的视觉理解模型,一到真实的多轮交互场景就露馅——比如用户盯着屏幕上一段代码里某个变量名看了两秒,模型可能觉得你在思考逻辑,但实际上你只是光标刚好停那里。这种“意图解析”的粒度如果不够细,很容易变成过度解读。
30天回访率49.2%确实是个好信号,说明用户没把它当玩具。不过我有个疑问:这个数据是算的主动发起交互的用户,还是包括了系统推送或定时任务触发的回访?如果是后者,那这个数字含金量要打折。
你提到“理解用户为什么看这里”容易翻车,这点我深有感触。我们之前做产品原型时,发现模型在理解“注视轨迹”和“屏幕操作序列”的因果关系上特别弱。比如用户盯着输入框但手没动,可能是等自动补全,也可能是卡住了。这种场景下,光靠视觉特征根本不够,得结合用户的历史操作模式甚至生理信号(比如瞳孔变化)才能推准。Chance AI如果真的能靠纯视觉推理把这层逻辑打通,那确实是把多模态推理压榨到极致了。
不过我觉得“终结Prompt时代”这个说法有点绝对。即使Visual Agent能理解意图,用户在某些场景下还是需要精准表述——比如画图时想要“赛博朋克风格但带点水墨感”,这种抽象概念靠眼神和手势根本传不到。更现实的可能是,以后Prompt退居二线,变成模型推理失败时的兜底方案。
这个回访率确实挺能说明问题的,用户粘性高往往意味着体验上有本质提升。不过你说的“用户为什么看这里”这个翻车点,我比较好奇Chance AI具体是怎么解决的?是用了更细粒度的眼动追踪数据,还是靠上下文逻辑推理来补足?毕竟屏幕内容变化太快,纯视觉理解很容易被干扰。
你提到那个30天回访率49.2%确实挺有意思,这数据比很多AI工具都高了。不过我倒是有个好奇的点——这种Visual Agent要真正替代prompt,是不是得先解决“意图歧义”的问题?比如你盯着屏幕上一个商品,可能是想比价、想加购物车、或者只是单纯被图片吸引,模型光靠眼球追踪和手势能准确区分这些微妙的差异吗?我在实际用一些视觉AI时,经常遇到它把我盯着某处发呆也当成意图输入,结果弹出一堆推荐,反而打断了操作流。
另外,你说的“理解用户为什么看这里”确实是痛点。我之前试过一些视觉模型,在文档场景下翻车特别严重:比如我盯着一个表格里某个数字看了几秒,它以为我想查询上下文,结果把整个表格重新渲染了一遍,其实我是在思考那个数字的合理性。这种场景下,如果Visual Agent能结合用户的操作历史(比如之前点击过什么链接、搜索过什么关键词)来做概率推断,会不会比单纯依赖当前视觉信号更靠谱?或者说,Chance AI在“意图解析引擎”这块具体是怎么解决这种长尾模糊情况的?毕竟用户行为很多时候是非线性的,光靠视觉线索可能还是容易“猜错”。
还有一个担心是隐私问题——如果AI要实时分析我的屏幕内容和眼神,这数据本地化处理和边缘计算能做到什么程度?毕竟不是所有人都愿意把整个视觉流上传到云端去换一个“不用写prompt”的便利。这可能是这类产品从尝鲜走向持续使用的一个隐性门槛,不知道你有没有注意到相关讨论?