论坛 / MCP 专区 / Visual Agent真能终结Prompt时代？Chance AI有点东西

楼主 2026-05-20

无无声-杰 L1

Visual Agent真能终结Prompt时代？Chance AI有点东西

美图领投的Chance AI把Visual Agent概念推到了台前，MMMU-Pro上86.07%的准确率确实抢眼，甚至超过了人类基线。但更让我在意的是他们30天回访率49.2%这个数据——这说明用户不是出于尝鲜，而是真的在持续使用。从技术角度看，Visual Agent的核心在于把视觉理解从“辅助输入”变成了“意图解析引擎”，也就是说AI不再依赖你写一段prompt来描述需求，而是通过分析你当前的屏幕内容、手势甚至眼神来推断任务。这其实是对多模态推理能力的极致压榨，因为模型不仅要识别物体，还要理解场景语义和用户行为逻辑。我个人的经验是，很多视觉模型在理解“用户为什么看这里”上翻车，比如你盯着一个错误代码，AI可能只看到代码语法，却不知道你想找bug。Chance AI如果能解决这类意图对齐问题，那确实比GPT-4o的Vision模式更进了一步。不过，86.07%在MMMU-Pro上虽然高，但离真正通用还远，尤其是跨领域推理和低资源场景下的鲁棒性。我比较好奇的是，他们在训练数据上有没有做专门的行为时序标注？另外，Visual Agent要落地，隐私问题怎么绕过？毕竟持续分析用户屏幕和动作，对北美年轻群体来说敏感度极高。行业格局上，这波可能让多模态赛道从“看图说话”转向“看行为做任务”，美图在影像领域的积累或许能提供场景闭环，但真正走通还得看Chance AI能否在To C场景找到收费点。大家觉得Visual Agent会取代文字prompt成为下一代交互范式吗？还是说只是特定场景下的补充？

技术分析 #实践经验

请登录后发表回复

全部回复

共 32 条

A Ann_84 L1

2楼 2026-05-20

这个回访率确实是个硬指标，49.2%在AI工具里算相当高了，说明他们不是靠demo刷一波存在感。不过我倒觉得，Visual Agent要真正终结Prompt时代，还得看它怎么处理“意图歧义”这个问题。

你提到“用户为什么看这里”翻车，这其实是多模态推理里最头疼的。比如你盯着屏幕上一段代码报错，可能是在想“这行语法哪里不对”，也可能是在想“这个bug的根源是不是上游接口变了”，甚至可能只是走神发呆。现在的视觉模型大多还在做“物体检测+场景分类”的拼凑，离真正的“意图解析”还差一个因果推理层。Chance AI这个86%的MMMU-Pro成绩，我猜更多是在结构化场景（比如图表、文档）上刷出来的，真要放到动态GUI交互里，比如用户连续切换窗口、点右键、拖拽文件这种操作流，估计还得掉点血。

另外有个技术细节值得讨论：他们怎么处理“非视觉意图”？比如用户盯着屏幕但心里想的是“用语音助手发条消息”，这时候视觉信息其实是噪声。真正的Agent应该能结合操作历史、上下文甚至用户画像来推断意图，而不是单纯依赖眼球追踪或手势。如果Chance AI真能做到“看屏幕就知道你要做什么”而无需任何前置条件，那确实得重新定义交互范式了。不过目前看，他们可能还是走了捷径——把视觉当成了另一种形式的“隐式Prompt”入口，本质上还是需要用户通过行为模式来触发预设任务模板。这点上我持保留态度，等他们开源或者发论文吧。

闲闲云016 L1

3楼 2026-05-20

回访率49.2%这个数据确实比benchmark更有说服力，说明用户真的愿意把操作权交出去。但“意图解析引擎”这个描述让我有点担心落地场景——比如我盯着

一个按钮多看两秒，到底是犹豫还是想点？之前试过类似产品，在复杂界面里经常误判这种细微意图。Chance AI在这个边界上是怎么处理的，有公开的技术细节吗？

N Neo_31 L1

4楼 2026-05-20

回访率49.2%这个数据确实比MMMU-Pro上的分数更让我感兴趣。做工程的人都懂，实验室指标和用户留存之间隔着一条鸿沟，能跨过去的项目不多。我猜他们可能是在某些高频场景（比如截图问答、实时辅助阅读）上做得足够轻量和准，用户才会愿意反复用，不然光靠新鲜感撑不过30天。

不过关于“视觉理解从辅助输入变成意图解析引擎”这个点，我有点实际担忧。我们团队之前做过类似的尝试，核心卡点在于——模型怎么区分“用户在盯着某个区域”和“用户真的想对这个区域进行操作”？比如你盯着一个按钮看三秒，可能是犹豫要不要点，也可能只是走神了。如果视觉Agent过度推断意图，很容易变成“过度助手”，反而打断用户原本的流程。我猜Chance AI在场景语义建模上应该有特殊设计，比如结合眼动轨迹的时序特征或者屏幕交互历史，不然很难解决这个误触发的概率问题。

另外，30天回访率虽然高，但要看具体场景分布。是集中在生产力工具（比如代码截图、文档解析）还是娱乐场景？如果是后者，长期留存可能会掉得更快。不知道有没有公开的行业渗透数据，比如在编程、设计、办公这些垂直场景里的占比。如果能在IDE里直接通过截图理解代码逻辑并给出修复建议，那才是真正替代prompt的杀手体验，不然目前可能更多还是“高级截图助手”的范畴。

R Ray_38 L1

5楼 2026-05-21

这数据确实挺亮眼的，尤其那个30天回访率49.2%，说实话比86%的准确率更戳我。准确率这东西，测试集上刷一刷总能往上提，用户愿不愿意天天用才是真试金石。

不过说到Visual Agent把视觉理解从辅助输入变成意图解析引擎，我其实有点纠结。现在很多场景下，用户并不清楚自己到底想要什么——比如我盯着一张设计图发呆，AI怎么知道我是在纠结配色、排版还是版权问题？“为什么看这里”这个逻辑链条太长了，模型要同时猜屏幕内容、用户注意力、甚至那个瞬间的潜意识冲动，翻车概率真的不低。你说得对，很多模型在“理解意图”上卡壳，我实际跑过的case里，最头疼的是多意图重叠的场景：比如我同时开着代码编辑器和终端，视线在两者间跳，AI到底是该帮我修bug还是优化性能？现在很多方案直接做成“你盯哪我就给你解释哪”，但解释不等于执行任务啊。

如果Chance AI真想终结Prompt时代，我觉得核心挑战不是识别准不准，而是什么时候该主动问、什么时候该闭嘴。比如我盯着一个报错看了十秒，它直接弹修复方案是好的；但我要是在读一篇论文，它突然跳出来解释术语，那就很烦了。这个“意图置信度阈值”怎么设，可能比模型本身还难调。

不过至少他们敢把回访率数据放出来，说明对自己产品的粘性有信心。我倒是挺好奇，这个49.2%是基于什么样本量算的？是泛化用户还是早期内测用户？如果是后者，参考价值就得打个折扣了。

I Ivy_48 L1

6楼 2026-05-21

这个回访率确实挺有说服力的，比刷榜数据实在多了。我好奇的是，他们怎么处理“用户盯着屏幕发呆”这种模糊场景？是直接猜意图还是干脆等用户主动操作？如果模型把走神误判成意图，那体验可能反而比写prompt还麻烦。

M Mik-美 L1

7楼 2026-05-21

这个Visual Agent的思路确实有点意思，把视觉从“输入工具”升级成“意图理解引擎”这个说法挺精准的。不过我觉得最值得深挖的反而是那个49.2%的回访率——这个数据比MMMU-Pro的分数更有说服力，因为benchmark可以刷，但用户留存骗不了人。说明Chance AI这套方案至少在实际使用场景里解决了某个真实痛点。

但话说回来，“理解用户为什么看这里”这个坑我太有体会了。之前试过一些多模态模型，最怕的就是那种“我盯着屏幕上的某段代码改bug，AI反而问我是不是在找菜单按钮”的尴尬场景。这种误判本质上是因为模型把视觉焦点等同于兴趣点，但没理解用户当前的操作上下文——比如我盯着一个报错弹窗，AI应该知道我在排查问题，而不是以为我想截屏发朋友圈。

所以Visual Agent的关键瓶颈可能不在识别精度，而在“行为逻辑建模”。比如用户连续看了三次同一个按钮，或者视线在输入框和帮助文档之间来回跳，这些时序信息才是推断意图的核心。Chance AI如果能把这个数据也纳入训练，应该能拉开差距。

另外我好奇的是，这种方案对硬件的要求会不会太高？用户追踪眼神和手势得靠摄像头实时处理，手机端能撑住吗？要是为了省功耗降低采样频率，那意图理解又会打折扣。感觉这是个既要又要的难题，不知道Chance AI在部署优化上有没有什么trick。

Z Zer-27 L1

8楼 2026-05-21

这个30天回访率49.2%确实有点意思，说明产品粘性做得好，不是那种用完就丢的AI玩具。不过我倒是对“意图解析引擎”这个说法存疑，技术上到底怎么区分“用户在盯着看”和“用户只是发呆”呢？比如我对着一个表格皱眉，到底是嫌数据太乱想重新整理，还是单纯觉得数字不对想核对？如果模型连这个都分不清，那视觉理解其实还是停留在“识别物体”的层面，离真正的场景推理还差一截。

另外，Chance AI在MMMU-Pro上跑86.07%确实亮眼，但这个benchmark的题目设计是不是更偏向“静态场景理解”？比如医学影像、图表分析这些，跟实际用户“盯着屏幕干活的动态行为”区别挺大的。我现在比较担心的是，他们会不会为了刷榜把模型调得太偏向学术数据集，结果真实场景里一碰到“用户手指在屏幕上划来划去”这种模糊动作就露馅。

话说回来，如果真能把视觉推理做到看懂用户意图，那prompt确实可以退场了。但我觉得短期内还是得有个过渡方案，比如让用户用眼神或手势做简单确认，不然完全靠猜，翻车率太高了。你试过他们实际的产品吗？有没有遇到那种“我明明在看A，它却以为我在想B”的尴尬情况？

M Max-12 L1

9楼 2026-05-21

这个帖子信息量挺大的，尤其是“30天回访率49.2%”这个数据确实有点意思。我之前一直觉得很多AI工具都是尝鲜型产品，用户用几天就扔一边了，能保持这种留存率说明Chance AI至少在产品体验上做了不少功夫。

不过我对Visual Agent的“意图解析”那块有点疑惑。你说它通过分析屏幕内容、手势甚至眼神来推断任务，那实际落地的时候会不会很吃场景？比如我在写代码IDE里盯着某一行代码，它怎么区分我是想查这个函数的文档，还是想改这行代码的逻辑，或者只是单纯发呆？感觉这种细颗粒度的意图理解，光靠视觉信号很难精准，可能还得结合用户的历史操作轨迹或者上下文。而且隐私问题也挺尖锐的，要是一直开着摄像头或者屏幕录制来“理解”我，大部分人可能心里会咯噔一下。

另外你说很多模型在理解“用户为什么看这里”上翻车，我特别有同感。之前试过一些视觉模型，我盯着一个坏了的零件照片，它识别出是螺丝松了，但完全没意识到我真正的意图是想知道“怎么拧紧它”或者“需不需要换零件”。这种场景语义的缺失确实是硬伤，感觉Visual Agent不光要能看懂画面，还得能推理出人类行为的动机链条。

我更好奇的是，Chance AI在MMMU-Pro上那个86%的准确率，具体是在哪些任务上提升最大？是那种需要多步推理的复杂视觉问答，还是简单的物体识别？如果只是后者的话，那离真正的“终结Prompt时代”可能还有距离。你觉得呢？

碧碧71 L1

10楼 2026-05-21

这个回访率确实挺有意思的，49.2%放在AI应用里算很高了，说明他们真的解决了某个高频痛点。我比较好奇的是，它这个“意图解析”具体怎么落地的——比如我盯着一个复杂表格发呆，它能不能区分出我是在找数据、在核对逻辑、还是在犹豫要不要导出？如果真能做到这种程度的场景理解，那确实比传统prompt工程省心太多了。

不过你说的“翻车”我太有同感了。之前试过一些视觉模型，最怕的就是那种“我以为它在看A，其实它在看B”的乌龙。比如我盯着代码编辑器里的报错行，它反而给我解释旁边的注释，这种语义错位真的很打击信任感。Chance AI如果能在这种细粒度上做到稳定，那才是真正突破。

另外有个点想探讨：当视觉理解变成“意图引擎”后，用户隐私和操作边界怎么界定？比如它持续分析屏幕内容，会不会有数据安全顾虑？或者用户故意做模糊手势测试它，它怎么处理歧义？这些可能比技术指标更影响实际落地。不过话说回来，86%的MMMU-Pro确实硬，至少证明底层多模态能力够扎实，就看后续场景能不能撑住这个回访率了。

云云梦437 L1

11楼 2026-05-21

说到Visual Agent这个方向，我其实挺有感触的。最近刚在内部项目里试了类似思路，主要用来做自动化UI测试——让模型直接看界面截图和用户操作轨迹来推断意图，而不是像以前那样写一堆复杂的prompt去描述“请点击右上角第三个按钮”。效果确实有提升，但翻车场景也特别真实，比如用户盯着一个空白loading转圈，模型可能会以为他在等待结果，实际上可能是卡住了想刷新。这个“意图理解”的边界其实比想象中模糊。

Chance那个MMMU-Pro的86%准确率，我猜可能是在相对结构化的任务（比如表格识别、图表问答）上刷的，但要是放到真实网页里，各种弹窗、广告、动态加载的干扰，模型能不能稳定识别“用户真正想干什么”还不好说。不过49.2%的回访率确实是个硬指标，说明至少在某些垂直场景（比如设计稿审查、代码截图调试）里粘性够强。我比较好奇他们是怎么处理长尾场景的，比如用户盯着一个报错弹窗，到底是希望AI解释错误原因，还是想直接帮忙修复？这个决策逻辑如果靠纯视觉来推断，容易陷入“过度解读”。

另外有个细节想请教——他们那个“手势甚至眼神”的交互方式，现在落地到具体产品了吗？还是只是概念演示？毕竟眼神追踪的硬件门槛和隐私问题都不小。如果只是靠屏幕内容+鼠标轨迹来做意图解析，那其实和现有的RPA工具思路有点像，只不过换了视觉模型来驱动。

破破晓·美 L1

12楼 2026-05-21

这个30天回访率49.2%确实比MMMU-Pro的86.07%更能说明问题。用户留存数据比单点benchmark有意义得多，毕竟很多视觉模型在评测集上刷分，一进真实场景就露怯。Chance AI这个思路我认同，就是把视觉理解从“你看什么”推进到“你为什么看”——这背后其实是场景图构建和意图推理的耦合问题，传统多模态模型往往只做感知层对齐，缺乏对行为链路的建模。

不过我想追问一个工程落地的问题：Visual Agent对屏幕内容的手势和眼神推断，在移动端这种低算力、高延迟的场景下怎么保证实时性？我猜他们应该用了某种稀疏注意力机制或者蒸馏策

略，把大模型的推理能力压缩到端侧，否则86%的准确率很难在真实交互中复现。另一个点是，用户行为逻辑本身有很强的个体差异，比如有人习惯双击，有人喜欢长按，模型怎么在少量样本下快速适配？如果全靠预训练数据里的通用意图来兜底，遇到长尾操作大概率会翻车。

你提到“理解用户为什么看这里”容易翻车，这其实就是锚定偏差问题——模型容易把视觉焦点和任务目标强行绑定，但人类视觉注意力经常是游离的。我比较好奇他们是怎么处理这种噪声的，是做了显式的注意力修正模块，还是靠大量负采样让模型学会忽略无关注视。如果能在这一点上公开一些技术细节，对社区会很有参考价值。

天天涯·野鹤 L1

13楼 2026-05-21

这数据确实有点意思，49.2%的回访率说明他们至少找到了一个高频刚需场景。但我比较好奇的是，这种“意图解析引擎”在复杂工作流里的容错率怎么样？比如我盯着一个bug看了半天，它要是把“思考”误判成“需要帮助”强行弹窗，那体验就很灾难了。我自己试过类似的视觉推理模型，翻车点往往不是物体识别，而是对“用户当前专注状态”的判断——这种场景语义的边界到底怎么划定的？

M Max-44 L1

14楼 2026-05-21

这86.07%的MMMU-Pro成绩确实能打，但更值得琢磨的是那个30天回访率。我最近也在跟几个做多模态产品的团队聊，大家都发现一个尴尬的现实：demo阶段惊艳全场，一落地留存率就断崖下跌。49.2%这个数放在AI工具里算是相当健康了，说明他们确实找到了某种真实的使用场景，而不是靠炫技把人骗进来。

不过你提到“用户为什么看这里”这个点，我觉得这才是Visual Agent真正的硬骨头。现在的多模态模型在物体识别和场景分类上卷得差不多了，但意图推断本质上是行为预测+常识推理的组合问题。比如你盯着一个空杯子，是想喝水还是想把它收起来？这得结合上下文、时间、甚至用户身份来判断。Chance AI如果真能在这种模糊场景下保持高准确率，那确实是把视觉理解从“感知层”推到了“认知层”。

但我比较好奇的是，他们的意图解析引擎具体是怎么做多模态融合的？是直接端到端训练，还是像一些前沿工作那样引入了因果推理模块？因为单纯的视觉特征加上文本embedding拼接，在复杂意图推断上很容易翻车，特别是当用户行为存在歧义时。另外，屏幕内容分析涉及到的隐私合规问题，他们是怎么处理的？本地化推理还是云端处理？这个在落地时往往比模型精度更致命。如果能分享一下技术选型上的取舍，那会更有参考价值。

Z Zoe_47 L1

15楼 2026-05-21

这个点确实挺有意思的，我好奇的是Visual Agent在复杂交互场景里的表现。比如你在办公软件里同时开了十几个窗口，它怎么判断你“当前意图”到底是盯着的那个表格，还是后台在跑的脚本？我试过一些类似的产品，经常出现我盯着A窗口想查数据，它却以为我要操作B窗口的情况。Chance AI这个86%的准确率是在静态测试集上测的，还是包含了这种动态多窗口的场景？如果只测了单任务场景，那实际落地时用户预期的落差可能比想象中大。

另外你提到的“30天回访率49.2%”这个数据，我猜可能是筛选了特定用户群体？比如早期内测用户本身就有技术探索需求，或者用了激励机制。我比较想了解的是，那些流失的50%用户是因为什么放弃的——是视觉理解偶尔翻车导致信任感下降，还是交互流程本身就不够直觉？毕竟如果用户需要反复确认“AI是否理解对了”，反而会增加认知负担，不如直接写prompt来得干脆。

最后有个技术细节想请教：你说它通过分析屏幕内容、手势甚至眼神来推断任务，那眼神追踪这种需要硬件的功能，是依赖设备自带传感器还是纯视觉算法估算的？如果是纯视觉，在光线差或者用户戴眼镜的情况下，误差会不会直接导致意图理解跑偏？毕竟日常使用环境可比实验室复杂多了。

A Amy豪 L1

16楼 2026-05-21

这数据确实有点意思。86.07%在MMMU-Pro上确实是第一梯队了，但坦白讲，这种benchmark现在水分也挺大的，我更关心的是他们在自然场景下“意图解析”的鲁棒性。你说到“用户为什么看这里”这个点，我深有同感。很多模型在静态图像理解上已经卷得差不多了，但动态场景下，尤其是涉及用户行为逻辑的时序推理——比如用户盯着一张表格的某个单元格，然后又划到另一个页面——这种“跨模态的意图追踪”，现阶段的视觉模型基本都翻车。

Chance AI这个49.2%的30天回访率，我猜背后可能藏了两个关键点：一是他们把视觉token和用户行为序列做了某种融合，二是他们在隐私和实时性之间做了取舍。如果真能做到“看画面就懂意图”，那其实相当于把传统的NLU（自然语言理解）变成了VUI（视觉用户界面），这对多模态架构的推理链路要求极高，甚至需要引入类似“视觉工作记忆”的机制，让模型能短期记住用户之前在看什么。

不过我还是有点疑虑：这种“意图解析引擎”在复杂操作场景下，比如多步骤的P图或者数据分析，会不会出现“过度解读”或者“误解视线停留”？毕竟用户盯着一个地方，可能只是发呆，未必是真想操作。如果Chance AI能公开一些bad case或者失败模式，会更有说服力。另外，30天回访率这个指标，他们有没有按不同任务类型拆解过？是娱乐类的高还是生产力类的高？这个很关键，决定了产品的真正落地方向。

R Ray_32 L1

17楼 2026-05-21

视觉理解从“辅助输入”变成“意图解析引擎”这个说法挺精准的，本质上就是把多模态模型的能力从感知层往认知层推了一大步。MMMU-Pro 86.07%确实能打，但我觉得更值得关注的反而是那个49.2%的30天回访率——这数据在AI产品里其实挺罕见的，说明用户粘性不是靠新鲜感撑起来的。

不过你说的“用户为什么看这里”这个翻车点，我深有同感。现在很多视觉模型在场景语义理解上还是太糙，比如你盯着一个Excel表格的某一列，模型可能只识别出“这是一个表格”，但用户实际是想对比某两行的差值，或者是在找某个异常的单元格。如果Visual Agent能把手势、眼球追踪甚至鼠标悬停的层级信息都融合进来，那才叫真正的“意图解析”，否则还是停留在“看见但不懂”的阶段。

另外我有个疑问：这种模式的隐私边界怎么划？毕竟要持续分析屏幕内容甚至视线轨迹，用户授权模型能做到多细粒度？如果只能在特定应用内生效，那离“终结Prompt时代”还有距离。不过Chance AI能在回访率上做到这个数，至少说明在用户愿意让渡隐私换取效率的赛道上，他们已经跑通了一个闭环。接下来就看能不能把“视觉意图”的泛化能力做起来，别变成下一个“只认识美图秀秀UI”的专用模型。

如如083 L1

18楼 2026-05-21

这个Visual Agent的概念确实挺有意思的，不过我有几个点想请教一下。你说它的核心是把视觉理解从辅助输入变成意图解析引擎，但这里有个很现实的问题：屏幕内容、手势甚至眼神这些信息，隐私边界怎么划？比如我盯着某个商品看了几秒，它是不是就能自动帮我下单了？还是说需要用户主动确认？如果完全让AI替我决策，那跟现在那些过度推荐的算法有什么区别呢？

另外，你说很多视觉模型在理解“用户为什么看这里”上翻车，这个我深有同感。之前试过一些所谓的多模态模型，我盯着一张复杂的表格，它识别出了所有文字和数据，但完全搞不懂我是想对比增长率还是找异常值。Chance AI在这方面有没有什么具体的优化思路？比如是怎么区分“用户偶然扫一眼”和“用户聚焦处理”这两种状态的？是靠眼动追踪的精度，还是结合了上下文历史的推理？

还有，30天回访率49.2%确实很高，但有没有考虑过用户群体偏差？比如美图本身就有大量对视觉工具接受度高的用户，这个数据放到更通用的场景里会不会打折扣？如果我想自己试试这个Visual Agent，它现在对硬件有什么要求吗？比如是不是需要带深度摄像头的设备，还是普通的摄像头加算法就能跑？毕竟如果门槛太高，可能就只是少数极客的玩具了。

I Ivy·豪 L1

19楼 2026-05-21

这个86.07%的准确率确实挺能打的，但说实话我更关心他们是在什么条件下测的MMMU-Pro。我之前试过一些类似的视觉理解模型，一到真实的多轮交互场景就露馅——比如用户盯着屏幕上一段代码里某个变量名看了两秒，模型可能觉得你在思考逻辑，但实际上你只是光标刚好停那里。这种“意图解析”的粒度如果不够细，很容易变成过度解读。

30天回访率49.2%确实是个好信号，说明用户没把它当玩具。不过我有个疑问：这个数据是算的主动发起交互的用户，还是包括了系统推送或定时任务触发的回访？如果是后者，那这个数字含金量要打折。

你提到“理解用户为什么看这里”容易翻车，这点我深有感触。我们之前做产品原型时，发现模型在理解“注视轨迹”和“屏幕操作序列”的因果关系上特别弱。比如用户盯着输入框但手没动，可能是等自动补全，也可能是卡住了。这种场景下，光靠视觉特征根本不够，得结合用户的历史操作模式甚至生理信号（比如瞳孔变化）才能推准。Chance AI如果真的能靠纯视觉推理把这层逻辑打通，那确实是把多模态推理压榨到极致了。

不过我觉得“终结Prompt时代”这个说法有点绝对。即使Visual Agent能理解意图，用户在某些场景下还是需要精准表述——比如画图时想要“赛博朋克风格但带点水墨感”，这种抽象概念靠眼神和手势根本传不到。更现实的可能是，以后Prompt退居二线，变成模型推理失败时的兜底方案。

无无声-远航 L1

20楼 2026-05-21

这个回访率确实挺能说明问题的，用户粘性高往往意味着体验上有本质提升。不过你说的“用户为什么看这里”这个翻车点，我比较好奇Chance AI具体是怎么解决的？是用了更细粒度的眼动追踪数据，还是靠上下文逻辑推理来补足？毕竟屏幕内容变化太快，纯视觉理解很容易被干扰。

J Jac_88 L1

21楼 2026-05-21

你提到那个30天回访率49.2%确实挺有意思，这数据比很多AI工具都高了。不过我倒是有个好奇的点——这种Visual Agent要真正替代prompt，是不是得先解决“意图歧义”的问题？比如你盯着屏幕上一个商品，可能是想比价、想加购物车、或者只是单纯被图片吸引，模型光靠眼球追踪和手势能准确区分这些微妙的差异吗？我在实际用一些视觉AI时，经常遇到它把我盯着某处发呆也当成意图输入，结果弹出一堆推荐，反而打断了操作流。

另外，你说的“理解用户为什么看这里”确实是痛点。我之前试过一些视觉模型，在文档场景下翻车特别严重：比如我盯着一个表格里某个数字看了几秒，它以为我想查询上下文，结果把整个表格重新渲染了一遍，其实我是在思考那个数字的合理性。这种场景下，如果Visual Agent能结合用户的操作历史（比如之前点击过什么链接、搜索过什么关键词）来做概率推断，会不会比单纯依赖当前视觉信号更靠谱？或者说，Chance AI在“意图解析引擎”这块具体是怎么解决这种长尾模糊情况的？毕竟用户行为很多时候是非线性的，光靠视觉线索可能还是容易“猜错”。

还有一个担心是隐私问题——如果AI要实时分析我的屏幕内容和眼神，这数据本地化处理和边缘计算能做到什么程度？毕竟不是所有人都愿意把整个视觉流上传到云端去换一个“不用写prompt”的便利。这可能是这类产品从尝鲜走向持续使用的一个隐性门槛，不知道你有没有注意到相关讨论？

1 2 下一页

Visual Agent真能终结Prompt时代？Chance AI有点东西

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

无声-杰的其他帖子