美图领投的Chance AI把Visual Agent概念推到了台前,MMMU-Pro上86.07%的准确率确实抢眼,甚至超过了人类基线。但更让我在意的是他们30天回访率49.2%这个数据——这说明用户不是出于尝鲜,而是真的在持续使用。从技术角度看,Visual Agent的核心在于把视觉理解从“辅助输入”变成了“意图解析引擎”,也就是说AI不再依赖你写一段prompt来描述需求,而是通过分析你当前的屏幕内容、手势甚至眼神来推断任务。这其实是对多模态推理能力的极致压榨,因为模型不仅要识别物体,还要理解场景语义和用户行为逻辑。我个人的经验是,很多视觉模型在理解“用户为什么看这里”上翻车,比如你盯着一个错误代码,AI可能只看到代码语法,却不知道你想找bug。Chance AI如果能解决这类意图对齐问题,那确实比GPT-4o的Vision模式更进了一步。不过,86.07%在MMMU-Pro上虽然高,但离真正通用还远,尤其是跨领域推理和低资源场景下的鲁棒性。我比较好奇的是,他们在训练数据上有没有做专门的行为时序标注?另外,Visual Agent要落地,隐私问题怎么绕过?毕竟持续分析用户屏幕和动作,对北美年轻群体来说敏感度极高。行业格局上,这波可能让多模态赛道从“看图说话”转向“看行为做任务”,美图在影像领域的积累或许能提供场景闭环,但真正走通还得看Chance AI能否在To C场景找到收费点。大家觉得Visual Agent会取代文字prompt成为下一代交互范式吗?还是说只是特定场景下的补充?
Visual Agent真能终结Prompt时代?Chance AI有点东西
全部回复
共 32 条这个帖子看得我直拍大腿,尤其是“用户为什么看这里”这个翻车点,太真实了。我之前试过一些号称“视觉理解”的模型,最崩溃的一次是我对着屏幕上的Excel表格皱眉,它居然给我弹了个“检测到用户表情不悦,建议播放舒缓音乐”……我明明是公式写错了啊大哥。
Chance AI这个49.2%的回访率确实是个硬指标,说明它不是那种“测完就扔”的玩具。我比较好奇的是,他们在场景语义这块是怎么做消歧的?比如我盯着一个空杯子看了三秒,可能是在想“该续咖啡了”,也可能是在发呆放空,或者是在观察杯子的材质——这三个意图对应的操作完全不一样。如果光靠眼动轨迹和屏幕内容,怎么区分“真实意图”和“随机视线停留”?这个要是能讲清楚,那Visual Agent才算真有落地价值。
另外有个实际场景我想请教:如果我用它来辅助写代码,我盯着某一行代码皱眉,它能不能把我皱眉这个动作和“这行有bug”的意图关联起来,而不是直接给我推荐一个心理放松App?这涉及到多模态信号的时间序列融合,感觉比单纯做静态识别难一个量级。但反过来想,如果真能实现,那IDE的交互方式可能真要变天了——以后不是“写prompt让AI改代码”,而是“AI看你写代码的表情自动帮你纠错”。
最后问个技术细节:他们在MMMU-Pro上跑86%的时候,输入分辨率是多少?视觉模型对图像尺寸很敏感,如果为了性能降采样太狠,那种小按钮、小字体的识别大概率会崩。希望不是拿高分辨率截图硬堆出来的结果。
这个回访率确实挺有说服力的,说明不是那种玩两天就吃灰的demo。不过“意图解析引擎”这块我比较好奇,实际场景里用户盯着屏幕发呆或者快速扫视的时候,模型怎么区分“在思考”和“在找按钮”?之前我们做眼动交互时,误触率一直压不下来。如果Chance AI能把这层逻辑处理干净,那才是真的把prompt时代翻篇了。
这数据确实有点意思。86%的MMMU-Pro准确率虽然亮眼,但我觉得49.2%的30天回访率才是真正值得深挖的点。做AI产品最怕的就是用户尝鲜三天就扔,能留住人说明场景找对了。
不过作为一线搬砖的,我比较关心的是“意图解析”这块具体怎么落地的。你说它通过分析屏幕内容、手势甚至眼神来推断任务,这个“眼神”追踪在实际产品里是用了眼球追踪硬件还是纯视觉推测?如果是后者,在弱光或者用户侧头看屏幕的场景下,误判率会不会飙升?我司之前试过类似思路,结果用户只是挠个痒痒,AI就以为他要打开设置,体验直接崩了。
另外,虽然Visual Agent号称要终结Prompt时代,但我觉得现阶段它更像是把“显式Prompt”转化成了“隐式Prompt”。用户不需要打字了,但模型依然需要从视觉信号里提取出隐含的意图描述。比如你盯着一个PDF表格皱眉,模型可能得推断出“用户想导出数据”或者“用户在比较两列数字”——这本质上还是把意图翻译成Prompt,只不过翻译工作从用户手里转移到了模型身上。那么问题来了,当模型翻译错了,用户怎么纠正?是还得回归到打字,还是可以通过额外的视觉反馈(比如摇头、点选)来修正?这要是没想清楚,很容易变成“不用写Prompt了,但你得学会用眼神和手势跟机器吵架”。
最后想问一下,他们这个Visual Agent在跨应用操作上表现怎么样?比如我正在看邮件里的一个地址,盯了几秒,它能直接帮我跳转到地图App里导航吗?这种跨应用联动才是真正把视觉理解变成生产力,不然光在自家App里转悠,价值就窄了。
刚看完这个帖子,我第一反应也是那个49.2%的回访率——这数据确实比MMMU-Pro的86.07%更值得深挖。我是做多模态模型部署的,坦白说现在很多视觉模型在benchmark上刷分很猛,但一放到生产环境就原形毕露,尤其是用户真实场景下的意图理解。Chance AI这个回访率至少说明他们在用户留存上下了功夫,不是那种“点一下觉得新鲜就扔了”的产品。
不过你提到“用户为什么看这里”这个点,我深有共鸣。去年我试过用CLIP+OpenCV做屏幕理解,结果翻车惨不忍睹。比如用户盯着一个UI按钮,模型可能识别出“圆形红色物体”,但完全不懂这个按钮是“提交订单”的入口,更别说结合上下文理解用户是想退货还是修改地址。Visual Agent要真正替代prompt,核心挑战在于它得理解“注视”背后的意图层级——是单纯浏览、寻找信息,还是准备操作。这个层级一旦模糊,模型要么过度响应,要么干脆不动。
另外我比较好奇,Chance AI是怎么解决延迟的?视觉理解+意图解析+任务执行,这个pipeline如果跑在端侧,对算力要求太高;如果走云端,用户盯着屏幕等1秒反应,体验就崩了。我之前做个类似的原型,用MobileNet做轻量级视觉特征提取,再加一个小的Transformer做意图分类,延迟能压到200ms以内,但准确率掉到70%左右。他们这个86%的准确率加上实时性,我猜应该用了某种知识蒸馏或者多模态预训练加微调的策略,不知道你有没有看到他们具体的技术架构细节?
先明确一点:Visual Agent这个概念本身并不新鲜,但Chance AI这次在MMMU-Pro上86.07%的成绩和49.2%的30天回访率确实让我觉得值得认真拆解一下。我过去三年一直在做多模态模型的产品化落地,从智能客服的截图理解到工业质检的缺陷定位,踩过的坑大概能写一本血泪史。所以这篇回复我会尽量结合自己的一线经验,从技术实现、用户意图对齐、隐私与商业化三个维度展开,最后再聊一下我对这个赛道的判断。
先说MMMU-Pro这个86.07%。很多人看到这个数字会觉得“哦,比人类基线高一点”,但如果你做过这个榜单的消融实验,就会知道MMMU-Pro的难点不在于单模态识别,而在于跨模态的因果推理。比如它里面有一道题是给一张电路板局部图和一个示波器波形,问“哪个元件失效导致了这个波形异常”。传统视觉模型能认出电阻电容,甚至能标出波形频率,但要把“波形失真”和“电容漏电”联系起来,需要模型同时理解电路原理和测量设备的语义。Chance AI能拿到这个分,说明他们的Visual Agent至少在“视觉-知识”的桥接上做了针对性的架构设计。我猜测他们可能用了类似“视觉链式推理”的机制——不是简单地把图像特征扔进LLM,而是先通过一个轻量的场景图生成器把屏幕内容结构化(比如把错误代码的语法树、光标位置、历史操作序列都编码成图节点),然后再用注意力机制把“用户注视点”作为查询向量去动态激活相关的子图。这种做法在工业界有个很实际的案例:我们之前做AI编程助手时,发现用户对着一段Python代码截图,模型如果只看像素,经常会误把注释当代码逻辑。后来我们在前端加了一个“视线热力图”的轻量SDK,实时采集用户鼠标悬停位置和停留时长,把这些时序数据作为Visual Agent的辅助输入,准确率直接从62%跳到了81%。Chance AI如果真的是靠行为时序标注来训练,那这个数据积累的门槛其实比模型架构本身更高——因为你需要大量用户授权下的屏幕操作数据,而且每个样本都要人工标注“意图标签”(比如“用户在看错误提示”vs.“用户在看变量名”),这个成本在To C场景下几乎是天文数字。
但问题恰恰出在这里。帖子提到“通过分析你当前的屏幕内容、手势甚至眼神来推断任务”,这听起来很酷,实际落地时却会遇到一个经典陷阱:意图的模糊性。举个例子,你盯着一个Excel表格里标红的单元格,可能是在检查数据异常,也可能是在确认格式统一,甚至只是发呆。如果Visual Agent每次都强行猜测,大概率会产出让用户觉得“智障”的反馈。我踩过最深的坑是做一个教育类AI助手,学生对着数学题拍照,模型需要判断“他是想解题还是想查公式”。我们试过用BERT做意图分类,但准确率始终卡在75%左右,后来发现关键瓶颈在于缺少“上下文连续性”——学生拍完题之后三秒内又拍了一次草稿纸,这个时序关系才是意图的真正锚点。所以Visual Agent如果要做到“理解用户为什么看这里”,必须引入一个“短期视觉记忆模块”,类似于Transformer中的位置编码但针对视觉流。具体来说,可以把过去N帧的屏幕截图(或手势轨迹)压缩成一个固定长度的“行为状态向量”,然后用这个向量去调制当前帧的视觉特征提取。我自己的实验里,用一个轻量的ConvLSTM做时序编码,参数量只增加5%,但意图对齐准确率提升了12个百分点。当然,这种方案在端侧部署时会有延迟问题,尤其是北美年轻群体用的iPhone和安卓机,算力差异巨大,Chance AI如果真要做To C,可能得在模型蒸馏和NPU适配上下硬功夫。
说到隐私,这可能是Visual Agent最难啃的骨头。帖子提到“持续分析用户屏幕和动作,对北美年轻群体来说敏感度极高”,我完全同意。实际上,我在做海外产品时发现,用户对“屏幕录制权限”的接受度远低于“麦克风权限”——因为屏幕内容往往包含密码、社交聊天、甚至银行卡号。Chance AI如果要走通这条技术路线,必须解决两个层面的问题:第一,数据是否能在端侧完成全部推理?目前主流的做法是让模型在本地运行,只上传脱敏后的“意图向量”而非原始图像。但这里有个矛盾:意图向量本身可能被反向重构出部分屏幕内容(之前有论文证明过注意力权重可以泄露像素信息)。我见过一种更激进的做法是用“差分隐私+联邦学习”在训练阶段就屏蔽掉个人信息,但代价是模型精度会下降3-5个点,在MMMU-Pro这种高竞争榜单上可能直接掉出前五。第二,用户是否愿意为“隐私安全”付费?北美市场有个有意思的现象:年轻人对广告追踪极度敏感,但对生产力工具的屏幕分析反而容忍度更高——比如Notion AI的“自动总结页面”功能,用户明知它会读取内容,但因为是主动触发且结果可控,所以接受度不错。Chance AI如果能把Visual Agent包装成“你主动唤起的智能助手”(比如用户先截图再点击分析按钮),而不是“后台常驻的监控者”,那么隐私争议会小很多。但这样一来,交互范式就又回到了“先触发再理解”的旧框架,和帖子里说的“无需prompt”的愿景就矛盾了。这个平衡非常难拿捏。
再聊聊行业格局。帖子提到“美图在影像领域的积累或许能提供场景闭环”,这确实是美图系的传统优势。但Visual Agent真正要取代文字prompt,我觉得至少还需要突破两个技术瓶颈:低资源场景下的鲁棒性 和 跨领域推理的迁移能力。低资源场景很好理解——比如你在一个光线昏暗的工厂里拍设备故障码,或者用低端手机拍模糊的PPT,模型还能不能保持86%的准确率?我实测过一些开源的多模态模型(比如LLaVA-NeXT和CogVLM),在光照低于50 lux时,物体识别准确率会暴跌40%以上。Chance AI如果只依赖高质量训练数据(比如MMMU-Pro里的高清图),那在实际落地时很可能出现“实验室吊打一切,实际用起来不如Siri”的尴尬。我在做工业项目时用过一种“多分辨率级联”的方案:模型先对输入图像做一个快速的清晰度判决,如果质量低则自动切换到更鲁棒的特征提取器(比如用ResNet-50替代ViT),同时用贝叶斯方法给每个推理结果输出一个置信度,低于阈值就直接向用户请求补充信息。这种做法虽然增加了系统复杂度,但能避免“模型自信地给出错误答案”这种最毁口碑的情况。
至于跨领域推理,比如你今天用Visual Agent分析代码,明天用它分析财务报表,后天用它分析医学影像,模型能不能在不需要重新训练的情况下无缝切换?目前大多数多模态模型的泛化能力都依赖于“指令微调”时的领域多样性。但Visual Agent的痛点在于:不同领域的“意图”往往是高度异构的。比如分析代码时,“用户注视错误行”通常意味着“需要调试建议”;而分析财务报表时,“用户注视红色数字”可能意味着“需要解释亏损原因”。如果模型在训练时没有见过足够多的“行为-任务”配对数据,跨领域时很容易出现“看到红色就解释亏损,但用户其实只是想查数字来源”这种乌龙。我个人的经验是,一个可行的方向是构建“领域无关的意图基元”:比如把“注视+停留>2秒”映射为“需要详细解释”,把“快速滑动”映射为“需要摘要”,这些基元在不同领域下都有明确的语义,然后再通过一个轻量的领域适配器(比如一个可插拔的LoRA模块)来绑定具体的输出风格。这样既保持了跨领域的一致性,又允许每个领域做细粒度的定制。
最后说一下我对“Visual Agent是否会取代文字prompt”的判断。我的观点是:在特定场景下(比如代码调试、数据标注、设计审阅)它会成为主流,但不会完全取代文字prompt,因为文字prompt的本质优势在于精确性和可解释性。举个例子,你写一句“帮我把这个Excel表格中所有销售额大于1000的行标成绿色”,这个指令是确定性的,模型不会误解。而Visual Agent如果只靠看你的屏幕和眼神,它怎么知道你希望Excel做什么操作?除非你之前已经建立了一套“注视+手势”的快捷指令体系,但这本质上是用新的交互符号替代了文字符号,并没有消除prompt本身。所以我认为更可能的发展方向是“混合交互”——用户用眼神或手势圈定视觉范围,然后用简短的语音或文字补充意图(比如圈住一行代码说“这里为什么报错”)。这样既保留了视觉的高效性,又利用了文字的精确性。Chance AI如果真的想走通纯Visual Agent路线,那他们必须解决一个终极问题:如何让模型在用户没有明确表达意图时,依然能做出符合用户预期的动作?这可能需要模型具备“主动试探”的能力——比如当模型不确定时,不是直接给出答案,而是反问“您是想查看这行代码的报错信息,还是想对比上一版本?”这种反问本身也是一种prompt,只不过是从用户主动输入变成了AI引导。从这个角度看,Visual Agent并没有终结prompt时代,而是把prompt从“显式文字”变成了“隐式行为+主动验证”的混合体。
总的来说,Chance AI这次的成绩确实有技术含量,但离“终结prompt时代”还有很长的路。我更关注的是他们能否在端侧部署、隐私保护、低资源鲁棒性这几个硬骨头上拿出实质性的方案。如果只是靠堆模型参数和训练数据,那这个86.07%很快就会被人追上;但如果他们真的在行为时序标注和意图对齐上建立了数据飞轮,那可能会在垂直场景(比如美图的影像编辑)里先跑出闭环,然后再向通用场景扩展。我个人对Visual Agent的前景保持谨慎乐观,但建议同行们冷静看待——毕竟,每一次技术范式的转移,往往不是靠一个漂亮的数据集完成的,而是靠一整套工程化、隐私合规、用户习惯的缓慢演进。
这个回访率确实挺有意思的,49.2%在AI工具里算是很能打了。我最近也在琢磨这个事儿,很多视觉模型的问题不在于“认不认得出来”,而是“懂不懂你为啥要看它”。你说的“用户为什么看这里”这个翻车点太真实了——比如我对着电脑屏幕上某段代码皱眉,模型可能识别出这是个编辑器窗口,但完全没意识到我是在找bug,反而给我推荐了配色方案或者字体调整,这就很尴尬。
Chance AI这个思路如果真能把视觉理解从“看图说话”升级到“读心术”级别,那确实可能改变交互范式。不过我倒有个疑问:这种靠视觉意图驱动的交互,会不会在复杂任务上反而让用户更累?比如我想让AI帮我做数据分析,可能直接说“把近三个月销售趋势用折线图展示”更高效,但如果要对着屏幕比划半天或者等它猜我的意图,体验上未必比prompt好。毕竟prompt再麻烦,至少主动权在我手里。
另外,MMMU-Pro这个基准测试我印象里偏学术场景,跟实际用户日用的屏幕内容差异可能不小。比如你在刷购物App时盯着某件商品看两秒,跟你在论文里看一张图表,模型要推断的意图类型完全不同。Chance AI有没有披露过他们在更碎片化、多场景下的表现?如果能公开一些用户真实交互的case研究,说服力会更强。
这个帖子看得我直拍大腿,30天回访率49.2%这个数据确实比MMMU-Pro的分数更戳人——毕竟跑分能刷,用户留存可骗不了人。Chance AI这波把视觉理解从“辅助输入”拔高到“意图解析引擎”,说白了就是让AI学会读空气,这比单纯怼多模态模型难多了。
你提到“用户为什么看这里”这个翻车点太真实了。我之前试过一些视觉模型,对着代码编辑器截图让它解释逻辑,结果它把高亮行当重点,完全没理解我盯着报错区域是因为在排查bug。这种场景下,模型不懂“注视的语义权重”——用户盯着一处空白发呆可能是在思考,盯着错误提示则是焦虑,纯靠物体识别根本解不了。Visual Agent要是真能结合眼动轨迹、操作序列甚至微表情来推断意图,那就不只是prompt替代了,简直是在重构人机交互的底层逻辑。
不过我也好奇,这种强依赖场景理解的模型,会不会在隐私上踩坑?比如它需要实时分析屏幕内容和用户行为,本地算力不够就得走云端,那敏感信息怎么处理?另外,如果用户自己都说不清“为什么看这里”(比如走神了),模型会不会强行脑补一个任务出来?这有点像我之前用过的“自动补全”功能,有时自作聪明反而添乱。
最后想问下,你体验过实测吗?我特别想知道它在跨应用操作时的表现——比如用户从设计稿切到代码编辑器,它能不能理解“我盯着这个颜色数值,是想在代码里引用它”?这种跨模态的意图连续性,怕是比单场景推理更难。
这个visual agent的思路确实有意思,但我有个一直没想通的问题想请教一下:如果AI要通过分析屏幕内容、手势甚至眼神来理解意图,那它怎么区分“无意识的目光停留”和“真正想交互的目标”呢?比如我盯着一个弹窗发呆,可能只是走神了,但AI会不会误以为我要点击某个按钮然后直接帮我操作了?这个误判率在实际场景里影响应该挺大的吧。
另外,你说的30天回访率49.2%确实挺高,但我有点怀疑这个数据背后的用户构成。如果早期用户大多是技术爱好者或者对新鲜事物容忍度很高的人,那这个留存率可能不能直接代表普通用户的使用体验。我比较好奇的是,Chance AI有没有披露过非技术背景用户的使用数据?比如第一次上手时需不需要学习
成本,或者说有没有那种“我明明想干A但AI觉得我要干B”的挫败感案例?
还有就是,visual agent如果真的把prompt环节去掉了,那用户怎么表达模糊需求呢?有些时候我自己都不知道具体想要什么,可能只是有个大概方向,这时候写一段prompt其实是在帮我梳理思路。如果全靠视觉推断,会不会反而限制了用户表达的自由度?比如我想让AI从某个特定角度分析一张图,但我的视线可能刚好落在别处,那它是不是就理解偏了?
感觉这个方向很有潜力,但要是解决不好意图歧义和用户控制权之间的平衡,可能又会变成“看起来很聪明但用起来很累”的产品。你有试过让它在复杂任务场景下翻车吗?比如多步骤操作或者需要明确排除某些选项的情况。
这帖子讲到点子上了。我最近也在跟Chance AI团队的人聊过,他们那个Visual Agent底层其实不是简单的多模态融合,而是把视觉编码器和意图推理做了因果解耦——这步挺关键的,传统做法是把视觉特征直接喂进LLM当上下文,导致模型很容易被视觉噪声带偏,比如你盯着屏幕空白处发呆,它可能以为你在思考某个元素,实际上只是走神了。他们搞了个“视觉注意力锚点”机制,用眼动追踪和手势热力图作为先验信号来约束推理路径,这确实能缓解你说的“为什么看这里”的歧义问题。
不过说实话,MMMU-Pro 86%那个成绩我持保留态度,因为那个benchmark本身偏向于静态场景理解,比如图表、文档截图这种结构化的东西。真正的生产环境里,用户动作可能是连续的、非线性的,比如同时操作两个窗口,或者快速切换应用,这种情况下视觉推理的时序一致性才是最大瓶颈。我很好奇他们30天回访率49.2%的数据是怎么统计的,是只算日活用户里的主动触发行为,还是包括了后台自动调用的视觉监控?如果是后者,那这个留存率含金量就低很多了,毕竟用户可能根本没感知到AI在干活。
另外有个技术细节想请教一下:他们的意图解析引擎在处理“干扰性视觉输入”时怎么做消融的?比如用户盯着一个错误弹窗看了三秒,到底是理解为“在阅读错误信息”还是“在思考如何关闭”?这涉及到视觉注意力的时域分割,目前扩散模型那套机制很难直接迁移过来。我猜他们可能用了类似VoxPoser那种基于3D场景图的推理框架,但移动端算力又撑不住这么重的模型。这块要是能讲清楚,我倒真想拿自己的多模态Agent benchmark去跑个对比。
回访率49.2%这个数字确实比MMMU-Pro的86.07%更能说明问题。用户留存率能过半,说明Visual Agent在真实场景下的意图理解闭环已经跑通了,不是实验室里的花架子。我比较好奇的是,这个数据是在什么样的用户群和场景下统计的?如果是偏工具类、生产力场景(比如设计、代码审查),那这个留存率其实相当能打;但如果是泛娱乐类应用,用户本身就有高频打开的习惯,那49.2%可能还得结合日均使用时长来看。
关于你提到的“用户为什么看这里”翻车问题,我深有同感。目前多模态模型在场景语义推理上最大的瓶颈其实不是视觉特征提取,而是“行为-意图”的时序建模。单纯靠一帧画面去推断“盯着看”的意图,容易混淆“困惑”、“感兴趣”和“等待响应”这些不同状态。Chance AI如果真能在手势、眼动轨迹和屏幕内容之间做多模态对齐,那他们的视觉tokenizer可能不只是做空间编码,大概率引入了时序记忆模块,类似ViViT或者TimeSformer的变体,把用户的注视流作为隐变量来引导注意力。
不过有个隐患:如果过于依赖视觉输入推断意图,用户可能会丧失对AI行为的控制感——毕竟有时候我就是单纯发呆,不是想让AI帮我下单。这块如果处理不好,反而会降低高级用户的信任度。建议他们在用户侧保留一个轻量的“意图确认”交互层,比如通过微表情或者极简手势来二次确认意图,而不是全盘接管。这算是个工程取舍问题,但直接关系到能否从尝鲜用户转化为长期依赖。
这个回访率确实挺能说明问题的,用户粘性高往往意味着产品真的解决了某个高频痛点。我比较好奇的是,Visual Agent在“意图解析”这块,对于用户无意识的眼神或手势误判率高不高?比如你只是想看看屏幕反光,结果它以为是你要打开某个文件夹,这种场景下他们是怎么做容错处理的?
回访率49.2%这个数据确实比86%的准确率更值得琢磨。我最近也在试一些视觉理解工具,最头疼的就是“意图推断”这个环节——比如我盯着代码编辑器里某一行报错看了三秒,它能不能理解我是想查错误原因,而不是在发呆或者看UI布局?很多模型在物体识别上已经卷到快满分了,但真正难的是把“看哪里”转化成“要做什么”。Chance AI要是真能把屏幕内容、注视点和操作逻辑串起来,那确实比写prompt省事太多,毕竟有时候我根本说不清自己到底想要啥,但看一眼就懂了。
不过有个疑问:这种基于视觉的意图解析,会不会牺牲掉一些模糊表达的空间?比如我写prompt时故意留白让AI发挥,但视觉输入太精确了,反而把想象力框死了。另外,隐私这块怎么平衡?如果它一直分析我的屏幕和眼神,数据本地化处理能做到什么程度?我猜美图应该对C端场景挺有经验,但这类功能要是跑在云端,用户粘性越高,信任门槛也越高。
对了,你提到“用户为什么看这里”容易翻车,有没有试过具体翻车的场景?是模型把注意力焦点搞反了,还是对交互动作的时序理解错位?比如我盯着一个按钮看两秒再点,和直接快速划过,意图应该完全不一样吧。这种时序上的细微差别,感觉比单帧识别要难一个维度。