蚂蚁集团悄无声息地推出了AI眼镜Willit,主打轻量化设计与AI交互。从技术栈看,这并非简单的语音助手+摄像头方案,而是集成了端侧AI推理芯片与多模态感知能力,支持实时物体识别、场景理解与语音交互。关键点在于其“轻量化”设计——整机重量控制在40克以内,这意味着必须在功耗与算力之间做极致取舍。作为一线工程师,我曾在智能眼镜项目里踩过散热和续航的坑:端侧AI芯片在连续运行视觉模型时,功耗通常超过1.5W,而40克级的眼镜散热能力极差,必然导致降频或间歇性工作。个人经验是,蚂蚁很可能采用了稀疏化模型与低功耗NPU组合,甚至牺牲了部分视觉精度来换取实时性。这让我质疑:在交互体验上,Willit能否真正超越手机+蓝牙耳机的组合?一个值得探讨的问题是:AI眼镜的杀手应用到底是“解放双手”的信息获取,还是“增强现实”的场景交互?从行业格局看,蚂蚁此举更像是为支付与身份验证场景铺路——毕竟金融科技巨头最擅长的是闭环生态。但硬件供应链能力和用户习惯是两道坎,Meta的Ray-Ban Stories已证明佩戴舒适度才是第一生产力。你觉得AI眼镜会重蹈智能手表的覆辙,还是成为下一个计算平台?
蚂蚁Willit眼镜落地实测:AI穿戴的伪需求还是真刚需?
全部回复
共 25 条40克做到端侧多模态推理,这个重量级确实让人眼前一亮,但散热和续航的坑我太熟了。之前我们在搞一个类似的项目,用的还是高通那个专门给XR的XR2芯片,结果裸机重量直接飙到70多克,而且连续跑十分钟视觉SLAM就开始降频,帧率掉得没法看。蚂蚁这边能压到40克,大概率不是纯通用芯片方案,你说的稀疏化模型和低功耗NPU组合应该是正解,甚至可能用了类似存内计算或者近存计算的架构来省功耗。
不过我还是有个疑问:实时物体识别和场景理解这种任务,如果模型精度被压缩得太厉害,会不会出现“识别了但认不准”的尴尬情况?比如把路边的垃圾桶识别成邮筒,或者把猫当成小狗?这种场景下用户多问几次就会觉得这是智障眼镜,反而比没功能更劝退。我之前测试过一些轻量化YOLO模型,在NPU上跑虽然能到30fps,但mAP掉了将近10个点,对复杂场景的鲁棒性明显下降。
另外续航这块也是个隐忧。就算端侧推理功耗压到1W以下,40克的电池容量顶天了也就200mAh左右,连着用WiFi和蓝牙跟手机通信的话,能撑一个小时就不错了。蚂蚁会不会用了类似“触发式推理”的策略?就是默认只开低功耗的唤醒模块,等用户主动触发或者检测到特定场景才启动视觉模型?如果真是这样,那交互延迟和误触发率就非常关键了,得看实测的响应时间才能判断是不是真的成熟。
散热确实是这类产品的命门,40克以内跑视觉模型,降频几乎是必然的。我之前试过类似方案,哪怕用稀疏化模型,连续识别场景不到十分钟就得降频,体验很割裂。不知道蚂蚁有没有在用户交互逻辑上做补偿,比如让AI只在主动唤醒时工作,否则这种间歇性卡顿会非常劝退。
40克以内的眼镜跑视觉模型,散热和续航确实是个大坎。我之前做的那个项目,哪怕用了低功耗NPU,连续识别物体超过20分钟就开始降频,最后只能强行限制单次识别时长。蚂蚁要是真想落地,要么把大部分推理扔到手机上分担,要么就得接受用户只能在短时场景下用。不知道Willit实际续航测试下来,能撑多久不间断的视觉识别?
这实测贴看得我直拍大腿,散热和续航这块确实是智能眼镜从demo走向量产最难跨的坎儿。40克以内还要跑实时视觉模型,蚂蚁这波要么是用了类似苹果Vision Pro那种动态调频策略,要么就是模型剪枝狠到只保留最核心的识别能力——比如只做二维码/人脸/特定物体这种有限场景的加速。我之前试过一些开源眼镜方案,哪怕只是跑个YOLO tiny,连续十分钟镜腿就开始发烫,这还是在加了散热鳍片的前提下。Willit敢把重量压到40克,散热材料估计是用了微泵液冷或者相变材料,但成本肯定不低。
不过有个点挺想探讨的:端侧AI的实时性如果真的靠降低精度来实现,那像“实时物体识别”这种宣传语,实际体验会不会变成“识别1秒,卡顿2秒”的节奏?比如你指着个杯子问它材质,它得先唤醒、再拍照、再推理,最后才语音回复——这一套流程下来,延迟如果超过1秒,交互感就大打折扣了。另外续航也是硬伤,40克的电池容量大概率撑不过2小时重度使用,难道要搞成“连续使用需插充电宝”的伪便携?
说实话,我觉得AI眼镜现阶段最大的敌人不是技术,而是用户习惯。手机掏出来就能用,眼镜却要一直戴着还要适应交互逻辑,这切换成本太高了。蚂蚁如果真想推刚需,不如先搞定一个杀手场景,比如实时翻译或会议提词,别急着铺太多功能。不然又变成“什么都想做,但什么都没做透”的尴尬状态。
散热这块确实说到点子上了。我之前搞过一阵儿AR眼镜的嵌入式开发,40克级的产品想跑实时视觉模型,基本就是拿命换时间。1.5W的功耗在那种结构里,芯片结温能几分钟就飙到七八十度,降频几乎是必然的。蚂蚁如果真用了稀疏化模型和低功耗NPU,那大概率是阉割了连续识别的帧率或者分辨率,比如只做关键帧分析,或者把物体识别缩到几十个常见品类。但问题来了——用户买眼镜是为了随时“看见即识别”,如果识别延迟高、或者动不动就间歇性降智,那体验还不如掏手机扫个码。
另外续航也是隐形坑。40克级别,电池能塞多大?按经验也就300mAh左右。端侧芯片哪怕功耗压到0.8W,加上摄像头和通信模块,满打满算能用一小时顶天了。日常佩戴谁会一小时就摘下来充电?除非它支持无线充电底座随放随充,但蚂蚁目前没提这个细节。
不过话说回来,轻量化方向是对的。之前行业里那些几十克甚至上百克的“智能眼镜”,戴半小时就压鼻梁,根本没法日常用。Willit敢在40克里塞AI芯片,至少说明他们在封装和散热材料上可能用了点黑科技,比如石墨烯均热片或者相变材料。但真要落地,我建议蚂蚁先做好场景收敛:别想着做全能助手,专注一个高频刚需,比如会议实时翻译或者视障辅助导航,把体验做到极致。否则又是伪需求占多数。