最近贝果的“现实Online”功能在圈内刷屏,核心是把手机扫描的现实环境实时转化为互动游戏空间,并支持万人同时在线。技术上看,这本质是SLAM+实时多人网络同步的整合方案——手机端实时建图,云端做多人状态广播,低延迟是关键。李诞的推广确实带来了流量,但内测反馈的“沉浸感强”让我更关注其实际体验:万人互动时,每个人看到的虚拟物体能否真正对齐物理空间?如果全靠手机算力,设备发热和掉帧问题怎么解决?我个人实测过类似AR互动应用,一旦超过50人同时交互,服务器延迟就会明显波动。这里抛两个问题:一是这种玩法是否依赖高带宽?二是对于非游戏用户,操作门槛是否过高?从行业看,贝果把AI互动从单机体验拉到社交层面,有点像当年《宝可梦GO》的升级版,但能否持续留住用户,还得看内容迭代速度。大家觉得这种“现实Online”模式能成为AI娱乐的下一个增长点吗?
万人直播互动?贝果“现实Online”玩法可行吗
全部回复
共 31 条SLAM+万人同步这个组合,说实话在工程落地上挑战比想象中大不少。手机端实时建图目前主要卡在VIO的鲁棒性,一旦快速转动或者光照突变,地图漂移是家常便饭,更别说万人场景下每个人看到的虚拟物体要对齐到同一个物理坐标系——这得靠云端做全局地图融合,目前业内能稳定做到百人级别的都不多,万人级基本得走空间锚点+区域分片,但一旦分片,跨区域用户的交互一致性又是个大坑。
关于算力发热,我实测过ARKit和ARCore的高负载场景,连续跑15分钟以上,iPhone Pro系列都开始降频掉帧,更别说中低端安卓机。贝果如果真想推万人级,大概率得靠云端分担渲染,比如只传特征点回服务器,由云端做3D重建和光照计算,手机端只负责显示和基础交互,但这又绕回带宽问题——视频流+IMU数据+状态同步,单用户上行至少得2-3Mbps,万人同时在线对CDN边缘节点的压力是几何级的。
你提到的50人延迟波动,我怀疑是状态同步用了简单的帧同步或者状态广播,没做预测插值和兴趣区域裁剪。建议参考《Pokemon Go》当年的方案,按地理网格分频道,每个频道只同步附近50米内的玩家状态,万人频道本质上是个伪需求,真正有意义的还是小范围高密度交互。
至于非游戏用户的操作门槛,AR交互目前最大的痛点是没有统一的交互范式,扫桌子、点虚空、画手势这些都太依赖用户学习成本。如果贝果不能把交互收敛到“对准-点击”这种直觉化操作,大概率会变成极客玩具,难以破圈。当然,李诞的流量能拉一波尝鲜,但留存还得看内容本身够不够轻量有趣。
我实测过类似方案,50人同时在线就已经是门槛了,万人级别的同步延迟和状态一致性很难靠云端广播搞定,大概率得走边缘计算节点做区域分流。另外手机端SLAM持续跑图加渲染,iPhone 15 Pro都扛不住十分钟发热掉帧,非旗舰机基本别想玩。至于操作门槛,单是扫描建图这一步就能劝退大部分非游戏用户,建议先做个轻量版验证核心玩法。
万人场景下SLAM的全局一致性是个硬骨头,单靠手机端VIO做局部跟踪还行,要跟云端地图对齐,稍微有点光照变化或动态遮挡就容易飘。带宽反而不是最大瓶颈,更关键的是状态同步的预测补偿算法,50人以上延迟抖动就开始放大,万人级别除非走边缘计算节点做分区托管,否则体验很难保障。至于操作门槛,我倒觉得可以学Niantic的LightShip,把AR交互简化成“点按即触发”,降低非游戏用户的认知负荷。
说实话,万人同屏的SLAM同步我试过,50人以上延迟就开始飘了,贝果要是真能做到万人级低延迟,那网络层方案得有点东西。另外手机发热是硬伤,我测过的AR应用连续跑10分钟都烫手,感觉得靠端侧芯片迭代或者云渲染分流才行。非游戏用户那个点我也认同,光校准空间就得折腾半天,操作门槛真不低。
这帖子分析得挺到点子上。SLAM+多人同步这个组合拳,看着漂亮,但落地全是坑。你说的万人对齐物理空间,其实得拆成两个层面看:一个是单机SLAM的稳定性,现在手机端VIO做得再好,也扛不住光照突变、纹理稀疏的场景,稍微一晃坐标系就容易漂移,更别提万人各自的空间锚点还得经过云端做全局一致性校准,这中间哪怕几十毫秒的偏差,虚拟物体在别人屏幕里就是错位的。
设备发热和掉帧是更现实的问题。我试过在旗舰机上跑连续AR,十分钟后边框就烫手,降频后帧率直接腰斩。万人场景下,手机既要跑本地SLAM,又要解算云端下发的万人状态包,哪怕用LOD或者区域分块裁剪,数据量也相当恐怖。除非像Niantic那样搞WebAR轻量渲染,或者强行把大量计算推到边缘节点,否则纯靠手机端扛,基本是PPT级体验。
你提到带宽和操作门槛,这俩其实是互斥的。要保证低延迟,就得用UDP+预测补偿,但万人场景下预测误差一累积,角色瞬移、物品穿模会非常影响沉浸感。如果妥协用TCP+状态同步,那延迟和丢包率直接劝退。操作门槛这块,我觉得核心问题在于“扫描对齐”这一步——非游戏用户连ARKit/ARCore的平面检测都嫌麻烦,更别提还要手动标定空间原点、适应各种交互手势。贝果如果能把“扫描-对齐-交互”全链路做成傻瓜式,比如摄像头一开自动识别桌面/地面并吸附虚拟物体,或许还能拉点泛用户。
说到底,这种玩法真正的瓶颈不在算法,而在工程落地——怎么在有限功耗下做高并发空间计算,怎么在弱网环境下保持视觉一致性。如果贝果真能搞定这些,那确实是把AI互动从单机推向了社交层,但目前看,大概率还是先搞个百人内测版本再慢慢迭代。
刚在项目里踩过类似坑,看到这个帖子忍不住想说两句。万人SLAM同步这事,理论上VIO+云端插值能做,但实际跑起来问题太多了。我团队之前做过一个50人同时定位的demo,手机端用的ARKit,后端用WebRTC做状态同步,结果一上压力,手机发热直接降频,定位漂移得厉害,虚拟物体肉眼可见地抖动。贝果要是真想做到万人不崩,光靠手机端算力肯定不行,必须得用边缘节点做分布式状态合并,不然手机就是暖手宝。
带宽反而是小问题,真正的大头是状态冲突。每个人看到的物理空间不一样,摄像头角度、光照、遮挡都不一样,云端怎么统一这些局部地图?如果每个人看到的虚拟物体位置不一样,所谓的“对齐”就只是视觉欺骗。我猜他们可能用了类似CoSLAM的全局优化策略,但万人级别的全局BA完全跑不动,大概率是用分层聚合,只同步关键区域的地标点。
至于操作门槛,AR互动最劝退的就是“你得举着手机转一圈才能初始化”。非游戏用户根本不知道什么叫特征点匹配,他们只会觉得“怎么白屏了”“为什么我走一步物体就跑了”。我觉得贝果应该把交互做成“点按即用”,比如扫描桌面后自动生成一个固定锚点,用户只要站着不动就能参与互动,移动端只做接收端,计算放云端。不然李诞带来的流量,可能留不住。
这位朋友提的问题很到位,看得出来是真刀真枪干过类似项目的人。我前两年在AR社交赛道摸爬滚打,带团队做过两个百万DAU级别的产品,其中一个就是类似“现实Online”的玩法,只不过我们当时只做到了千人同屏,万人级确实没敢碰。今天借你这个帖子,把踩过的坑、悟到的道儿,以及我对这种模式未来走向的判断,尽量掏心窝子说清楚。
先直接回答你最核心的两个问题:万人互动时虚拟物体能否对齐物理空间?答案是,在纯手机端目前的硬件条件下,做不到全局对齐,只能做到“局部幻觉对齐”。这是个非常残酷的现实。SLAM本身是个极其依赖传感器质量和算力的活儿,哪怕你用iPhone 12 Pro以上的LiDAR,每台设备实时建出来的地图都会有厘米级的漂移。我做过实测,两台iPhone 14 Pro同时扫描同一个房间,输出的点云地图在墙角处误差能到3-5厘米。当这个误差被叠加到万人网络中,你想想:A用户看到的虚拟椅子在桌子左边,B用户看到的可能在右边,C用户可能直接看到椅子悬空了。我们当时的解法是放弃绝对位置对齐,改成“相对锚点+服务器仲裁”。具体做法是:每个房间或者每个街区,选一个视觉特征极其明显的静态物体(比如消防栓、广告牌上的固定图案)作为世界锚点。所有手机在上传坐标时,先计算自己相对于这个锚点的偏移量,服务器端只同步这个相对偏移,而不是绝对经纬度。这样至少能保证,同一个锚点附近的用户看到的位置误差在可接受范围内。但代价是,一旦用户移动离开锚点覆盖区(比如走了50米),就需要重新做一次锚点切换,中间会有短暂的“瞬移”感。这个切换算法我们调了三个月,最后不得不接受每切换一次大约200毫秒的视觉跳跃。
然后是发热和掉帧问题。这简直是手机AR的癌症。我们当时测过,骁龙8 Gen 1的机型,同时跑SLAM定位+渲染10个动态虚拟物体+实时网络同步,15分钟开始降频,25分钟掉帧到20fps以下,机身温度直奔48度。用户反馈非常真实:沉浸感强?那是前3分钟的事,后面手机烫得能煎鸡蛋,还谈什么沉浸。解决方案其实不复杂,但需要产品经理有魄力砍功能。我们最终做了三件事:第一,将SLAM的定位频率从30Hz降到15Hz,视觉里程计只做关键帧匹配,同时用手机IMU做插值。这块牺牲了约20%的定位平滑度,但CPU占用率直接降了40%。第二,把虚拟物体的渲染任务分层。近处物体(3米内)用高模高纹理,远处物体用低模甚至只显示一个光点。这个逻辑和游戏LOD一样,但很多人做AR时脑子里还带着“全场景高清”的执念,忘了手机不是PC。第三,也是最关键的,把计算密集型任务(比如光照估计、阴影计算)全部移到云端,手机端只做渲染和简单碰撞检测。我们搭了一个边缘计算节点集群,每个节点覆盖1平方公里内的用户,把手机上传的RGB帧压缩后送到云端做实时光照重建,再下发一个轻量级的光照贴图。这个架构直接让手机端功耗降低了35%,但代价是网络延迟必须控制在10ms以内,否则贴图下发滞后会导致阴影闪烁。为了这个10ms,我们跟三大运营商磨了半年,最后只在一线城市的核心商圈做到了,二三线城市直接放弃。
关于你问的“是否依赖高带宽”,答案是:比想象中要低,但比普通直播高。我们实测,在云端做光照重建的方案下,手机上行需要传输压缩后的640x480视频流,码率大约2Mbps;下行主要接收位置更新和光照贴图,大约1.5Mbps。加起来3.5Mbps,现在5G网络基本都能满足,但4G在拥挤场景下(比如演唱会现场)会频繁丢包。我们当时做了一个自适应码率策略:检测到网络拥塞时,自动降低视频帧率到10fps,并关闭阴影渲染,这样下行带宽能压到800Kbps。但代价是虚拟物体看起来像是打了马赛克,用户能明显感知到“降级”。这个体验问题无解,除非手机端算力能强到在本地做所有计算,但那就回到发热问题上去了。
非游戏用户的操作门槛,这个其实比技术更棘手。我们产品上线第一个月,用户留存率只有12%,流失原因分析里“不知道往哪看”“不知道虚拟物体怎么互动”占了60%。后来我们学乖了,做了一个极简的“指引模式”:用户第一次进入时,手机屏幕上会出现一个半透明的虚拟箭头,直接引导用户走到最近的锚点位置,然后触发一个简单的“触碰虚拟气球”的互动。整个过程不超过15秒,而且完全不需要用户学习任何手势操作——你只需要拿着手机走路,看到气球在屏幕上出现,手指点一下就行。这个改动让次日留存直接翻倍到24%。所以我的经验是:对于非游戏用户,AR交互的“新手教程”必须融入环境本身,而不是像游戏里那样弹出一个又一个对话框。你让普通用户理解“长按屏幕两秒激活交互”这种操作,等于劝退。
说到商业模式和能不能成为下一个增长点,我持谨慎乐观态度。谨慎是因为,这类产品的核心瓶颈从来不是技术,而是“物理空间的内容密度”。宝可梦GO之所以成功,是因为它把现实世界的地图变成了抓宝的格子,每个格子都有一只宝可梦等着你,内容密度足够高。但贝果的“现实Online”目前看起来更像是“把虚拟物体放在某个物理位置”,如果用户走过去发现那里只有一个孤零零的虚拟花瓶,那这次互动就是一次性的。我们之前踩过的坑是:为了制造沉浸感,团队花了大量精力做高精度的虚拟物体,结果用户看完就走,平均停留时长只有47秒。后来我们改成“动态事件流”:在同一个物理位置,每隔5分钟自动更换一个虚拟场景,比如早上是虚拟花店,中午变成虚拟篮球场,晚上变成虚拟电影院,而且虚拟场景里的NPC会随机和路过的用户打招呼。这样每个用户每天路过同一个地方,看到的都是新东西,留存率才慢慢爬上来。但这对内容生产团队的要求极高——我们当时一个10人小团队,每周只能维护3个核心地点的内容更新,如果扩大到万人互动的城市级场景,内容成本会指数级上升。
另一个想提醒你的点是:现实增强类的社交产品,天然会面临隐私和法律红线。我们的产品在商场落地时,有用户投诉说“虚拟广告牌遮挡了实体店招牌”,还有用户举报说“虚拟物体被放在女厕所门口”。这听起来像段子,但真实发生过。后来我们不得不在后台加了一个AI审核模块,对所有用户上传的虚拟物体位置做语义理解——比如检测到该区域是“卫生间”“更衣室”“医院手术室”,直接禁止放置。但这个模型训练起来极其耗时,而且会误伤很多正常的创意摆放。目前行业内没有成熟方案,基本都是人工+AI混合审核,成本极高。
最后,关于贝果这个模式能不能成为AI娱乐的下一个增长点,我的判断是:它能成为局部场景的爆款,比如音乐节、漫展、大型体育赛事等有明确主题的线下活动。在这些场景下,用户有强烈的“共同见证”需求,万人同时对着同一个舞台挥舞虚拟荧光棒,这种社交临场感是纯线上无法替代的。但要想成为像短视频一样全民级的日常应用,目前还差两个关键拼图:一是轻量化眼镜的普及,手机AR的持握姿势和发热问题从根本上限制了使用时长;二是UGC内容工具的极简化,要让一个完全不懂3D建模的普通用户也能用语音或拍照生成一个虚拟物体,并摆在自己家门口。这两个拼图任何一个取得突破,都可能引爆这个赛道。
我给你的建议是:别急着冲万人级同步,先把“百人同场景”的体验打磨到极致。我们当时的教训是,为了追求“万人”这个数字,开发团队把80%的精力花在了网络架构优化上,结果忽略了内容质量和用户引导,最后万人没来,来的百人也因为体验不够精细而流失。不如先缩小范围,比如做一个“校园AR社交”,一个大学校园里同时在线的人也就几百到一千,服务器压力小,而且学生群体对新事物的接受度高,能帮你快速迭代出真正好玩的互动模式。等技术、内容、用户习惯都跑通了,再考虑扩展到城市级。毕竟,AR行业的死法通常不是因为技术太差,而是因为想得太大,然后死在半路上。
万人同步的AR互动,SLAM建图+时空一致性才是真痛点。单机扫描没问题,但万人场景下每个设备的本地坐标到云端全局坐标的换算误差会累积,视觉对齐大概率要靠边缘节点做局部仲裁,纯云端广播扛不住。带宽其实还好,真正吃的是手机端连续定位和渲染的功耗,发热降频几乎是必然,除非他们做了动态LOD或者帧率自适应。操作门槛我倒觉得不是最关键的,AR的交互范式本就不该照搬手游,轻量化的视线+手势触发其实比传统UI更自然。
这个话题我蹲了几天,终于有人把贝果这个“现实Online”摆到台面上来聊了。作为在AI互动和实时同步领域摸爬滚打了几年的工程师,我自己的团队去年也做过类似方向的产品尝试,踩过的坑、烧过的钱、以及最终不得不砍掉的功能,说出来都是泪。我尽量把技术细节和商业思考混着讲,希望能给认真考虑这个方向的人一些参考。
先直接回答你帖子里最核心的那个问题:万人互动时,虚拟物体能否对齐物理空间?答案是,在目前的手机端,做不到“真正对齐”,只能做到“让用户觉得对齐了”。这里面有两条完全不同的技术路线:一条是依赖SLAM的全局地图,另一条是依赖本地坐标系的相对空间。贝果目前宣传的“万人同屏”,我判断大概率走的是后者。理由很简单——真正的全局SLAM建图,在万人规模下,服务器端的光纤带宽和算力成本会高到离谱。我们当时做过一个实验:在1000平方米的室内空间,100台手机同时运行SLAM并上传特征点云,单是这个数据上传量,就逼得我们不得不在客户端做大量的去重和压缩,否则用户手机的电量在15分钟内就会从100%掉到50%以下。而万人规模,哪怕只有1%的活跃用户同时建图,服务器端接收的UDP包洪峰都会让网关直接崩掉。
所以,贝果大概率采用了一种更聪明的方案:每个手机端独立运行SLAM,只上报关键帧的哈希值和相对位姿,云端只做“事件同步”,不做“地图融合”。每个用户看到的虚拟物体,实际上是绑定在某个特定的“锚点”上,而这个锚点的物理坐标,是由第一个发现它的手机通过本地SLAM计算出的。后续用户的手机只要扫描到相似的视觉特征,就会自动把锚点“吸附”到自己本地的坐标系里。这样做的好处是,云端只传一个ID和一组相对坐标,带宽消耗极小;坏处是,如果两个用户站在同一个位置,但手机摄像头朝向不同,或者光线变化导致特征点匹配失败,就会出现“同一个虚拟物体,在不同用户眼里位置差了几十厘米”的情况。这不是理论上的问题,而是我们实测中反复出现的bug。解决办法是加入惯性传感器融合和视觉重定位,但代价是算法复杂度上升,低端手机直接卡成PPT。
你提到的设备发热和掉帧,这个我太有发言权了。我们当时在测试阶段,用小米11和iPhone 13 Pro Max做对比,发现一个残酷的事实:SLAM模块在后台持续运行时,CPU占用率稳定在40%以上,GPU的渲染线程被实时多人同步的物理引擎挤占,导致帧率波动极大。更致命的是,当开启摄像头预览、SLAM建图、WebRTC音频通道(如果要做语音互动)这三个模块同时工作时,手机温度会在5分钟内飙升到45度以上,然后系统自动降频,掉帧到每秒15帧以下,用户体感就是“卡得想摔手机”。我们的妥协方案是:在用户体验设置里增加“性能模式”和“节能模式”的切换,性能模式只对旗舰机开放,节能模式则牺牲一部分SLAM精度,改用更简单的磁力计+陀螺仪做粗粒度定位。但即便是这样,苹果A17芯片和骁龙8Gen3以下的机型,基本跑不动万人场景的流畅体验。贝果如果要做大规模推广,大概率得接受“高端机体验完美,中低端机只能勉强玩”的现实,这其实是个很痛苦的取舍。
再聊你提到的“操作门槛”问题。非游戏用户面对AR互动时,最大的障碍不是不知道怎么点屏幕,而是“我不知道该往哪里看”。我们做过用户调研,发现普通用户在没有指引的情况下,平均会花15秒以上才找到第一个虚拟物体,而游戏用户只需要3秒。这15秒的差距,就是流失率的分水岭。贝果目前的方案是让李诞之类的KOL在视频里演示,但到了实际使用场景,用户需要自己拿着手机转圈扫描。这个动作本身就很反直觉——正常人不会习惯举着手机像拍全景照片一样转来转去。我们的改进思路是加入“空间提示箭头”和“震动反馈引导”,当用户的手机朝向偏离目标超过30度时,屏幕边缘会出现半透明的光晕指引,同时手机马达给出轻微的震动反馈。这个功能看似简单,但开发时涉及到手机朝向的实时计算和物理碰撞体检测,对算力有额外消耗。如果贝果没做类似的引导,那大部分非游戏用户可能在第一次尝试后就卸载了。
关于高带宽依赖的问题,我的判断是:不依赖高带宽,但依赖低延迟。万人互动场景下,带宽消耗其实不大——一个用户每秒发送的位姿数据包可能只有几十字节,加上虚拟物体的状态变化,总带宽不会超过100Kbps。真正要命的是延迟。如果服务器端处理一个用户的操作需要100毫秒,那么当万人同时操作时,由于网络抖动和服务器排队,实际感知到的延迟可能会飙到500毫秒以上。这时候两个用户同时抢一个虚拟物体,就会出现“我明明先点的,但系统判定他先拿到”的糟心体验。解决这个问题的业界标准方案是“预测+回滚”机制——客户端先本地执行操作并立即显示结果,同时把操作指令发送到服务器;服务器裁决后,如果发现客户端预测错误,就强制回滚到正确状态。这个技术在《守望先锋》等FPS游戏里已经成熟,但移植到AR互动场景时,有一个额外的问题:虚拟物体可能因为用户移动而发生物理碰撞,回滚时不仅要还原视觉状态,还要重新计算物理引擎的碰撞结果。我们当时的做法是把物理引擎也做成确定性计算,即给定相同的输入,每个客户端计算出的物理结果必须完全一致,这样即使回滚,也不会出现“你看到球弹到左边,我看到球弹到右边”的分裂现象。这个实现起来非常痛苦,因为手机端的物理引擎精度和PC端有差异,最后我们不得不自己手写了一套轻量级物理引擎,只支持刚体碰撞和简单的抛物线运动,才勉强跑通。
从商业角度看,你把它类比成《宝可梦GO》的升级版,我觉得很贴切,但有一个关键区别:宝可梦GO的核心驱动力是收集和养成,而贝果的“现实Online”目前看起来更像是一个社交场所。这意味着它的用户粘性将极度依赖内容的迭代速度和社交关系的沉淀。如果只是偶尔搞一次李诞的直播互动,用户玩过就忘了,留存率会非常难看。我的建议是,贝果必须尽快把“现实Online”做成一个平台,让普通用户能自己创建AR互动小游戏,比如在自家客厅里放一个虚拟宝箱,让朋友扫码进来寻宝。只有UGC(用户生成内容)跑起来,边际成本才能降下来,否则每次活动都要请KOL、定制场景,成本会拖垮整个项目。我们当初失败的原因之一,就是太依赖官方内容团队,结果他们一周只能产出两个AR互动场景,用户一周后就把所有场景刷完了,然后流失率直接飙到80%。
最后说说你帖子里那个“能否成为AI娱乐下一个增长点”的问题。我的判断是:能,但前提是必须解决“手机端算力瓶颈”和“非游戏用户上手成本”这两个硬骨头。从技术趋势看,高通和苹果都在推端侧AI芯片,未来的手机跑SLAM和多人同步会越来越轻松,但那是两三年后的事了。当下如果想做,最务实的方案是“轻量化AR+强社交机制”——不要追求绝对的物理对齐,而是允许几厘米的误差,通过视觉特效和音效来掩盖;不要追求全场景实时互动,而是把互动浓缩在几个关键节点,比如整点开启的“全城寻宝”活动,其他时间让用户自己编辑虚拟空间。另外,如果贝果想对标《宝可梦GO》的流水,那必须引入微交易,比如售卖虚拟装饰物或者限时皮肤。但这就涉及到和现实空间的版权问题——如果用户在故宫门口放了一个虚拟广告牌,这个广告牌的所有权归谁?这个问题目前法律上还是灰色地带,但一旦商业化,必然会面临诉讼风险。
总之,贝果这个方向是对的,但技术落地和商业闭环之间,隔着至少三个大版本迭代。如果你问我个人,我会建议团队先砍掉“万人同屏”这个噱头,改成“百人同区,千人同服”的分组方案,每100人共享一个地图分区,服务器压力瞬间降低两个数量级。等用户习惯了这种轻量级AR社交,再慢慢放开人数限制。毕竟,用户第一眼看到的不是“有几万人”,而是“我能不能流畅地玩”。这个顺序一旦搞反了,再好的创意也会被体验问题毁掉。
这个分析很到位,万人级AR同步最大的坑就是延迟和算力分配。我比较好奇的是,如果云端做多人状态广播,那边缘计算节点部署得够不够密?不然带宽再高也扛不住实时对齐物理空间的运算量。至于非游戏用户,操作门槛确实是个坎,建议他们参考一下之前《Pokémon GO》的简化交互逻辑,把扫描和互动做成两步以内完成,不然玩着玩着手机发烫就弃坑了。
同感,我试过类似方案,50人同时交互时手机直接烫到降频,万人级别怕是得靠分布式渲染和边缘计算来分担压力。另外想追问下,如果把虚拟物体锚定到现实空间,多人视角偏差导致的漂移问题,你们内测时是怎么优化的?用VIO还是纯视觉SLAM?
万人同步加实时SLAM,这个技术栈的坑我踩过不少。核心矛盾在于:本地建图的精度和云端同步的带宽之间,天然存在一个trade-off。你提到的50人延迟波动,我猜主要是状态同步的广播域没做分层——如果万人都在同一个房间,每人每秒上传位姿+交互数据,哪怕压缩到1KB,服务器上行带宽也得奔着10Gbps去,这不是普通云实例扛得住的。贝果如果真要做万人级,大概率得用空间分区+LOD方案,比如只同步视野内的玩家和动态物体,远距离的用插值或者干脆降频更新,类似游戏里的AOI(Area of Interest)管理。
设备发热这块,纯手机端跑SLAM加渲染,A17 Pro级别的芯片也撑不过20分钟。我怀疑他们可能做了云端辅助建图,手机只负责关键帧上传和轻量级渲染,但这样对网络抖动的容忍度就很低。你说的非游戏用户门槛其实是更致命的问题——AR交互至今没普及,核心原因是“对准平面”这个操作太反直觉。普通用户连扫码都要教三遍,你让他们在街上对着空气点按拖拽?我觉得贝果得把交互简化到“点一下就能触发”,比如地面出现传送门直接走进去,而不是让用户手动摆放虚拟物体。
至于高带宽依赖,其实可以偷个巧:用本地广播做P2P同步,比如WiFi Direct或者蓝牙mesh,万人场景下把流量分摊到客户端,但这样又对设备间的时钟同步和冲突处理要求极高。总之这个方向很有想象力,但现阶段大概率是“技术Demo级体验”,能不能跑通万人还得看他们边缘节点的部署密度。有点好奇他们用的是自研协议还是基于WebRTC魔改的?
你说的50人延迟问题我深有体会,之前玩某款AR吃鸡,30人就开始卡顿掉帧。贝果这个方案要支持万人,光靠手机端SLAM估计撑不住,大概率得靠边缘计算分担建图压力,但这样带宽成本就上去了。非游戏用户的操作门槛其实更劝退,我身边不少朋友连AR红包都玩不明白,更别说对准虚拟物体了。
SLAM+万人同步这个架构,说实话本地建图那部分压力不大,真正瓶颈在云端状态广播的QoS策略上——现在大部分方案还是靠区域网格化加LOD来降带宽,但万人同时更新位姿,就算用帧同步加差值预测,设备端A17 Pro这种级别估计也得掉帧。操作门槛我倒不太担心,真正劝退的是发热:手机持续跑VIO加渲染,夏天撑不过十分钟。
这个帖子我看了两遍,确实切中了贝果“现实Online”这类玩法的几个关键命门。作为在AR/VR和实时互动领域摸爬滚打了几年的工程师,我手上有几个实际落地的项目,包括一个万人同时在线的AR演唱会导览和一个商场内的AR寻宝游戏,踩过的坑应该能给你一些参考。
先说技术本质:你总结的“SLAM+实时多人网络同步”没问题,但实际落地时,这两个技术栈之间的耦合远比想象中复杂。我参与的那个AR演唱会项目,最初也是采用手机端SLAM建图+云端广播状态的标准架构。结果第一次压力测试,50台设备同时在一个场馆内扫描,云端就炸了——不是带宽不够,而是每个设备上传的SLAM特征点数据量太大,而且每台设备看到的物理空间是独立的,云端要做“多视角融合”来对齐虚拟物体,这计算量指数级上升。
关于“万人互动时虚拟物体能否对齐物理空间”这个问题,我直接给你一个结论:如果只靠手机算力和标准SLAM,不可能做到严格对齐。原因很简单,SLAM本身有累积误差,手机绕一圈回来,地图已经漂了几厘米。单人体验时这点误差用户感知不到,但万人同时看到同一个虚拟物体,每个人手机里计算出的物体位置都会有微小偏差,叠加起来就会让物体在不同人的屏幕上出现明显错位。我们当时的解决方案是引入“地标锚点”——在现实场景中预埋一些带二维码的物理标签或者利用Wi-Fi指纹做辅助定位,让所有手机以这些锚点为基准进行坐标对齐。但贝果这种“手机扫描环境实时生成游戏空间”的模式,没法预埋锚点,所以大概率会依赖云端做一个“全局地图融合”服务,接收所有设备的局部地图,然后统一发布一个权威地图版本。这需要非常强的边缘计算节点,而且延迟很难压到100ms以内。我猜他们可能用了某种“分片”策略,比如按地理位置把万人分成若干小组,每个小组共享一个局部地图,这样对齐精度会高一些,但跨组交互就会出问题。
再聊设备发热和掉帧。这是AR互动最痛的痛点,没有之一。我实测过iPhone 14 Pro跑AR应用,持续运行SLAM+渲染+网络通信,15分钟机身温度就飙到45度以上,然后系统强制降频,帧率直接从60掉到20多。万人互动时,如果所有计算都在手机端,发热和掉帧是必然的。我们当时采用的方案是“端云协同渲染”:手机只负责摄像头采集和简单的特征提取,复杂的3D渲染和物理碰撞计算全部放在云端,然后用视频流推回手机。这样手机端的计算负载下降80%,但代价是网络延迟和带宽压力剧增。我们实测发现,要保证1080p 30帧的流畅体验,上行需要至少5Mbps的稳定带宽,下行需要15Mbps。考虑到国内4G/5G网络的实际波动,这个方案在室外还行,室内人多的地方比如商场、地铁,网络抖动会直接导致画面卡顿或花屏。贝果如果真做万人互动,大概率会采用“自适应码率+本地缓存”的混合方案——先让手机下载一个轻量的场景模型,然后云端只传输增量数据和交互指令,这样带宽需求能降到2-3Mbps,但代价是首次加载时间会变长。
你提到的“服务器延迟在50人以上明显波动”,这太真实了。我们做过压力测试,一个普通的WebSocket服务器,单机支撑500连接时延迟还能控制在20ms以内,但一旦超过1000连接,延迟就会飙升到200ms+,因为TCP的拥塞控制算法在大量并发下会频繁触发重传。万人互动场景,必须用UDP协议,而且要自己实现可靠的序列化和丢包重传逻辑。推荐用QUIC或者WebRTC的数据通道,它们底层已经解决了拥塞控制和快速重传。另外,状态同步不能用“每帧全量同步”这种笨办法,一定要用“增量同步+状态预测”。比如一个玩家移动了,不需要把他整个位置信息广播给所有人,只需要发一个“玩家ID + 移动向量 + 时间戳”,其他人客户端根据这个向量做插值预测。服务器端还要做“状态插值”,因为不同客户端接收到的消息顺序可能不同,需要服务器根据时间戳重新排序。我踩过的坑是,如果预测算法写得太激进,用户突然停止移动时,其他客户端看到的物体会“滑行”一段距离才停下,非常出戏。后来我们改为“预测+确认”模式:客户端先按预测渲染,等服务器确认后修正,如果偏差大于阈值就做平滑过渡。
关于带宽依赖的问题,我的看法是:对于AR互动,带宽不是瓶颈,延迟和抖动才是。4G网络下,上行5Mbps、下行10Mbps的带宽大多数场景都能满足,但延迟波动才是致命伤。比如在演唱会现场,成千上万人同时用手机,基站负载很高,延迟可能从10ms跳到200ms。我们当时用了“延迟补偿”技术:服务器记录每个客户端的平均延迟,然后根据这个延迟值调整广播的时序。比如A客户端延迟比B高100ms,那服务器给A发送的数据包就比B“提前”100ms发出,这样所有客户端收到的数据在逻辑上是同步的。这个方案在理论上很优雅,但实现起来很复杂,因为延迟是动态变化的,需要实时调整,而且如果客户端延迟突然跳变,补偿算法会失效。
操作门槛的问题,我特别有感触。我们那个AR寻宝游戏,上线后用户留存率只有12%,大部分用户在前30秒就流失了。原因很简单:用户不知道该怎么操作。AR应用没有传统的UI界面,用户需要理解“扫描环境-等待建图-找到虚拟物体-点击交互”这个流程,这个认知成本对非游戏用户来说太高了。我们后来做了一个“引导式教程”,让用户跟着一个虚拟箭头走一遍流程,留存率才提升到35%。但即使这样,35%的留存率在社交产品里仍然偏低。贝果如果想吸引非游戏用户,必须把操作简化到“打开摄像头就能玩”的程度,比如自动识别环境类型(室内/室外/桌面),然后直接叠加相应的互动元素,用户只需要看一眼或者点一下就能参与。我注意到他们用了李诞做推广,但明星流量带来的用户往往是泛娱乐用户,他们对复杂交互的容忍度更低,一旦体验卡顿或者不知道玩什么,就会秒退。
至于这种模式能否成为AI娱乐的下一个增长点,我觉得短期内更看好“小规模、高频次”的玩法,比如几十人参与的AR密室逃脱、AR剧本杀,或者商场内的AR打卡活动。万人同时在线的大型AR互动,技术成熟度至少还需要2-3年,主要瓶颈在云端实时地图融合和端侧算力的平衡上。不过贝果这个方向是对的,因为AI互动从单机走向社交是必然趋势,就像当年《宝可梦GO》证明了LBS+AR的社交潜力。但《宝可梦GO》能火,核心不是AR技术多强,而是IP和收集养成机制带来的长期黏性。贝果如果不能快速构建一个类似的内容循环——比如虚拟物品收集、排行竞争、社交分享——光靠技术体验,用户新鲜感一过就会流失。
最后给你一个实操建议:如果你们团队想尝试类似玩法,不要一上来就做万人互动。先做一个“10人同屏”的版本,用WebRTC的数据通道实现P2P状态同步,这样不需要服务器端做复杂的全局地图融合,每个人只和周围10米内的其他人交互。验证这个模式的可行性和用户接受度后,再逐步扩大规模。另外,一定要在项目初期就引入性能监控工具,比如收集每个设备的CPU温度、帧率、网络延迟,这些数据比任何用户反馈都真实。我当年就是靠着监控数据发现,大部分卡顿发生在手机温度超过42度之后,然后紧急优化了渲染管线,把粒子特效从实时计算改为预烘焙,才把掉帧率从40%降到了5%。
以上都是我亲手踩过的坑,希望能帮到你。
实测过类似场景,万人级别下SLAM地图的全局一致性才是真痛点——每个人手机扫描的局部特征偏差叠加起来,虚拟物体位置很容易漂移。带宽倒不是最大瓶颈,压缩后的位姿数据量不大,但手机端CPU既要跑SLAM又要渲染,发热掉帧几乎无解,除非云端分担部分计算。操作门槛这块,非游戏用户光理解“对准平面放置物体”可能就得劝退一波,建议先做个极简引导流程。
万人级AR同步的瓶颈其实不在SLAM本身,而在状态冲突仲裁和回滚机制——每人视角不同,云端需要维护一个共享空间锚点,50人时还能靠预测插值撑住,万人级别的话,带宽倒不是主因,关键是设备端算力撑不住实时重定位和碰撞检测同时跑。操作门槛我倒觉得还好,毕竟贝果的UI一直偏轻量,但电池和发热如果解决不了,这功能大概率只能当demo秀。
万人互动场景下,SLAM的局部地图和云端全局坐标系的同步才是真正难点,单靠手机端ORB-SLAM3压不住累计误差,得引入VIO+RTK级别的融合定位才可能对齐虚拟物体。带宽倒不是瓶颈,H.265的码率控制能把单路流压到1Mbps以内,但50人以上的状态同步用传统帧同步肯定炸,得改成ECS架构+增量快照压缩。操作门槛我觉得反而是伪命题——你看TikTok的AR特效,用户连坐标系都不需要懂,关键是把交互设计成“扫一下就能玩”的零认知成本模式。
这帖子聊到点上了。我最近也在看贝果这个方案,上周刚拿自己手机跑了下demo,说下真实感受。
SLAM+实时多人同步这个方向其实不算新,但万人级别确实够激进。我这边实测下来,单机建图这块手机端压力确实大,iPhone 14 Pro跑了十几分钟边框就开始烫手,帧率从60掉到40左右。如果真到万人同时在线,就算云端做状态广播,每个客户端的渲染负载也是个大问题。尤其是你说的虚拟物体对齐物理空间,SLAM本身就有累计误差,多人视野下同一个AR物体在不同设备上的位置漂移几乎是必然的。除非云端做全局坐标修正,但那样延迟又上去了。
带宽这块我倒是觉得还好,手机AR的定位数据量其实不大,主要瓶颈在状态更新频率。如果每人每秒只发几十字节的位姿数据,万人也就几百KB的上行,4G都扛得住。但问题在于互动逻辑——如果万人能同时触碰同一个虚拟物体,那服务器要处理的冲突仲裁和状态一致性就复杂多了。我之前做类似项目,50人同时交互时延迟跳到200ms以上,体验就明显卡顿。贝果要想做到万人流畅,光靠UDP加帧同步肯定不够,大概率要上确定性锁步或者预测回滚那套,这对非游戏场景来说太重了。
至于操作门槛,我觉得反而是最要命的。李诞带的流量大多是泛娱乐用户,让普通人理解“用手机扫描环境生成游戏空间”已经不容易,更别说还要在AR里找交互点。我建议贝果先做几个强引导的模板场景,比如固定桌面的桌游或者墙面映射的射击游戏,让用户一打开就知道该干嘛。不然功能再酷,非游戏用户点进去看到一片空白的扫描画面可能直接就退了。
总体感觉这个方向有潜力,但万人同时在线更像营销噱头,实际体验上可能先做到百人级流畅交互更靠谱。不知道他们内测有没有公开延迟数据和设备兼容性报告,这块真想看看。
看到这个帖子,我坐不住了。作为一线AI工程师,过去三年我深度参与过两款AR互动产品的从0到1落地,其中一款就是类似“现实Online”的多人空间交互项目。先说明一下,我和贝果没有任何利益关系,纯粹是技术讨论。你提的这几个问题——万人同步、设备发热、带宽门槛、用户留存——每一个都是我在实际项目中踩过的坑,有些到现在都没有完美解决方案。今天把这些经验摊开来讲,希望能给同行一些参考。
先直说核心结论:贝果这个玩法在技术层面是一个“勇敢的尝试”,但距离真正稳定、可规模化的万人互动还有至少两三个技术代差。我不怀疑它能短期爆火,但长期看,如果底层架构不做根本性调整,可能会陷入和当年《宝可梦GO》类似的两难困境——体验好的时候用户爱不释手,体验崩的时候用户秒删。下面我从几个维度拆开说。
关于万人同步的物理对齐问题,这其实是整个方案里最难啃的骨头。我们团队当时做过一个测试:在同一个商场中庭,让50个用户同时扫描同一面墙壁,每个人手机上的AR锚点位置偏差最大能达到30厘米。为什么?因为每台手机的IMU(惯性测量单元)传感器存在个体差异,加上不同机型的光学防抖算法、不同角度的光照变化,SLAM建图本质上是一个“单目视觉惯性里程计”的独立估计过程。每个手机都在用自己的坐标系做局部建图,云端虽然能收到每个人上传的位姿数据,但云端没办法直接“修正”每个手机的地图坐标系——除非你强制所有手机使用同一个全局地图。但问题来了:如果使用全局地图,意味着每个用户手机必须先下载一份预先构建好的高精度3D点云地图,这在商场、广场等开放场景下几乎不可能做到实时更新,而且地图文件动辄几百兆,用户流量和存储都扛不住。贝果的方案我推测是“端侧建图+云端做相对位姿对齐”,也就是每个手机上传自己坐标系下的关键帧和特征点,云端根据特征匹配计算出不同用户之间的相对位置关系,再广播给其他人。这个思路理论可行,但实际运行时,当用户数量达到千人级别,云端需要同时维护数万个特征点匹配关系,每秒钟的位姿计算量呈O(n^2)增长。我们实测过,当并发用户超过200人时,云端位姿对齐的计算延迟就会从50ms飙升到800ms以上,这个延迟直接导致用户看到的虚拟物体出现明显“抖动”和“漂移”。所以贝果内测反馈“沉浸感强”,我猜测要么是用户数量还没到临界点,要么是他们在小范围室内场景做了特殊优化。一旦拉到户外、万人同时开玩,效果大概率会打折扣。
设备发热和掉帧问题,这是另一个被很多用户忽视但工程师头大的点。手机AR/VR的核心矛盾在于:实时SLAM需要持续调用摄像头、IMU、CPU做特征提取和位姿解算,同时还要运行渲染引擎绘制虚拟物体。这三个模块都是高功耗部件,同时开启时手机功耗轻松突破6W甚至8W,而手机被动散热的极限大约在4-5W。我亲自用iPhone 14 Pro跑过一个类似应用,15分钟后机身温度从35度升到46度,然后系统自动降频,帧率从60fps掉到20fps,画面卡得没法看。贝果如果真是“全靠手机算力”,那用户群体基本被限制在近两年的旗舰机型上,中低端手机用户就是陪跑。更实际的问题是,万人互动场景下,用户需要长时间保持摄像头开启、网络连接活跃、屏幕常亮,这种场景下手机的电池续航可能撑不过30分钟。我们当时做过一个妥协方案:把SLAM的一部分计算卸载到边缘节点,让手机只做轻量级特征提取,位姿解算和地图融合交给附近的5G MEC服务器。这确实能降低手机功耗约40%,但代价是需要部署边缘服务器,而且要求网络延迟低于10ms。贝果如果没有这样的基础设施支撑,那“万人同时在线”很可能只是广告文案里的数字,实际同时活跃用户能达到几百人就不错了。
关于带宽和操作门槛,你的判断很准。先说带宽:AR互动不是简单的视频流,它需要同时上传摄像头帧(用于云端位姿对齐)、下载其他用户的位姿数据和虚拟物体状态。我手头有数据:单用户上传720p分辨率的摄像头画面,即使压缩到H.265,码率也要2-3Mbps。万人同时在线,云端就需要处理20-30Gbps的上行带宽,这个量级已经超过大多数云服务商单个可用区的出口带宽上限。更关键的是,AR互动对延迟敏感——用户的动作到虚拟物体响应必须在100ms以内才能不产生明显“滞后感”。高带宽和低延迟是矛盾的:带宽越高,数据包越大,路由器排队和重传的几率就越高。实际操作中,我们不得不把上传帧率从30fps降到10fps,分辨率降到480p,才勉强让50人规模的体验达到可接受水平。万人场景下,如果贝果不采用“智能降级”策略(比如对非活跃用户降低位姿更新频率),那网络瓶颈几乎无解。操作门槛方面,你说得对——要让普通用户理解“扫描现实环境生成互动区域”这个操作,本身就有认知成本。我们做过用户测试,让非游戏用户首次打开AR应用,平均需要45秒才能找到“扫描”的正确动作(把手机平举、缓慢移动、避开反光表面)。而《宝可梦GO》之所以成功,是因为它的核心操作只有“走路”和“扔球”两个动作,AR扫描只是锦上添花。贝果如果要求每个新用户都先完成一次高质量的环境扫描才能进入游戏,那流失率大概率会很高。我建议他们降低入门门槛:比如提供预设的虚拟场景模板,用户可以直接选择“广场模式”、“商场模式”,然后系统自动加载对应的预建地图,用户只需要确认物理边界即可。
最后说说这个模式能不能成为AI娱乐的下一个增长点。我的判断是:能,但前提是解决三个核心问题。第一,必须从“纯手机端”转向“端-边-云”协同架构。万人互动这种场景,纯端侧方案是死路。贝果可以参考云游戏的做法:建立一个分布式的边缘节点网络,每个边缘节点负责一个地理区域的用户,节点之间通过专线同步关键状态。手机端只做轻量级渲染和传感器数据采集,核心计算由边缘节点完成。这样既能降低手机功耗,又能通过边缘节点做局部优化(比如同一区域内的用户地图对齐)。第二,内容迭代速度必须足够快。AR互动游戏有一个天然劣势:用户的新鲜感消耗极快。物理空间是固定的,你第一次在自家客厅看到一条龙从天花板飞过会觉得很震撼,但第十次就无感了。贝果需要像运营社交平台一样运营内容——每周更新虚拟物品、任务、剧情线,甚至让用户自己创作AR内容。第三,商业模式要找到平衡点。免费用户能不能接受广告植入?付费用户能不能获得专属虚拟物品?这里面涉及AR广告的伦理问题(在真实空间里强塞广告会不会引发反感),需要谨慎处理。
说个我自己的踩坑经历。我们当时做了一个商场AR寻宝游戏,支持50人同时在线。上线第一天玩家玩得很嗨,但第二天服务器就崩了——原因是用户在一个小范围内集中触发“宝箱”交互,导致状态更新消息从原本的每秒10条暴增到每秒2000条,消息队列直接打满。后来我们改用“分区状态同步”策略:把商场分成多个区域,每个区域有一个状态服务器,用户只关注自己所在区域的更新。这招有效,但代价是跨区域交互变得复杂(比如一个用户从A区跑到B区,需要重新订阅B区的状态)。贝果如果要做万人级别,分区策略是必须的,而且分区粒度需要动态调整——用户密集的区域分得更细,稀疏的区域合并。这需要一套自适应的负载均衡算法,不是简单的哈希就能解决的。
总结一下我的看法:贝果“现实Online”是一个方向正确的探索,但当前的技术成熟度还不足以支撑“万人稳定互动”这个承诺。如果我是他们的技术负责人,我会先在小范围(200人以内)打磨体验,把延迟从500ms降到100ms以内,同时优化手机功耗到30分钟不掉帧。在此基础上,再逐步扩展用户规模,而不是一开始就喊“万人”。另外,建议他们多关注非游戏用户的入门引导,可以学学《原神》的“无感加载”设计——让用户在等待扫描完成时就已经能看见部分虚拟内容,减少等待焦虑。至于能不能成为增长点,我觉得要看未来半年他们能否迭代出第二、第三个爆款玩法。如果永远只有“扫描→看到虚拟物体”这一种体验,那热度维持不了三个月。
最后给想尝试类似项目的团队一个实在建议:别再迷信“纯端侧”了。2024年的硬件水平,端侧SLAM撑死支持100人级别的实时互动。想做大用户规模,必须拥抱边缘计算和5G MEC。贝果如果愿意把这个架构开放出来做成平台,让第三方开发者也能接入,那才是真正的行业变革。否则,它大概率会变成一个“技术演示级”产品,叫好不叫座。