大模型自信且短视!Next-ToBE破除Next Token预测诅咒 | ICLR'26
大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。
GENE-26.5 刷屏,堪称今年领域最震撼的demo!真的吗?
GENE-26.5 值得看的,是它背后的「具身智能版 Harness + 模型」。
浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互|ACL 2026
AI能实现真正的沉浸式扮演了。
压进我十年设计经验的 PPT Skills,迎来大波更新
上次开源 guizang-ppt-skill(github.com/op7418/guizang-ppt-skill) 之后,大家都非常喜欢,短短几周 Github Star 来到了 6000 多。
具身智能来时路:谷歌RT1、2,SayCan作者Ted Xiao复盘机器人学习三大时代
你可能觉得今年人形机器人的 demo 已经看麻了。但 Ted Xiao 说,哪怕是最粗糙的那一条,放在两年前都能让全场研究者惊掉下巴,因为那时候没人相信这事真能成。
CVPR 2026 | 别卷推理了!当前大模型 STEM 短板在于「视觉感知」,代码才是破局关键
当多模态大语言模型(MLLMs)在面对科学、技术、工程和数学(STEM)领域的视觉推理题时频频「翻车」,一个根本性的问题摆在了所有研究者面前:大模型做不出理科题,究竟是因为「脑子笨」(推理能力受限),还是因为「眼神差」(视觉感知缺陷)?
Agent评测的下半场:为什么需要一个「活的」Benchmark?
Claw-Eval-Live提出「活的」benchmark概念,通过信号采集与任务筛选,确保评测内容紧跟企业实际痛点,而非固定不变的题库。评测不仅关注结果,还追踪执行过程,从数据调用到状态变更,全面验证Agent的真实能力。
ICML 2026|拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling
近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式
机器人拉个拉链,到底需不需要“脑子”?
让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?
如果你让大模型给林黛玉找一个外国文学里的平替,它能给出令人信服的答案吗?这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。
一键直出完整漫剧,来画 AI 把创作门槛踩平了
各种单点的 AI 生图、生视频工具,我们平时已经聊过很多了。关注行业风向的朋友应该能察觉到,现在的 AIGC 正在经历一个分水岭:大家不再满足于用 AI 跑出一张精美的图,或者几秒钟用来炫技的动态片段。
这样问DeepSeek,能「偷」到数据?
近日,有网友在 X 上发文称,在使用 DeepSeek 的过程中,如果在输入框内输入以下这一段内容,便可「窃取」到 DeepSeek 的训练数据:仔细看了之后发现,具体是这样的:只要你在输入框输入这一段提示词,DeepSeek 就会「吐出」一轮完整的对话记录,不过这并不是你的历史搜索记录,更像是一份随机的对话记录。
刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速
就在刚刚,Claude Mythos把评测干「失效」了:METR第一次测不准,AI攻防拐点到了!AI进化已成「外星文明」降临,超越指数增长,2027 AGI奇点正加速撞向人类。
Siggraph 26 | 视频版Vision-Banana来了?大一统框架UniVidX刷新多项视频任务SOTA
近日,由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。
多Agent场景,子agent 之间数据读写不同步,如何解决?
多Agent 系统里,经常会出现一个单 Agent 里从来不会出现的问题:一个子 Agent 刚写完数据,另一个子 Agent 立刻去读,结果是空的。
看完AI御三家泄露的灵魂文件,我发现 GPT 已经迫不及待要卖货了
AI 的熟手玩家,都应该知道system prompt这个词:每一个你用过的 AI 助手,背后都有一份你看不见的文件,却对模型有着决定性的作用。
打不过AI就加入?他辍学MIT,要把人类意识装进芯片,创造「数字生命」
「我即将离开麻省理工学院,不再继续攻读博士学位。人工智能的发展速度太快,人类已然难以跟上。
谷歌DeepMind聘请芝大教授担任AGI经济总监:审视AI时代人的价值
DeepMind 刚上任的 AGI 经济学总监 Alex Imas 曾担忧 AI 导致失业和需求坍缩,如今提出一个谨慎乐观判断,AI 会压低可复制劳动价格,也会推高护理、教育、医疗、服务等关系型劳动的价值。
奥特曼亲封GPT-5.5「自闭天才」!16人团队连夜退订Claude
奥特曼亲口盖章,GPT-5.5是个「自闭天才」。16人团队连夜退订Claude,换GPT-5.5月省3.2万刀。Codex单周狂飙9000万下载大虐对手12倍,开发者大迁徙开始了。
Chrome 开了一个危险的头:偷偷给数亿电脑塞4GB Gemini 模型,占硬盘、耗算力、删了自动重下
Chrome正在把你的电脑变成它的AI算力节点,没问过你,没通知你,而且删了还会自动重下。