AI 资讯 - 最新人工智能新闻动态

Agent评测的下半场：为什么需要一个「活的」Benchmark？

Claw-Eval-Live提出「活的」benchmark概念，通过信号采集与任务筛选，确保评测内容紧跟企业实际痛点，而非固定不变的题库。评测不仅关注结果，还追踪执行过程，从数据调用到状态变更，全面验证Agent的真实能力。

AITNT 2026-05-11 28

ICML 2026｜拒绝大力出奇迹，PRISM框架让dLLM也能高效Test-Time Scaling

近年来，大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架，Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。

AITNT 2026-05-11 22

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉个拉链，到底需不需要“脑子”？

AITNT 2026-05-11 22

让AI给林黛玉找个外国平替？大模型的文科推理有多离谱？

如果你让大模型给林黛玉找一个外国文学里的平替，它能给出令人信服的答案吗？这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。

AITNT 2026-05-11 25

一键直出完整漫剧，来画 AI 把创作门槛踩平了

各种单点的 AI 生图、生视频工具，我们平时已经聊过很多了。关注行业风向的朋友应该能察觉到，现在的 AIGC 正在经历一个分水岭：大家不再满足于用 AI 跑出一张精美的图，或者几秒钟用来炫技的动态片段。

AITNT 2026-05-11 26

这样问DeepSeek，能「偷」到数据？

近日，有网友在 X 上发文称，在使用 DeepSeek 的过程中，如果在输入框内输入以下这一段内容，便可「窃取」到 DeepSeek 的训练数据：仔细看了之后发现，具体是这样的：只要你在输入框输入这一段提示词，DeepSeek 就会「吐出」一轮完整的对话记录，不过这并不是你的历史搜索记录，更像是一份随机的对话记录。

AITNT 2026-05-11 25

刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

就在刚刚，Claude Mythos把评测干「失效」了：METR第一次测不准，AI攻防拐点到了！AI进化已成「外星文明」降临，超越指数增长，2027 AGI奇点正加速撞向人类。

AITNT 2026-05-11 28

Siggraph 26 | 视频版Vision-Banana来了？大一统框架UniVidX刷新多项视频任务SOTA

近日，由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。

AITNT 2026-05-12 30

多Agent场景，子agent 之间数据读写不同步，如何解决？

多Agent 系统里，经常会出现一个单 Agent 里从来不会出现的问题：一个子 Agent 刚写完数据，另一个子 Agent 立刻去读，结果是空的。

AITNT 2026-05-12 29

看完AI御三家泄露的灵魂文件，我发现 GPT 已经迫不及待要卖货了

AI 的熟手玩家，都应该知道system prompt这个词：每一个你用过的 AI 助手，背后都有一份你看不见的文件，却对模型有着决定性的作用。

AITNT 2026-05-12 29

打不过AI就加入？他辍学MIT，要把人类意识装进芯片，创造「数字生命」

「我即将离开麻省理工学院，不再继续攻读博士学位。人工智能的发展速度太快，人类已然难以跟上。

AITNT 2026-05-12 27

ChatGPT推出全新AI学习模式，通过互动式提示与测验以深入掌握所学知识

OpenAI宣布为ChatGPT新增学习模式，这种模式将引导用户逐步解决问题而非直接提供答案。这项功能即日起向免费版、Plus、Pro及团队版用户开放，教育版用户将在几周之后获得更新。

AI云资讯 2025-08-15 32

昆仑万维「Matrix-Game 2.0」发布，国产开源的Genie 3来啦！

8月11日，昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日，我们每天发布一款新模型，连续五天，覆盖多模态AI核心场景的前沿模型。

AI云资讯 2025-08-15 28

北大团队提出2比特复数模型iFairy{±1, ±i}，精度反超量化前，可手机部署

为破解大模型部署与推理成本高昂的困境，北京大学杨仝老师团队首次提出名为iFairy的超低比特量化方案。该方案创新性地利用复数{±1, ±i}对模型权重进行2-bit量化，在实现1/8极致压缩与“无乘法”推理加速的同时，语言建模能力和下游任务表现甚至反超了其全精度的LLaMA基座模型。

AI云资讯 2025-09-14 27

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

DeepSeek API 也已同步升级，deepseek-chat 对应非思考模式，deepseek-reasoner 对应思考模式，且上下文均已扩展为 128K。同时，API Beta 接口支持了 strict 模式的 Function Calling，以确保输出的 Function 满足 schema 定义。

AI云资讯 2025-09-14 31

万字长文详解优图RAG技术

在信息爆炸的时代，如何从海量数据中精准获取知识并生成智能回答，已成为AI落地的核心挑战。腾讯优图实验室凭借前沿的RAG体系，突破传统检索与生成的局限，打造了一套覆盖语义检索、结构化表检索、图检索的全栈解决方案。

AI云资讯 2025-09-14 28

微软人工智能推出首批自研模型MAI-Voice-1语音模型与MAI-1预览版

微软与OpenAI复杂的合作关系正迎来新变数，微软即将发布与GPT-5、DeepSeek等模型竞争的自研AI产品。

AI云资讯 2025-09-14 27

亿信华辰发布智问4.0，打造企业级多智能体平台

在人工智能技术迅猛发展的今天，大型语言模型（LLM）正以前所未有的速度重塑企业运营与决策方式。然而，如何将大模型的强大能力真正落地于复杂多变的企业场景，实现“用得上、敢用、用得好”，仍是众多企业面临的挑战。

AI云资讯 2025-09-14 23

斑马AI大模型：为每个孩子提供专属学习方案

斑马儿童研究院副院长翦悦介绍，在斑马英语、斑马阅读、斑马思维等方向，斑马的AI大模型通过AI写作、题目讲解、跟读评分、AI点评等，可以实现为每个孩子提供专属学习方案，有效帮助儿童提升学习能力、学习效率。

AI云资讯 2025-09-14 25

火山引擎多模态数据湖落地深势科技，提升科研数据处理效能

深势科技是全球AI for Science开拓者，依托在交叉学科领域的深耕，构建了“深势·宇知”AI for Science大模型体系，并进一步解决科学研究和工业研发领域的关键问题，将众多学科的科研方法从“实验试错 / 计算机”时代带入了“预训练模型时代”。

AI云资讯 2025-09-14 24