Agent评测的下半场:为什么需要一个「活的」Benchmark?
Claw-Eval-Live提出「活的」benchmark概念,通过信号采集与任务筛选,确保评测内容紧跟企业实际痛点,而非固定不变的题库。评测不仅关注结果,还追踪执行过程,从数据调用到状态变更,全面验证Agent的真实能力。
ICML 2026|拒绝大力出奇迹,PRISM框架让dLLM也能高效Test-Time Scaling
近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。
具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式
机器人拉个拉链,到底需不需要“脑子”?
让AI给林黛玉找个外国平替?大模型的文科推理有多离谱?
如果你让大模型给林黛玉找一个外国文学里的平替,它能给出令人信服的答案吗?这个脑洞的背后其实是当下人工智能最核心的软肋——“类比推理”能力。
一键直出完整漫剧,来画 AI 把创作门槛踩平了
各种单点的 AI 生图、生视频工具,我们平时已经聊过很多了。关注行业风向的朋友应该能察觉到,现在的 AIGC 正在经历一个分水岭:大家不再满足于用 AI 跑出一张精美的图,或者几秒钟用来炫技的动态片段。
这样问DeepSeek,能「偷」到数据?
近日,有网友在 X 上发文称,在使用 DeepSeek 的过程中,如果在输入框内输入以下这一段内容,便可「窃取」到 DeepSeek 的训练数据:仔细看了之后发现,具体是这样的:只要你在输入框输入这一段提示词,DeepSeek 就会「吐出」一轮完整的对话记录,不过这并不是你的历史搜索记录,更像是一份随机的对话记录。
刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速
就在刚刚,Claude Mythos把评测干「失效」了:METR第一次测不准,AI攻防拐点到了!AI进化已成「外星文明」降临,超越指数增长,2027 AGI奇点正加速撞向人类。
Siggraph 26 | 视频版Vision-Banana来了?大一统框架UniVidX刷新多项视频任务SOTA
近日,由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。
多Agent场景,子agent 之间数据读写不同步,如何解决?
多Agent 系统里,经常会出现一个单 Agent 里从来不会出现的问题:一个子 Agent 刚写完数据,另一个子 Agent 立刻去读,结果是空的。
看完AI御三家泄露的灵魂文件,我发现 GPT 已经迫不及待要卖货了
AI 的熟手玩家,都应该知道system prompt这个词:每一个你用过的 AI 助手,背后都有一份你看不见的文件,却对模型有着决定性的作用。
打不过AI就加入?他辍学MIT,要把人类意识装进芯片,创造「数字生命」
「我即将离开麻省理工学院,不再继续攻读博士学位。人工智能的发展速度太快,人类已然难以跟上。
ChatGPT推出全新AI学习模式,通过互动式提示与测验以深入掌握所学知识
OpenAI宣布为ChatGPT新增学习模式,这种模式将引导用户逐步解决问题而非直接提供答案。这项功能即日起向免费版、Plus、Pro及团队版用户开放,教育版用户将在几周之后获得更新。
昆仑万维「Matrix-Game 2.0」发布,国产开源的Genie 3来啦!
8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。
北大团队提出2比特复数模型iFairy{±1, ±i},精度反超量化前,可手机部署
为破解大模型部署与推理成本高昂的困境,北京大学杨仝老师团队首次提出名为iFairy的超低比特量化方案。该方案创新性地利用复数{±1, ±i}对模型权重进行2-bit量化,在实现1/8极致压缩与“无乘法”推理加速的同时,语言建模能力和下游任务表现甚至反超了其全精度的LLaMA基座模型。
DeepSeek-V3.1 发布,迈向 Agent 时代的第一步
DeepSeek API 也已同步升级,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式,且上下文均已扩展为 128K。同时,API Beta 接口支持了 strict 模式的 Function Calling,以确保输出的 Function 满足 schema 定义。
万字长文详解优图RAG技术
在信息爆炸的时代,如何从海量数据中精准获取知识并生成智能回答,已成为AI落地的核心挑战。腾讯优图实验室凭借前沿的RAG体系,突破传统检索与生成的局限,打造了一套覆盖语义检索、结构化表检索、图检索的全栈解决方案。
微软人工智能推出首批自研模型MAI-Voice-1语音模型与MAI-1预览版
微软与OpenAI复杂的合作关系正迎来新变数,微软即将发布与GPT-5、DeepSeek等模型竞争的自研AI产品。
亿信华辰发布智问4.0,打造企业级多智能体平台
在人工智能技术迅猛发展的今天,大型语言模型(LLM)正以前所未有的速度重塑企业运营与决策方式。然而,如何将大模型的强大能力真正落地于复杂多变的企业场景,实现“用得上、敢用、用得好”,仍是众多企业面临的挑战。
斑马AI大模型:为每个孩子提供专属学习方案
斑马儿童研究院副院长翦悦介绍,在斑马英语、斑马阅读、斑马思维等方向,斑马的AI大模型通过AI写作、题目讲解、跟读评分、AI点评等,可以实现为每个孩子提供专属学习方案,有效帮助儿童提升学习能力、学习效率。
火山引擎多模态数据湖落地深势科技,提升科研数据处理效能
深势科技是全球AI for Science开拓者,依托在交叉学科领域的深耕,构建了“深势·宇知”AI for Science大模型体系,并进一步解决科学研究和工业研发领域的关键问题,将众多学科的科研方法从“实验试错 / 计算机”时代带入了“预训练模型时代”。