看到DeepSeek研究员用DeliAutoResearch在6天内搞定综述论文,仅需人类2小时思维引导,我第一反应是:这活儿我也干过,但坑比想象的多。
技术上看,108轮Agent调用+64.8万token消耗,本质是LLM驱动的多步推理与代码生成流水线。关键在于如何分解任务——从文献检索到LaTeX排版,每一步都需要明确的prompt模板和状态管理。陈德里设计的Skill模式,实际上是把学术写作拆解成可复用的Agent模块,这比单次生成要靠谱得多。但消耗2234行LaTeX代码,说明AI在格式控制上依然冗余,现实中我遇到过AI乱用宏包导致编译失败的惨案。
个人经验,这种自动化最怕“幻觉”和“引用伪造”。我在测试类似系统时,AI经常编造不存在的论文DOI,或者把2024年的工作说成2020年的。DeliAutoResearch能在6天内完成,可能依赖了V4-Pro更强的上下文一致性,但若没有人工校验,结论的可信度会打折扣。真正有价值的不是“写得多快”,而是“写得有多准确”。
讨论点:1. 这种Agent式论文生成,能否在需要实验数据的实证研究中复现?还是仅适用于综述?2. 人类2小时思维引导,本质是“问题定义”能力,未来会不会变成更高阶的学术技能?
行业视野上,这预示着AI将重塑科研流程:文献综述和初稿生成可能外包给Agent,研究者聚焦于假设提出和实验设计。但风险在于,若大家都用类似工具,论文同质化会加剧,创新性反而被稀释。工程落地时,我们更该关注如何约束AI的创造性幻觉,而非单纯追求速度。