看到DeepSeek这个DeliAutoResearch的案例,第一反应是这玩意儿在工程落地上到底有多大水分。技术层面,它用了108轮Agent调用和64.8万token,生成2234行LaTeX代码,表面上看起来很唬人,但仔细拆解一下:核心是V4-Pro的推理能力加上GPT-Image2的多模态支持,本质上还是一个复杂的提示链加结构化输出。这种“人类动脑2小时”的描述,个人经验里往往隐藏着大量前期调试和中间纠错成本——如果真是零干预,那确实牛,但实际Agent落地中,长链调用最容易在逻辑断裂或上下文漂移上翻车。
我的观点是:这个案例更像是“半自动化研究”的样板间,而非通用范式。它能成功,大概率是因为选题和文献范围被严格限定,且综述类任务对创造性要求低。真正有深度的原创研究,比如提出新理论或设计实验,AI目前还差得远。不过,它对行业的意义在于:文献综述和格式整理这类“苦力活”可以彻底外包了,这对中小团队是利好。
抛两个问题:第一,Agent调用次数和token消耗这么高,成本算过吗?64.8万token按API计费大概几十美元,加上V4-Pro的推理开销,是否比人工写更划算?第二,AI生成的综述如何保证引用准确性和逻辑连贯性?如果出现幻觉引用,审核成本会不会反超收益?期待有实际跑过类似流程的朋友分享踩坑经验。