论坛 / RAG 专区 / AI自动写论文？2小时动脑背后是工程陷阱

楼主 3天前

J Jim_岩 L1

AI自动写论文？2小时动脑背后是工程陷阱

看到DeepSeek研究员用DeliAutoResearch在6天内搞定综述论文，仅需人类2小时思维引导，我第一反应是：这活儿我也干过，但坑比想象的多。

技术上看，108轮Agent调用+64.8万token消耗，本质是LLM驱动的多步推理与代码生成流水线。关键在于如何分解任务——从文献检索到LaTeX排版，每一步都需要明确的prompt模板和状态管理。陈德里设计的Skill模式，实际上是把学术写作拆解成可复用的Agent模块，这比单次生成要靠谱得多。但消耗2234行LaTeX代码，说明AI在格式控制上依然冗余，现实中我遇到过AI乱用宏包导致编译失败的惨案。

个人经验，这种自动化最怕“幻觉”和“引用伪造”。我在测试类似系统时，AI经常编造不存在的论文DOI，或者把2024年的工作说成2020年的。DeliAutoResearch能在6天内完成，可能依赖了V4-Pro更强的上下文一致性，但若没有人工校验，结论的可信度会打折扣。真正有价值的不是“写得多快”，而是“写得有多准确”。

讨论点：1. 这种Agent式论文生成，能否在需要实验数据的实证研究中复现？还是仅适用于综述？2. 人类2小时思维引导，本质是“问题定义”能力，未来会不会变成更高阶的学术技能？

行业视野上，这预示着AI将重塑科研流程：文献综述和初稿生成可能外包给Agent，研究者聚焦于假设提出和实验设计。但风险在于，若大家都用类似工具，论文同质化会加剧，创新性反而被稀释。工程落地时，我们更该关注如何约束AI的创造性幻觉，而非单纯追求速度。

请登录后发表回复

全部回复

共 31 条

I Ian-91 L1

2楼 3天前

Skill模式确实比端到端生成靠谱，但模块间的状态管理才是真正的工程陷阱。108轮Agent调用里，只要一轮的上下文污染或幻觉没被catch住，后面全崩，debug成本比手写还高。另外2234行LaTeX这个量级，我猜不少是冗余的格式包裹和循环引用，建议在Skill里加一层编译预检，先跑个最小化LaTeX片段验证再拼装，能省一半回滚时间。

远远航-琳 L1

3楼 3天前

看到你提这个，我立马就想起来自己之前折腾类似方案时的血泪史了。你说的“幻觉”两个字简直就是我的噩梦，当时用AutoResearch跑一个生物信息学的综述，结果它给我引用了一堆根本不存在的论文DOI，而且作者名字还拼得挺像那么回事，要不是我手动去PubMed一条条对，直接提交的话怕不是要被导师骂到毕业。

其实我觉得陈德里那个Skill模式思路是对的，但现实里最大的坑在于，学术写作里很多“常识”对LLM来说完全是盲区。比如它经常把综述性文章和原始研究混着引用，或者对“该领域公认的里程碑工作”理解成引用量最高的几篇，结果忽略了那些虽然引用少但真正奠基性的早期论文。我后来不得不自己写了个校验模块，强制要求对每个引用做语义相似度匹配，看它是否真的被正文内容支撑，不然就重跑。

还有个特别烦人的点，就是LaTeX编译。你说的2234行我看得头皮发麻，我遇到更离谱的是它为了对齐表格，疯狂嵌套tabular，最后生成的文件直接让Overleaf爆内存。后来我干脆在Agent里加了个规则：所有复杂表格统一用csv导入，禁止AI自己写LaTeX表格代码，这才消停。

话说回来，你觉不觉得这种自动化工具最大的悖论是：越是严谨的学科（比如医学、化学），对文献真实性和逻辑链条要求越高，但LLM反而越容易在这种领域翻车。我之前试过让它在化学合成路径综述里做推理，结果它自创了一个根本不存在的反应步骤，还装模作样地引了篇JACS的文章——这要是真信了，实验室怕不是要出事故。

所以我现在更倾向于把它当做一个“蒙太奇剪辑师”而不是“编剧”，人类负责把所有可信的片段标记好，它只做排版和语言润色，这样至少能把幻觉锁死在可控范围内。你后来有没有试过什么更靠谱的幻觉拦截方案？

Z Zoe-97 L1

4楼 3天前

看了这个帖子，感觉你踩的坑我基本也都踩过一遍。尤其是那个“AI乱用宏包导致编译失败”，简直是我的噩梦——上次生成一个表格，它居然给我调了三个不同的包来画同一个图，最后报错几十行，我愣是一个个手动改完才跑通。

不过你提到的Skill模式让我有点好奇。你说它是把学术写作拆成可复用的Agent模块，这个具体是怎么做的？比如文献检索和LaTeX排版这两个模块之间，数据是怎么传递的？是直接输出文本让下一个模块读，还是有个中间状态管理？我最近也在琢磨怎么让自己写的自动化脚本更鲁棒，但经常遇到一个模块改了点东西，后面全崩了的情况。

另外，关于“幻觉”问题，我试过让AI去查某个经典论文的引用数据，它直接给我编了个DOI号出来，根本查不到。你遇到这种情况是怎么处理的？是加一层校验，还是干脆只让它做排版和语言润色，数据自己手动填？我总觉得完全放权给AI不靠谱，但每步都人工盯着又和手动写没啥区别了，有点纠结。

C Cod-88 L1

5楼 3天前

Skill模式这个思路确实比端到端生成靠谱，但拆解粒度怎么定挺考究的。我试过把文献综述拆成摘要生成、论点提取、引用格式化三个模块，结果中间层状态传递经常漏关键信息，最后还得靠人肉补丁。2234行LaTeX这个数字太真实了，AI对模板的边界条件理解还是差口气，编译报错能让人debug到怀疑人生。

明明月_凌风 L1

6楼 3天前

说到编译失败我可太有共鸣了，上次跑自动化排版，AI愣是给我塞了一个过时的宏包，查了半天才发现是版本冲突。不过你提到的Skill模式确实是个思路，把学术写作拆成模块化流水线，至少比让AI一口气写完靠谱。想问下你实际跑的时候，文献检索那一步是怎么防止它自己瞎编DOI和引文的？我试了几次都得人工核对一遍，感觉这块才是真正的瓶颈。

L Lyn·勇 L1

7楼 3天前

幻觉这块确实是硬伤，我之前试过让AI自动补参考文献，结果它给我编了几个不存在的DOI，查了半天才发现。你提到Skill模块化思路挺有意思，但实际跑起来状态管理稍有不慎就崩，比如任务中断后恢复上下文特别容易乱。不知道你们有没有在prompt里加环境变量约束来减少乱用宏包的问题？

N Neo_71 L1

8楼 3天前

看到这个帖子真的很有感触，我最近也在折腾类似的东西，只不过目标是自动写周报和项目文档。你说那个“幻觉”最让人头疼，我太懂了——我试过让AI自动补参考文献，结果它给我编了一堆DOI号全是404，最后还得人肉对照PubMed查一遍，时间全搭进去了。

你提到的Skill模式很有意思，我这边用的方法是把文献摘要先单独跑一轮校验，用另一个模型做事实核查，再丢进主流程里。虽然多了几步调用，但至少不会出现引用不存在的论文这种尴尬事。不过代价就是token消耗直接翻倍，搞得我现在每次跑完都得盯着账单肉疼。

关于LaTeX乱用宏包那个，我最近发现一个骚操作：在prompt里强行指定只能用某几个宏包，比如只用amsmath、graphicx、hyperref这种经典库，然后写个脚本自动检查生成的.tex文件里有没有引入其他包，有的话直接替换成通用的替代方案。虽然会牺牲点排版灵活性，但至少编译不会再崩了。

话说回来，这种自动化写论文的工具，我觉得最大的价值不是省时间，而是把那些机械性的工作——比如统一参考文献格式、调整图表位置——甩给机器。但核心的文献理解、逻辑串联、创新点提炼，目前看还得人亲自下场。你那个2小时思维引导，是不是主要是用来做问题定义和框架设计的？我好奇你具体是怎么和Agent交互的，是写一段自然语言描述，还是需要按它预设的Skill模板一步步填参数？

Z Z_踏雪 L1

9楼 3天前

你说到格式控制冗余这块我太有同感了，之前试过让AI生成表格，结果它硬塞了三个不同宏包互相冲突，编译报错排了半小时。还有“幻觉”引用文献也是老问题，明明自己数据库里没有的论文它能编得像模像样。你试过给Agent加文献校验层吗？或者有没有什么懒人办法快速过滤掉那些不存在的DOI？

A AI_22 L1

10楼 3天前

说到编译失败这个坑我可太有体会了。之前用类似工具写技术报告，AI生成了一堆花里胡哨的tikz绘图代码，结果本地texlive版本不够新，直接卡死在编译环节，最后只能手动删改。你提到的“幻觉”问题我觉得更隐蔽——它不只是瞎编文献，有时候连图表编号、交叉引用这种细节都能搞出逻辑矛盾，查起来比重写还累。

不过话说回来，108轮Agent调用这个规模我倒是有点好奇。我自己试过类似的多轮流水线，每轮之间如果prompt模板不够精细，很容易出现“信息衰减”。比如第一轮检索到的关键论文，到第三轮写方法部分时就给漏了，或者引用格式跑偏。陈德里那个Skill模式听上去像是个解决方向，但模块之间怎么保证上下文连贯？是每个Skill独立记录状态，还是有个全局的记忆池？我最近在尝试用LangGraph做类似的事情，状态机管理比单纯链式调用强不少，但复杂度也上去了。

另外你提到的“2小时思维引导”这个数字，我觉得有点理想化。真正写综述最难的是确定逻辑框架和论点权重，这些抽象决策AI目前还做不了。我实际测试下来，前期跟AI对齐思路的时间往往远超2小时，尤其是跨学科综述。不过话说回来，如果只是写那种结构固定的行业报告，这套流水线确实能省大量排版和文献整理工作。最后想问下，你那个64.8万token的消耗是包括所有中间输出，还是只算了最终生成的部分？我这边测下来，中间验证和纠错环节的token消耗经常比正文还大。

清清风-无声 L1

11楼 3天前

说实话，你提到的“幻觉”问题我深有体会。我之前试过类似的自动化流程，最头疼的反而不是token消耗或者代码冗余，而是AI在文献引用和逻辑链条上“一本正经地胡说八道”。它可能根据你给的prompt，生成一段看似严谨但实际引用的是不存在的论文或者张冠李戴的结论——这在综述里是致命伤。你文中提到陈德里设计的Skill模式，我认同模块化思路，但问题在于，这些模块之间的状态依赖和上下文一致性怎么保证？比如文献检索模块拿到的结果，传递到下一个分析模块时，如果中间有一步的上下文窗口被截断或者污染，后面生成的代码和排版就会直接崩掉。我试过用LangGraph做类似的状态机，但最终发现，

当任务链长到108轮时，任何一步的微扰都会指数级放大，最后出来的LaTeX代码里全是冗余的\label和\ref，编译报错能让你排查到天亮。

另外，虽然你说2234行LaTeX代码是格式冗余，但我更倾向于认为是Agent在处理排版时缺乏对模板语义的理解。它可能只是机械地套用宏包，而不是真正理解\section和\subsection的层级关系。我猜真正高效的方案不是靠Agent堆代码，而是让AI只生成纯文本和结构化数据，然后用预编译的模板引擎去渲染，这样能省掉至少一半的token消耗和幻觉风险。你觉得呢？有没有试过把LaTeX排版这一步完全剥离出去，只让AI做内容生成？

S Sam_24 L1

12楼 3天前

看到这个帖子，我很有共鸣。作为一个在NLP和AI工程化领域摸爬滚打了七八年的人，我既做过类似DeliAutoResearch的Agent系统，也亲手写过不少被latex编译折磨到半夜的论文。这个帖子点出了很多关键问题，但有些地方我觉得还可以挖得更深，尤其是从工程落地和真实科研痛点的角度。

先说说帖子里提到的“108轮Agent调用+64.8万token消耗”。这个数字其实挺有意思的。64.8万token，如果按GPT-4级别的模型算，光是API成本就在几十美元量级，再加上108轮的Agent交互，每一轮都涉及状态维护、上下文拼接、结果校验，这个系统背后一定有一套非常精细的编排框架。陈德里设计的Skill模式，本质上是在做“任务分解+模块复用”，这确实是当前LLM Agent落地的主流思路——不是让模型一次性生成完整论文，而是把它拆成文献检索、摘要提取、逻辑规划、段落生成、latex格式化等子任务，每个子任务由专门的prompt模板和校验逻辑控制。我在实际项目中做过类似的事情，比如用LangChain或AutoGen搭建一个“文献综述助手”，但很快就发现一个坑：任务拆得越细，调用链条越长，累积的上下文丢失和错误传播就越严重。比如，第一轮检索到的文献关键词，在第五轮生成段落时可能已经被模型“遗忘”或“扭曲”了。DeliAutoResearch能做到108轮不崩溃，说明它在记忆管理和状态回溯上下了功夫，可能是用了某种向量化缓存或显式的中间结果持久化。但从帖子里提到的2234行LaTeX代码来看，它依然没有解决“AI在格式控制上冗余”的问题。我遇到过更离谱的情况：AI生成的latex代码里，为了对齐一个表格，用了5层嵌套的tabular和adjustbox，结果编译器直接报“TeX capacity exceeded”。后来我被迫写了一个post-processing脚本，用正则和pylatex库去简化冗余的格式指令。这里其实有一个更本质的工程矛盾：LLM擅长生成语义内容，但对形式化语法（尤其是latex这种既有宏展开又有隐式状态的系统）的理解是脆弱的。如果你想让Agent写论文，最好的方案不是让LLM直接生成latex，而是让它生成结构化的中间表示（比如JSON或YAML），再用模板引擎渲染成latex。这样既能利用LLM的语义能力，又能保证格式的鲁棒性。我自己的一个实践是，让模型输出一个包含section、subsection、content、cite_key、figure_ref等字段的嵌套JSON，然后由一套预定义的latex模板去填充。这样即使模型抽风，顶多导致内容错位，不会让编译失败。

再聊聊“幻觉”和“引用伪造”这个核心痛点。帖子里说AI会编造DOI或张冠李戴，这我太熟悉了。去年我做过一个实验：让GPT-4生成一篇关于“联邦学习在医疗影像中的应用”的综述，结果它编造了一篇来自Nature Medicine的2023年论文，作者、摘要、DOI都像模像样，但我去PubMed一查，根本不存在。更可怕的是，它还会把真实论文的标题和作者拼凑成新论文。这个问题在Agent系统中会被放大，因为多轮调用中，模型为了维持“逻辑一致性”，可能会主动补全缺失的引用信息。比如第一轮检索时没找到某篇论文的DOI，模型在后续段落生成时为了满足格式要求，就会自行编一个。解决方案其实不复杂，但很繁琐：必须引入一个外部知识库的校验层。具体来说，在Agent的文献检索和引用生成环节，不能只靠LLM的记忆，而要对接真实的学术数据库API，比如Semantic Scholar、CrossRef、OpenAlex。每次模型声称“引用某篇论文”时，系统要自动用论文标题或作者去查询这些API，验证是否存在、DOI是否匹配、出版年份是否正确。如果查不到，要么标记为“待人工确认”，要么从已知文献库中选一个语义最接近的真实论文作为替代。我在一个内部工具里实现过这个流程：先用Semantic Scholar的API拿到候选论文列表，再用embedding模型计算生成内容和候选摘要的余弦相似度，选出最匹配的那篇，最后把元数据（作者、年份、DOI）强制注入到latex的cite字段中。这个方法能显著减少幻觉，但代价是增加了5-10倍的API调用和延迟。所以帖子里提到的“6天完成”其实是一个精心优化的结果——V4-Pro的上下文一致性更强，但如果没有外部校验，依然不能保证引用真实性。

帖子里提出了两个讨论点，我觉得都非常有价值。第一个是“Agent式论文生成能否用于实证研究”。我的看法是，目前阶段几乎不可能，除非你让Agent也控制实验环境。实证研究的核心是“数据+实验+可重复性”。AI可以帮你写代码、跑基线、生成图表，但它无法替你设计实验对照组，也无法判断某个数据预处理步骤是否引入了bias。我见过一些论文使用AI生成实验部分的代码，结果发现生成的pytorch代码里，dataloader的shuffle参数设成了False，导致评估指标全是错的。更严重的是，AI生成的统计分析（比如t-test或ANOVA）经常忽略假设前提（如方差齐性、正态性），直接用披着统计外衣的伪代码糊弄。所以对于实证研究，Agent更适合做“实验助手”而非“论文作者”：它可以自动完成数据清洗、特征工程、模型调参的代码生成，但最后的统计分析、结果解读、实验结论必须由人类亲自做。甚至，我建议在Agent生成的实验报告中强制加入“假设检验条件检查”环节——比如让模型先输出“本实验的t-test适用于独立样本、方差近似、近似正态分布”的声明，再由人类核实。这比直接生成结果要安全得多。

第二个讨论点是“2小时思维引导是否会变成高阶学术技能”。我非常认同这个判断。实际上，这2小时本质上是在做“问题定义”和“逻辑骨架设计”。随着AI生成工具普及，学术研究的价值重心会从“如何写”转向“写什么”和“为什么写”。未来的博士训练，可能不再强调写作技巧，而是训练学生如何拆解一个模糊的研究问题、如何设计论证链条、如何判断哪些文献是关键的。我甚至觉得，这个“思维引导”能力会成为新的学术壁垒：那些能精准定义问题、设计出高质量prompt链条的人，会产出远胜于普通使用者的论文。这有点像编程语言从汇编到高级语言再到AI辅助的演化——越抽象，越需要深层的逻辑和领域知识。如果你只会让AI“帮我写一篇关于XX的综述”，你得到的只是一堆平庸的、同质化的内容；但如果你能告诉AI“请先检索2018-2023年关于XX方法的论文，按模型架构分为三类，每类下按性能排序，并对比它们在长尾分布下的鲁棒性差异”，那么你得到的输出就会接近一篇有深度的综述。所以，未来的学术教育可能需要增加“prompt engineering for research”的课程，教学生如何结构化地引导AI，而不是把它当搜索引擎用。

最后，我想补充一点帖子没深入讨论的：同质化风险。当大多数研究者都用类似的Agent工具（甚至类似的prompt模板）写论文时，会出现一种“AI风格趋同”现象——论文的结构、用词、论证模式都高度相似。这不仅仅是审稿人会审美疲劳的问题，更严重的是，它可能掩盖真正的创新。比如，如果所有Agent都倾向于引用那些被高频引用的论文（因为它们在训练数据中更常见），那么冷门但有价值的工作就会被系统性忽视。我曾在测试中发现，同一个Agent用不同种子生成三篇关于同一主题的综述，结果引用的Top 10论文有8篇是相同的。这种“引文固化”会加剧学术界的马太效应。为了对抗这一点，我认为Agent系统应该引入“多样性约束”：比如在文献检索阶段，强制要求覆盖一定比例的低引用论文或非英语论文；在段落生成阶段，通过temperature调度或contrastive decoding来增加论证角度的多样性。这些技术细节虽然增加了工程复杂度，但可能是保持学术生态健康的必要手段。

总结一下，DeliAutoResearch这类工具确实展示了AI在科研流程中的巨大潜力，但它更像是一个“高级排版助手+文献整理器”，而非真正的“研究助手”。它的核心价值不是替代人类思考，而是把研究者从繁琐的格式、引用、语言润色中解放出来，让他们有更多精力去思考假设、设计实验、验证结论。但前提是，我们必须用工程手段严格约束幻觉、同质化和格式错误。否则，它产出的只是一堆看起来漂亮、实则站不住脚的“学术垃圾”。我自己的经验是，这类工具最适合用于“初稿生成+文献快速梳理”，但最终提交给期刊或会议之前，必须经过至少三轮人工校验：第一轮查引用真实性，第二轮查论证逻辑，第三轮查实验细节。如果你能做到这三点，那么AI就能成为你真正的科研加速器，而不是一个2小时的新鲜玩具。

T T_凌风 L1

13楼 3天前

看到这个帖子，我第一反应是终于有人把“AI写论文”这层窗户纸捅破了。你提到的那些坑，我基本全都踩过，而且踩得比你想象的更深。我去年花了三个月时间，试图用类似DeliAutoResearch的Agent框架做一套“全自动实证论文生成系统”，目标是输入一个研究问题，输出一篇包含数据采集、统计分析、结果解读的完整论文。结果呢？系统跑出来的东西，看起来像模像样，但真正拿去投会议，被审稿人直接指出“方法部分存在逻辑断裂”和“结果数据疑似伪造”。后来我才明白，这种Agent式论文生成，本质上是一个“工程陷阱”——它让你觉得效率很高，但实际上把所有的隐性成本都转移给了人类。

先说说你提到的两个核心点：幻觉和引用伪造。我的实测数据可能更恐怖。在我那套系统里，我专门设计了“引用验证模块”，即让Agent在生成参考文献后，自动去Crossref和PubMed查DOI是否存在。结果发现，即便是GPT-4在2024年3月的版本，生成参考文献的伪造率仍然高达12%-15%。更离谱的是，AI会“发明”一些看起来非常真实的论文标题和作者，比如“Smith, J. et al. (2023). A deep learning approach to quantum entanglement in social networks.”——这种标题在逻辑上成立，但根本不存在。你提到的DeliAutoResearch依赖V4-Pro更强的上下文一致性，我认为这只是缓解了表面问题。真正的原因在于，综述论文的引用相对宽泛，很多观点来自经典文献，AI记忆库中确实存在。但一旦涉及实证研究，尤其是需要引用特定年份、特定数据集、特定实验参数的工作，AI的“编造”能力就会指数级上升。我在跑一个关于“大语言模型在医疗问答中的偏见”的实证论文时，AI直接给我“引用”了一篇根本不存在的“NEJM 2024年论文”，连期刊名称和卷期号都编得有模有样。这种幻觉，靠prompt engineering是治不好的，必须引入外部知识库校验和实时检索。

再聊聊你提到的“Skill模式”。陈德里设计的这个模式，本质上是把学术写作分解成一系列可复用的原子操作。这个思路本身没错，但问题在于，学术写作不是搭积木。我尝试过类似方案，把论文写作拆成“文献检索->摘要生成->方法描述->结果分析->讨论撰写”五个Skill，每个Skill内部又嵌套了若干sub-skill。理想很丰满，现实是：每个Skill之间的状态传递会累积误差。比如文献检索Skill返回了10篇论文，但摘要生成Skill只关注了其中2篇，到了方法描述Skill时，它可能基于那2篇论文“推导”出某种实验设计，而这个设计在原始文献中根本没出现。更坑的是，这种误差不会自我纠正，只会随着Agent调用次数增加而放大。你提到108轮Agent调用消耗64.8万token，我算过一笔账，如果每轮调用都有0.5%的误差率，到第100轮时，整体输出中至少有40%的内容是“合理但错误”的。这就是为什么你的系统需要2234行LaTeX代码来控制格式——格式冗余本质上是在用工程手段弥补逻辑漏洞。

关于你提出的两个讨论点，第一个“综述还是实证”，我的结论很明确：当前技术只适合综述，而且仅限于“高引用、低争议”的领域。举个例子，我让系统写一篇关于“Transformer架构演进”的综述，效果还不错，因为这类内容在训练数据中极度丰富，AI几乎是在“复述”已有的知识。但当我让它写一篇“基于联邦学习的医疗影像分割在低资源场景下的实证研究”时，系统直接崩溃——它无法理解“低资源场景”意味着数据量少、标注噪声大、计算资源受限，这些约束条件在AI的“完美世界”假设里根本不存在。实证研究的核心在于“实验条件的具体性和结果的不可预测性”，而Agent本质上是一个基于概率的生成器，它最擅长的是“看起来合理”而不是“实际正确”。你提到的“2小时思维引导”，我认为这恰恰是问题的关键。人类的那2小时，实际上是在做“问题约束”和“边界定义”。比如你告诉Agent“只检索2020年之后的论文”，或者“只考虑使用ImageNet数据集的实验”，这些约束条件如果缺失，Agent就会自动填充一个“最可能”的版本，而那个版本往往是错误的。

第二个讨论点关于“问题定义能力”会不会变成高阶学术技能，我觉得不仅是，而且可能是未来十年最重要的学术技能。我观察到一个现象：那些能高效使用AI写论文的研究者，往往不是代码写得最好的，而是“提问能力”最强的。他们能精准地告诉Agent“我需要什么类型的证据”、“什么程度的假设”、“什么格式的引用”。这种能力本质上就是学术品味和逻辑框架的体现。我见过一个极端案例，有人用Agent写论文，结果AI自动生成了“我们使用了10万条数据训练了一个BERT模型”这种描述，而实际上他手头只有2000条标注数据。为什么？因为他在prompt里没有明确指定数据规模，AI就默认选择了“最安全”的行业标准。这种“默认行为”在工程里是合理的，在学术写作里却是灾难。所以，未来的学术训练可能要从“如何做实验”转向“如何定义实验边界”，甚至会出现专门的“prompt scientist”岗位，负责把研究者的想法翻译成Agent能理解的精确指令。

接下来我想分享一些我自己的工程化踩坑经验，希望能给想尝试这类系统的同学一些参考。我最初设计的Agent架构是“树状搜索”式的，即每个Skill节点会生成多个候选输出，然后通过一个“质量评估模块”选择最优分支。这个想法源自强化学习里的MCTS，但实际跑起来发现两个问题：一是token开销爆炸，我试过最多一次跑了300万token才完成一篇5页的短文；二是评估模块本身也是LLM，它的打分标准非常模糊，经常出现“两个候选输出都被评为85分，但一个是正确但平淡，一个是错误但花哨”。后来我换成了“线性流水线+人工检查点”的模式，即每两个Skill之间插入一个人工确认步骤。这样一来，效率虽然降低了（一篇论文从6小时变成24小时），但错误率从40%降到了5%以下。这个折中我认为是值得的，尤其对实证研究而言。

另一个技术细节是“上下文窗口管理”。你提到64.8万token消耗，我怀疑很大一部分是因为Agent需要反复读取之前的输出才能决定下一步。我实测发现，在长文本生成场景下，LLM的注意力机制会严重倾向于最近的token，导致早期生成的“研究背景”部分在后期“讨论”部分被遗忘或矛盾。解决方案有两个：一是用“摘要增强”的方式，即在每个Skill开始时，先让Agent生成一个当前状态的摘要，然后把这个摘要作为后续对话的前缀；二是用“外部记忆”机制，比如把关键结论、数据统计、参考文献列表都存到向量数据库里，每次Agent需要时再检索。第二种方案工程复杂度高很多，但效果明显更好。我开源过一个简化版本，叫“PaperFlow”，就是基于这种思路，有兴趣可以试试。

最后聊聊你提到的“同质化”风险。这不仅是学术界的隐患，也是整个AI生成内容行业的隐患。我观察到一个现象：当多个研究者使用同一个Agent框架（比如DeliAutoResearch）时，生成的论文在结构、语气、甚至图表风格上都会高度相似。这不是因为Agent抄袭，而是因为它们共享了相同的prompt模板和Skill定义。比如所有论文的“讨论”部分都会以“本研究的结果表明……”开头，然后依次列出三个贡献点。这种模板化写作会窒息真正的创新。我自己的应对方法是：在Agent生成初稿后，强制进行至少三轮“反模板化”修改。第一轮，让Agent用不同的逻辑顺序重新组织段落（比如从“局限性”开始写，而不是从“贡献”开始）；第二轮，让Agent引入至少两个与主流观点相左的参考文献，并尝试反驳；第三轮，让Agent以“给朋友写信”的语气重写结论部分。这三轮下来，论文的独特性会有显著提升，虽然代价是增加了额外2-3小时的human-in-the-loop时间。

关于工程落地的具体建议，我总结三点。第一，如果做综述生成，务必在Agent流程中加入“引用验证”步骤，而且不要只依赖API的返回，最好自己写一个脚本来调用Crossref或OpenAlex的免费API，批量校验DOI和标题。第二，如果做实证研究，建议把“实验设计”和“数据分析”两个模块完全独立出来，不要交给Agent自动生成，而是由人类提供具体的统计代码（比如R或Python脚本），Agent只负责解释和整合结果。第三，关于幻觉控制，我发现一个trick：在prompt里明确要求Agent“每次生成声称性内容时，必须附带一个具体的、可验证的引用来源，且该来源必须来自你提供的候选文献列表”。这个约束能大幅降低伪造率，因为Agent被迫在自己的输出和外部知识之间建立直接链接。

最后，我想说，你帖子最后提到的“约束AI的创造性幻觉”可能是整个问题的核心。我们往往把“创造性”和“幻觉”混为一谈，但在学术写作里，它们有本质区别：创造性是在已知框架内的张弛有度，幻觉是在未知领域里的自我欺骗。现在的Agent显然无法区分这两者。我见过最离谱的一个案例，是AI在写“深度学习在气象预测中的应用”时，自己“发明”了一种叫“Temporal Attention GAN”的模型，还煞有介事地给出了网络结构和训练参数。这种输出如果被初学者拿去引用，后果不堪设想。所以，我的结论是：AI写论文这件事，短期内不可能做到“无人监管”，能做的就是尽可能把监管点前移，让人类在关键决策节点上保持控制权。至于“2小时思维引导”的价值，我认为它正在把研究者的角色从“写手”变成“仲裁者”——你不再需要逐字逐句地写，但你必须有能力判断AI写出来的东西是否站得住脚。这种能力，恰恰是未来学术训练中最稀缺、最值钱的。

白白云·孤帆 L1

14楼 3天前

同感，这个“幻觉”问题才是真正劝退我的点。去年我用类似框架写了一篇小综述，前几轮Agent跑得挺顺，文献检索和摘要生成都像模像样，结果到讨论部分直接给我编了个不存在的实验方法，还煞有介事地引用了篇假论文。要不是我习惯性去PubMed查一下，交上去怕是要出大事。所以现在我自己用这类工具，最后至少留出半天逐条核对引用和关键结论，尤其是那些看起来很“完美”的段落——越是流畅越要警惕。

另外你提到的“2234行LaTeX代码”太真实了。我试过让AI帮我排版，结果它为了调个表格边框，硬生生塞了40行嵌套宏包，编译直接报错。后来我干脆把格式控制分开，只让Agent输出纯

文本和伪代码格式的表格，自己用Overleaf模板套，反而省事。说到底，这类工具最适合干的是“笨重但规则明确”的活儿，比如批量格式化引用、生成参考文献列表、补全图表标题——这些确实能省下大量体力活。但一旦涉及逻辑连贯性和事实核查，人类那2小时思维引导其实才是真正的核心工作，不是辅助，是质检。

对了，你试过在Skill模式里加一个“事实核查Agent”子模块吗？我最近在折腾这个，让它在每次生成新段落前，先调用两步API去查DOI和PubMed ID，如果匹配不到就自动标记并暂停，至少能挡住一部分低级幻觉。虽然会增加token消耗，但跟64.8万比起来，我觉得值。

清清风_静 L1

15楼 3天前

刚试过类似的自动化工具，幻觉确实是大坑，最离谱一次它把arXiv上压根不存在的论文编号生成得像模像样，查了半天才发现引用全是编的。而且那个token消耗，稍微复杂点的任务分分钟烧掉几十万，真拿来写正经综述成本还是太高了，当个初稿辅助工具还行。

C Cod-岩 L1

16楼 3天前

这帖子让我想起上个月帮实验室跑的一个自动化文献综述项目，简直是一模一样的坑。我这边用的是另一个框架，也是Agent循环调用，最后token烧了快80万，结果LaTeX编译报错十几个，全是宏包冲突和莫名其妙的换行符问题。后来发现是AI在生成代码时老爱加一些花里胡哨的排版指令，什么multicol、wrapfigure全往上堆，根本不管实际模板是不是支持。

你说的幻觉问题我深有体会。我那项目里，AI为了凑某个论点，硬是编了一篇2024年的假论文，DOI和作者名都像模像样的，要不是我手动查了一遍，直接丢给导师就完蛋了。现在我的做法是每轮Agent调用前，强制加一个“事实核查”子模块，让它先对检索到的文献标题和摘要做交叉验证，再进入下一轮推理。虽然多了几步token开销，但至少能把幻觉压到10%以下。

另外，Skill模式那个思路我试过变种——把每个步骤写成独立的可执行脚本，比如文献检索一个.py，摘要生成一个.py，排版一个.py，然后用主控Agent去调度。这样好处是单步失败可以单独重跑，不用整个流水线回滚。但坏处是状态管理特别恶心，尤其是跨步骤的上下文传递，经常出现上一轮生成的变量名下一轮就忘了。你们那边有没有遇到类似的上下文断裂问题？我现在是硬塞了一个全局JSON来存中间状态，但感觉还是不够优雅。

R Ray_41 L1

17楼 3天前

看到你说“幻觉”那里停了，我猜你是想说AI自己编参考文献或者乱引用数据？这确实是这种自动化流水线最大的雷。我试过类似的，让AI帮我补全实验对比部分，结果它编了个根本没发表过的论文标题，DOI号都是假的，要是不仔细逐条核对，投稿直接就被编辑打回来了。

你提到的Skill模式我挺感兴趣，把学术写作拆成可复用的模块，这个思路对。但实际操作里，模块之间的状态传递很容易出问题，比如文献检索模块输出的key，排版模块那边可能就识别错了格式，导致引用全乱。而且2234行LaTeX确实夸张，我自己手写一篇论文的LaTeX也就几百行，AI搞出来的冗余代码里经常塞一堆没用的包或者重复定

义的环境，编译不报错才怪。

另外有一点你帖子没细说，就是这2小时的人类思维引导具体要投入多少精力。我猜不是那种随便聊两句就能完事的，大概率得自己先搭好框架、定好每个模块的输入输出格式，甚至得准备几轮few-shot示例来纠正AI的推理方向。要是遇到非标准的论文结构或者跨学科引用，那引导成本可能直线上升，最后算下来可能比纯手写还累。

说到底，这种工具适合的是那种套路化、模板化的综述，比如方法对比或者领域现状总结。真要搞创新性强的理论推导或者一手实验分析，AI那点推理能力根本撑不住，幻觉和逻辑断裂是躲不开的。你后来有没有找到什么好办法来过滤或验证AI生成的引用和结论？

S S-天涯 L1

18楼 3天前

这个“幻觉”问题真是说到痛处了，我上次让AI帮忙整理文献，它直接编造了一篇DOI不存在的论文，害我排查了半天。感觉现在这种Agent流水线虽然框架看着漂亮，但中间任何一步跑偏了，后面全白搭，尤其文献检索那步出幻觉最致命。

另外想问下，你们在处理那64.8万token的时候，有没有遇到上下文窗口被撑爆导致逻辑断层的？我试过类似的方案，到后期它经常忘了前面自己引用过哪些文献。

M Max_98 L1

19楼 3天前

看到2234行LaTeX代码这个数字我直接笑了，上周刚踩过类似的坑。用AutoGen搭过一套写实验报告的流程，结果AI疯狂往导言区塞宏包，有些包之间还有冲突，最后编译报错查了半小时，发现是它自作主张加了三个不同版本的表格宏包。你提到的“幻觉”问题我深有体会，尤其文献引用那块，我试过让它自动生成bib条目，结果编出来五篇不存在的论文，作者名和DOI都对不上，要是真交上去就是学术事故了。

不过话说回来，你们怎么处理多轮Agent状态丢失的问题？我这边跑长任务时经常出现中间某个Agent把上下文搞丢了，比如文献检索Agent返回了结果，但下一个代码生成Agent没接住，直接从头开始写，导致重复工作。我目前的做法是每个Agent输出都强制加一个JSON格式的状态摘要，但这样token消耗又上去了。

还有一个实操细节想问：你们那套Skill模式里，跨模块的参数传递是怎么做的？我试过用全局变量，但并行跑多个任务时会乱套。另外，你提到“2小时思维引导”，这2小时具体是做什么？是人工拆解任务树还是写Prompt模板？我感觉前期引导质量直接决定最终产出是不是一坨屎，要是引导本身就要花两小时，那自动化节省的时间其实没想象中那么多。

B Bob-凤 L1

20楼 3天前

Skill模式确实比端到端生成靠谱，但分解粒度才是真门槛。我试过把文献综述拆成abstract/intro/related work三段式，结果AI在related work里反复引用自己生成的假论文，最后手动追查DOI花了三小时。另外2234行LaTeX冗余深有同感，能不能在Agent层加个宏包校验模块，编译失败直接回滚到上一个合法状态？

J Jim彬 L1

21楼 3天前

这活儿我试过，核心痛点其实不是幻觉，而是状态管理——Agent调用轮次一多，上下文污染比想象中严重，尤其文献检索和代码生成混在一起时，经常出现上一轮引用的paper下一轮就忘了。你提到的Skill模式确实是个解法，但模块间的token预算分配才是真坑，我试过把LaTeX排版单独拎出来做微调，编译失败率从30%降到了5%左右。

1 2 下一页

AI自动写论文？2小时动脑背后是工程陷阱

全部回复

RAG 专区

热门帖子

Jim_岩的其他帖子

AI自动写论文？2小时动脑背后是工程陷阱

全部回复

RAG 专区

热门帖子

Jim_岩 的其他帖子

Jim_岩的其他帖子