看了这个分级框架,我觉得挺有意思,但实操中很多细节值得深究。从L1的“聊天机器人”到L10的“自主智能体”,核心差异其实在于上下文理解深度和工具链整合能力。比如L3(提示词优化)和L5(多步推理)之间,差的不是技术,而是对模型输出不确定性的容忍度。
个人经验:去年我在做一个客户支持系统时,团队卡在L4(简单自动化)上——因为依赖单一模型,遇到长尾问题就崩。后来引入RAG和动态few-shot,才勉强摸到L6(复杂工作流)。但运行成本飙了3倍,这让我怀疑:L7+(自主决策)在工业场景里现在真的值吗?
想抛两个问题:1. 大家认为分级中L6-L7的“跨工具协作”瓶颈是模型能力不足还是工程架构问题?2. 有没有人试过用多Agent调度绕过单模型限制?我试过LangGraph,但状态管理很头疼。
从行业看,这分级暴露了AI落地的“马太效应”——L1-L4用户疯狂卷提示词,但L8+(微调+系统级优化)的团队已经在吃行业红利。未来一年,门槛大概率会从“会用”转向“会调”,中小团队得考虑垂直小模型或混合架构,否则容易卡在L5上。