刚读完AIDA这篇论文,作为一个天天跟SQL和BI报表打交道的后端工程师,第一反应是这玩意儿如果真能落地,我们组一半的取数需求怕是要被砍掉。但仔细看了他们构建的200+指标和100+维度的即时零售环境,说实话,这个benchmark设计得挺讨巧——真实企业里数据血缘乱成一锅粥,字段命名随缘,业务口径三天两头改,AIDA那种基于固定schema的自主探索在动态生产环境里大概率要翻车。
技术上,他们用LLM做多轮SQL生成+自我纠错,这个思路不新鲜,去年就有类似工作,但AIDA的亮点在于把多维分析(比如钻取、切片)抽象成了可编排的动作序列。个人经验是,这类框架最大的坑在“意图对齐”:业务方说“看下最近客单价变化”,到底是按用户维度还是订单维度?要不要剔除退款?LLM理解错了,后面生成的SQL全是废的。
提两个问题:1)当指标间存在逻辑依赖(比如先算DAU再算付费率),AIDA怎么保证多步SQL的中间结果一致性?论文没细说。2)面对100+维度组合爆炸,有没有做查询代价预估?否则随便一个请求就能把OLAP引擎拖死。
从行业看,这类自主BI代理肯定会挤压传统报表开发的空间,但短期内更多是辅助定位——让LLM生成候选SQL,人工审核后再执行,可能是更务实的路径。别指望一步到位取代分析师,先把取数效率翻倍就算巨大胜利了。