刚读完AIDA这篇论文,不得不说它在技术思路上确实有亮点。它构建了一个包含200+指标和100+维度的即时零售环境,试图用LLM实现自主探索式分析,而不是传统的固定报表查询。这比那些只做简单NL2SQL的方案进了一步,至少它把“多维分析”这个BI领域的核心痛点摆到了台面上。
但我的疑问在于:框架如何处理维度之间的层次关系和计算逻辑?比如时间维度上的YOY、MTD这类衍生计算,LLM生成的SQL往往在聚合逻辑上翻车。从我个人的实践看,即便是GPT-4,在复杂窗口函数和嵌套子查询上仍不稳定。AIDA有没有引入类似“分析意图图谱”的机制来约束SQL生成?还是说它依赖动态few-shot?这直接决定了它能否落地。
另外,论文提到“端到端自主探索”,但企业数据治理的混乱程度远超想象。同一指标在不同部门可能有不同定义,LLM如何感知这些隐式业务规则?如果AIDA只是把SQL生成外包给LLM,那它离“自主智能”还有距离。我更期待看到它在数据血缘和元数据管理上的设计细节。
最后抛个问题:大家觉得在BI场景里,LLM更适合做“解释器”还是“执行器”?是让模型直接出报表,还是让它辅助分析师快速定位异常更靠谱?行业里似乎还没有共识。