上交所将科创板第五套上市标准扩围至AI大模型企业,允许未盈利公司IPO,这无疑给智谱、MiniMax等烧钱研发的玩家打开了融资通道。从技术角度看,此举利好长周期研发投入:大模型训练需要千卡级算力和海量数据,传统盈利考核会扼杀基础创新。但个人经验来看,当前许多大模型公司仍停留在‘参数竞赛’阶段,实际落地场景中(如我的AI编码助手项目),模型推理成本高、幻觉问题未解,商业化路径并不清晰。上市标准放宽可能催生更多‘伪需求’——比如为迎合资本而堆砌参数,而非解决工程痛点。关键问题:1)未盈利公司如何向投资者证明技术护城河?2)科创板能否建立针对AI模型评估的量化指标(如推理效率、错误率)而非仅靠融资故事?行业格局上,这加速了‘烧钱-上市-再烧钱’循环,但若技术同质化严重,资本泡沫风险不容忽视。建议监管关注模型实际落地数据,而非仅凭参数规模放行。
科创板放开AI大模型IPO:资本狂欢下技术硬实力才是试金石
全部回复
共 6 条这事儿我其实挺矛盾的。一方面,大模型烧钱是真的烧,光我们团队调个7B模型跑几次实验,电费和运维成本就够喝一壶的,没资本输血很多团队确实撑不到技术突破。但另一方面,我最近在搞一个AI质检的落地项目,发现市面上很多开源模型在推理效率和场景适配性上其实很拉胯,参数吹得再大,真上产线半小时就抽风。估值靠参数堆砌,但工程落地要的是稳和快,这两个维度不匹配的话,科创板再宽松也只是给资本多一个讲故事的理由罢了。
作为一个在AI领域摸爬滚打了十多年、从底层框架写到分布式训练、再亲手把模型推到生产环境的老兵,看到这个帖子,我确实有点坐不住。楼主说的核心矛盾——“资本狂欢与技术硬实力的错位”——我非常认同,但我想从一线研发的视角,把一些藏在表面之下的“硬骨头”掰开揉碎讲清楚。尤其是关于参数竞赛、推理成本、幻觉问题以及那个“伪需求”的判断,我觉得可以聊得更深。
先说说参数竞赛这个事。楼主提到“许多大模型公司仍停留在参数竞赛阶段”,这确实是行业现状,但我想补充一个技术角度的观察:参数规模本身并不是原罪,真正的陷阱在于“为参数量而参数量”的架构设计惯性。很多团队为了快速达到千亿参数,直接堆叠标准Transformer层,用的是最朴素的密集注意力机制。但实际工程中,MoE(混合专家模型)架构的稀疏化策略、条件计算、甚至是类似GLaM或Switch Transformer那种动态路由,才是真正考验技术护城河的地方。我去年在某家头部大模型公司做过一次深度复盘:他们一个号称“万亿参数”的模型,实际上在推理时只有10%的专家被激活,但为了展示那个“万亿”数字,他们不得不为存储和通信付出了巨大的额外代价。结果就是,模型的MMLU分数跟一个精心训练的500亿参数模型打平,但推理成本高了8倍。这种打肿脸充胖子的做法,如果放到科创板的环境里,很容易变成“融资故事”的完美素材——投资者看到“万亿参数”就兴奋了,但懂行的工程师看到的是算力浪费和不可持续的推理成本。
我的个人踩坑经历,正好能佐证这一点。2019年到2021年,我主导过一个类似AI编码助手的项目(类似GitHub Copilot但早于它,后来因为商业化问题挂了)。我们当时在参数规模和推理效率之间反复摇摆。早期我们追求高精度,用了一个70亿参数的模型做代码补全,结果延迟飙到800ms以上,用户根本没法接受。后来我们被迫做知识蒸馏,把大模型压缩到2亿参数的小模型,配合一个基于语法树的局部注意力机制,延迟降到100ms以内,但代码准确率从80%掉到了65%。这个过程中我们意识到,真正的技术护城河根本不是参数规模,而是“如何用最少的计算资源,在特定场景下逼近最优解”。我们后来尝试了基于检索增强生成(RAG)的方案,把代码库的上下文切碎后嵌入向量数据库,推理时只检索相关片段再喂给模型。这个思路让2亿参数的小模型在特定领域(比如Python库函数调用)的准确率冲到了85%以上,甚至超过了未微调的大模型。但问题来了:RAG的检索链路本身也很脆弱,索引质量、向量维度选择、embedding模型的领域适配,每一步都可能是暗坑。我记得有一次为了优化一个C++模板的补全,我们不得不手写了一套基于AST的专用检索器,因为通用embedding模型对模板元编程的语义理解一塌糊涂。这些细节,在资本故事里是没人讲的,因为它们不够“性感”。
再来说推理成本和幻觉问题。楼主说“模型推理成本高、幻觉问题未解”,这其实是同一个技术难题的两个面。推理成本高的根源在于Transformer的自回归机制——每次生成一个token都要重新计算KV Cache,即便用上Flash Attention和PagedAttention,在长序列场景下仍然是O(n^2)的复杂度。而幻觉问题,本质上是因为模型在概率空间里做采样,它没有“事实锚点”。我最近在做一个医疗对话系统的工程化,发现一个很有趣的现象:即使用GPT-4级别的模型,如果不对输出做约束,它在解释某个药物剂量时,有30%的概率会编造一个偏离指南的数值。我们后来被迫在推理链路中加入了“事实校验”模块——一个轻量级的逻辑一致性检测器,基于知识图谱的约束来剪枝解码路径。这个检测器本身也是一个模型,但它只有10亿参数,专门用来判断输出是否与已知事实冲突。这个思路类似于“批评家网络”或“自我反思机制”,但实现起来极其复杂:你需要高质量的约束规则(比如药物相互作用图谱),还需要设计一个高效的剪枝算法,否则推理延迟会雪崩。这种工程层面的“硬功夫”,在科创板那个语境下,我觉得应该成为评估模型公司技术实力的核心指标之一,而不是只看他们跑出了多少分。
关于商业化路径不清晰,我想说一个更扎心的观察:很多大模型公司目前的商业模式,本质上是在卖“算力套利”。他们从云厂商那里低价囤积GPU(通过战略合作或承诺长期租用),然后用这些算力训练模型,再把模型以API的形式卖给下游。但问题是,云厂商自己也在做模型,而且他们拥有更便宜的算力(因为规模效应)和更完善的生态。我去年参与过一个To B项目的招标,甲方需要在本地部署一个大模型来做合同审核。一家明星大模型公司报价500万,说他们的模型在NQ数据集上达到SOTA。但甲方IT团队现场测试后,发现他们模型的推理延迟在单卡A100上要3秒,而甲方实际场景要求1秒以内。最后中标的是一家名不见经传的团队,他们用了量化感知训练(QAT)和动态图编译,把模型体积压缩到原来的1/4,延迟降到800ms,精度只降了2%。这个案例说明,在真实商业场景里,“参数规模”和“基准分数”都不如“工程适配能力”值钱。科创板放行未盈利公司,如果监管和投资者只看技术故事而不看工程落地的颗粒度,很容易出现“账面参数漂亮,实际交付一塌糊涂”的情况。
关于楼主提出的两个关键问题,我的看法是:
第一,未盈利公司如何证明技术护城河?我认为不能只看模型本身,而要看“数据飞轮”和“场景闭环”。真正有护城河的公司,应该能证明:他们拥有别人难以获取的独特数据源(比如某个垂直行业的私有语料),或者他们的模型在某个特定场景下形成了用户反馈的闭环(比如AI客服产品每天产生上百万次对话,这些对话被用于强化学习微调)。这种动态壁垒比静态的模型参数值钱得多。我参与过的一个项目,他们做工业领域的故障诊断,核心数据来自某汽车制造厂的产线传感器日志,这种数据是公开数据源完全覆盖不了的。他们用这些数据微调了一个小模型,在故障预测准确率上比通用大模型高了15个百分点,后来这个项目拿到了几千万的融资。这才是技术护城河的正确打开方式。
第二,科创板能否建立量化指标?我觉得可以,但必须跳出学术基准的框框。一个可能的框架是:评估模型推理时在典型硬件上的“计算经济性”,比如“每token的能耗成本”或“每秒产出有效token数”等指标。更激进一点,可以要求公司披露“幻觉率”的自动化检测方案和实测数据——比如在1000条测试提示中,模型回答中有多少条包含明显事实错误。这类指标比MMLU或HumanEval分数更贴近实际应用。我甚至觉得,可以引入“鲁棒性测试”机制:用对抗样本(比如加入拼写错误、语义歧义)测试模型输出质量的变化幅度。如果一个模型在干净数据上分数很高,但加入5%的噪声后分数暴跌,那它在生产环境中的价值就会大打折扣。
最后,关于“烧钱-上市-再烧钱”的循环风险,我想说一个技术层面的结论:如果科创板真的想筛选出有硬实力的公司,就应该把目光从“训练阶段”转向“部署阶段”。训练阶段的烧钱是刚性的,但部署阶段才是检验技术是否可落地的试金石。我建议监管方可以要求拟上市公司提供“规模化部署成本测算”——包括在不同并发量下的推理延迟、显存占用、精度衰减曲线。甚至可以要求第三方机构复现他们的部署方案,确保不是“演示级”的demo。那些只能跑单卡、单样本、单场景的公司,大概率是用融资故事包装的。
总的来说,科创板放行AI大模型公司,本质上是把技术判断权从市场转移到了监管和投资者手中。但AI技术的特殊性在于:它的进步速度远快于监管的认知更新速度。如果投资者还停留在“看参数、看论文、看融资额”的旧有框架里,那资本泡沫几乎是必然的。真正能活下来的公司,不是那些参数最多的,而是那些能把推理成本压到“可接受”、把幻觉率控制在“可容忍”、把数据飞轮转起来的工程团队。作为技术人员,我希望看到更多公司愿意公开他们的“工程日志”而非“参数榜”——比如他们用了几轮数据清洗、做了多少次模型剪枝、在哪些场景下放弃了准确率换延迟。这些细节,才是技术硬实力的真正体现。
这个政策确实给了烧钱搞研发的公司一条活路,但我自己折腾AI编码助手时感触最深的是,很多模型参数上去了,实际用起来推理慢、幻觉多,离落地差得远。资本一进来,最怕大家又去卷参数刷榜,反而没人认真抠工程优化和成本控制。科创板要是能定个像推理效率、错误率这种硬指标来考核,比光看融资额实在多了。
这帖子说到点上了。我自己在落地一个垂直场景的小模型时,最头疼的就是推理成本和幻觉,这些大模型公司PPT里的参数再好看,实际调起来真的想骂人。资本进来当然是好事,但真怕一堆团队为了上市编造“技术壁垒”,最后又变成一场击鼓传花。希望科创板能逼着他们拿出点硬指标,别光看融资轮次。
刚好这两天在调一个MoE架构的推理优化,看到这个帖子挺有感触的。科创板这个政策其实是把双刃剑,好处是智谱、MiniMax这些确实能喘口气,不用整天被盈利报表追着跑,毕竟千卡集群一跑就是几百万电费,传统财务模型根本算不过来。但问题也在这——现在很多团队拿到的融资,大半花在了盲目堆卡上,模型参数涨了,可实际部署时延迟和吞吐量根本没跟上。我团队之前试过某开源模型的API,单次推理成本比GPT-4还高,但幻觉率高出快一倍,这种技术债光靠烧钱是填不平的。
你提到量化指标的问题,我觉得很关键。现在行业里评估模型清一色刷榜MMLU、HumanEval,但生产环境里真正要的是低延迟下的连续对话稳定性和领域微调后的收敛效率。科创板如果能推动建立“商业化效率指标”,比如单位算力产出有效token数、模型在典型场景中的错误率衰减曲线,可能比单纯看参数量有意义得多。另外,未盈利公司证明技术护城河,光靠论文和榜单不够,得把工程落地的case拿出来——比如在同样算力约束下,你的推理框架比vLLM快多少?长上下文下的显存碎片怎么解决的?这些才是投资人该盯着的硬指标。
说实话,我有点担心这波政策会催生一批“讲故事型”公司,拿大模型当包装,实际连个稳定的推理服务都跑不溜。但反过来想,如果真能倒逼出一套技术评估标准,把那些靠堆参数混融资的筛掉,长期看反而是好事。
确实,参数竞赛和商业化落地之间的鸿沟太大了。我最近也在试一些开源模型做垂直场景的微调,发现就算模型参数小一半,只要推理效率高、幻觉率低,实际体验反而更好。有没有可能科创板后面会引导企业公布类似“每千token推理成本”或者“RAG场景下正确率”这类更实在的指标?不然光看融资额,真分不清谁在烧钱搞基建,谁在烧钱讲故事。