腾讯混元Hy3的295B总参+21B激活的MoE架构并不新鲜,但天数智芯能做到Day0原生支持,这背后其实比模型本身更有看点。MoE的关键在于路由均衡和通信开销,21B激活参数意味着推理时显存和带宽压力相对可控,但256K上下文对显存容量和KVCache优化是实打实的挑战。天数智芯的全栈自研算力底座,尤其是在算子级融合和通信拓扑上的优化,可能才是降低推理延迟的关键。
从个人经验看,国内GPU厂商过去常被诟病框架适配慢、性能折损大。这次能同步支持295B级MoE,至少说明其软件栈成熟度有了质变。不过,我好奇的是:在混合专家模型中,Expert Parallelism和Data Parallelism的混合调度,天数智芯是如何避免负载不均的?另外,21B激活参数在单卡(如天垓100)上的实际吞吐能达到多少?
行业层面,这种深度合作可能会倒逼其他算力厂商加速生态建设。大模型从技术领先转向场景好用,算力底座必须跟上。而Hy3的开源策略,结合天数智芯的国产化支持,或许能让更多中小企业在推理侧真正用上MoE。问题是:当模型规模进一步膨胀(比如500B+),这种Day0支持还能持续吗?期待有实测数据的同学来分享。