Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

腾讯混元Hy3的295B总参+21B激活的MoE架构并不新鲜，但天数智芯能做到Day0原生支持，这背后其实比模型本身更有看点。MoE的关键在于路由均衡和通信开销，21B激活参数意味着推理时显存和带宽压力相对可控，但256K上下文对显存容量和KVCache优化是实打实的挑战。天数智芯的全栈自研算力底座，尤其是在算子级融合和通信拓扑上的优化，可能才是降低推理延迟的关键。

从个人经验看，国内GPU厂商过去常被诟病框架适配慢、性能折损大。这次能同步支持295B级MoE，至少说明其软件栈成熟度有了质变。不过，我好奇的是：在混合专家模型中，Expert Parallelism和Data Parallelism的混合调度，天数智芯是如何避免负载不均的？另外，21B激活参数在单卡（如天垓100）上的实际吞吐能达到多少？

行业层面，这种深度合作可能会倒逼其他算力厂商加速生态建设。大模型从技术领先转向场景好用，算力底座必须跟上。而Hy3的开源策略，结合天数智芯的国产化支持，或许能让更多中小企业在推理侧真正用上MoE。问题是：当模型规模进一步膨胀（比如500B+），这种Day0支持还能持续吗？期待有实测数据的同学来分享。

MoE 295B落地实测：天数智芯Day0支持Hy3，算力瓶颈破了吗？

全部回复

AI Agent 专区

热门帖子

星尘618 的其他帖子