10人00后团队2个月造出22B流式音视频模型

在AI视频生成赛道拥挤到令人窒息的2026年，一个由10名00后组成的团队用一组数据撕开了行业共识的口子。catnip.ai仅用2个月、64张H100 GPU，就交付了22B参数的流式音视频模型MaineCoon v1.0，单卡H100实现47.5 FPS实时推理，生成成本压低至Veo3的两千分之一，并首次支持30分钟以上的连续生成。这不仅是技术上的突破，更是一次对“只有巨头才能玩得起”的研发模式的彻底颠覆。这支团队的构成堪称“字节系精锐小队”。创始人杨姝瑞是前TikTok和PixVerse产品负责人，核心算法负责人谢泽柯是港科大（广州）助理教授，曾担任NeurIPS、ICLR等顶会领域主席。其余成员来自字节Flow和豆包团队。他们的组织设计反传统：采用“主题式分工”而非上下游流水线协作，每个人都能闭环完成从产品到开发的全流程。这种设计将信息摩擦和等待成本降至最低，让10个人爆发出百人团队的战斗力。MaineCoon的核心价值在于“快”和“省”。现有视频模型多为PGC内容设计，推理成本高昂，难以支撑UGC互动场景。catnip团队发现，要让视频真正“可交互”，必须将模型做轻、做小、做快。他们的流式架构实现了端到端音视频实时生成，单卡H100即可流畅运行，而生成成本仅为行业标杆Veo3的0.05%。这意味着，过去需要百万美元预算的互动视频项目，现在可能只需几百美元就能启动。catnip的愿景并非单纯做模型，而是构建一个“让被AI解放的人类在互动世界中感到幸福”的产品。MaineCoon只是他们通往这个愿景的第一个入口。对于AI从业者而言，这个案例的启示在于：在算力军备竞赛之外，组织效率和技术路线的选择同样重要。10人团队用2个月证明，当目标一致、分工激进时，小团队也能在巨头环伺的赛道中撕开缺口。未来，随着流式音视频模型成本进一步下降，UGC互动视频可能迎来真正的爆发。对于想入局的开发者，不妨关注catnip的开源动态，或许下一个爆款产品的底座就来自这群年轻人。

10人00后团队2个月造出22B流式音视频模型

相关推荐

讯飞星辰MaaS限时免费：Qwen3.6-35B无限Token畅用

中科院PAIWorld登顶世界模型权威榜单

网易云音乐旗下 AI 情感陪伴 App「妙时」发布停运公告

讯飞星辰MaaS限时免费：Qwen3.6-35B无限Token畅用

中科院PAIWorld登顶世界模型权威榜单

📖 更多原创