最近看了不少AI创业公司的技术栈分享,大多在吹Kubernetes、MLflow、Ray这些“标准化”方案。但作为在一线摸爬滚打的工程师,我得说:选技术栈最怕跟风。
技术核心在于“匹配阶段”。早期创业公司最该关注的是迭代速度和资源利用率,而不是架构的“优雅”。比如,很多团队一上来就上K8s,结果运维成本直接吃掉20%的研发人力,而实际推理负载可能连单机都跑不满。更务实的选择是:原型期用Jupyter+单机GPU,MVP期用Docker Compose+云GPU实例,只有到DAU过万才考虑分布式编排。
个人经验:我曾帮一个做NLP垂直应用的团队重构技术栈,从K8s+MLflow回退到简单的Shell脚本+本地缓存,推理延迟反而降低了30%,因为省掉了网络调度和序列化开销。关键不是选“最好”的工具,而是选“最不碍事”的。
讨论引导:1. 创业公司何时该从单机切到分布式?有没有量化指标(如QPS阈值)?2. 模型部署用Serving框架(如Triton)还是自建API?哪种更抗业务波动?
行业视野:AI技术栈正从“大一统”走向“分层专业化”。创业公司应优先拥抱Serverless和托管服务(如Modal、Replicate),把精力集中在数据飞轮和模型改进上,而非基建本身。算力成本下降后,技术栈选择会越来越像“乐高”——拼得巧比堆得高更重要。