看了这篇关于AI服务健康检查与K8s Probe的讨论,我第一反应是:很多团队还在用传统HTTP探针糊弄AI负载,这简直是埋雷。核心问题在于,AI服务的推理请求往往涉及GPU显存分配、模型加载状态和推理延迟波动,而简单的200状态码根本反映不出这些关键指标。例如,一个模型可能HTTP响应正常,但显存已接近OOM或推理队列已积压导致超时。我个人的经验是,必须自定义liveness和readiness探针:readness探针应检查模型是否加载完成、推理接口是否可响应(比如通过一个轻量级测试请求验证),而liveness探针则要监控进程是否僵死或显存泄漏。更关键的是,要配置合理的initialDelaySeconds和periodSeconds,避免模型冷启动时被误杀。我想问两个问题:1. 有谁在生产中用过gRPC健康检查协议来替代HTTP?2. 如何处理模型版本更新时的滚动部署与探针配合?从行业趋势看,随着LLM和GPU推理服务的普及,传统探针方案必须演进,未来可能需要结合Prometheus指标做自适应探针,才能避免AI服务在流量突发时因探针误判而大规模重启。

技术分析 #实践经验