AI服务探针配置不当？小心生产环境翻车

看了这篇关于AI服务健康检查与K8s Probe的讨论，我第一反应是：很多团队还在用传统HTTP探针糊弄AI负载，这简直是埋雷。核心问题在于，AI服务的推理请求往往涉及GPU显存分配、模型加载状态和推理延迟波动，而简单的200状态码根本反映不出这些关键指标。例如，一个模型可能HTTP响应正常，但显存已接近OOM或推理队列已积压导致超时。我个人的经验是，必须自定义liveness和readiness探针：readness探针应检查模型是否加载完成、推理接口是否可响应（比如通过一个轻量级测试请求验证），而liveness探针则要监控进程是否僵死或显存泄漏。更关键的是，要配置合理的initialDelaySeconds和periodSeconds，避免模型冷启动时被误杀。我想问两个问题：1. 有谁在生产中用过gRPC健康检查协议来替代HTTP？2. 如何处理模型版本更新时的滚动部署与探针配合？从行业趋势看，随着LLM和GPU推理服务的普及，传统探针方案必须演进，未来可能需要结合Prometheus指标做自适应探针，才能避免AI服务在流量突发时因探针误判而大规模重启。

技术分析 #实践经验

请登录后发表回复

全部回复

共 2 条

白白云·丽 L1

2楼 2天前

这个分析很到位，我之前也踩过类似的坑。生产环境里readiness只配个HTTP 200，结果模型OOM了K8s还以为是健康状态，直接把流量打进去导致雪崩。后来我们改成了用gRPC健康协议配合自定义check，在readiness里跑一个固定输入的推理验证，确保响应时间和显存都正常再把Pod标记为Ready。不过initialDelaySeconds这个值得根据模型加载时间调好，不然启动阶段频繁重启也挺烦人的。

青青612 L1

3楼 2天前

这个问题提得相当到位，甚至可以说，你描述的场景我几乎原封不动地在生产环境里见过两次，一次是血泪教训，一次是勉强补救。所以看到这个帖子，我忍不住想多聊几句，把我实际踩过的坑、后来怎么填的、以及现在团队在用的方案都摊开来说。

先回答你第一个问题，关于gRPC健康检查协议。我们团队在去年Q2开始尝试用gRPC健康检查替代HTTP探针，动机很简单：我们的推理服务是纯gRPC的，HTTP那层是额外挂的一个适配器，专门为了给K8s探针用。这本身就很蠢，多一层适配就多一个故障点。而且那个适配器经常因为gRPC后端压力大而超时，但200却照常返回，导致探针形同虚设。切换成gRPC健康检查后，我们把探针直接打在gRPC的Health/Check接口上，这个接口由服务端实现，能真正反映gRPC连接池状态和底层推理引擎的健康。效果很直接：以前那种“服务看似活着但实际无法处理请求”的假健康状态彻底消失了。但有个坑必须提——gRPC健康检查协议要求服务端实现标准的Health/Check RPC，但很多AI框架的官方镜像并不自带这个实现，你得自己封装一层。我们是用Python的grpc_health_probe库配合一个自定义的servicer，里面会检查模型是否就绪、显存是否在阈值内（比如预留10%作为安全水位）。另外，initialDelaySeconds必须设得足够大，因为模型加载阶段gRPC服务虽然启动了，但Health/Check的SERVING状态要等到模型完全加载后才返回。我们第一次上线时initialDelaySeconds只设了30秒，结果大模型加载花了90秒，连续被探针杀死三轮，最后靠手动恢复才救回来。后来改成了120秒，配合periodSeconds=15，才稳定下来。

第二个问题，模型版本更新时的滚动部署与探针配合，这个比想象中复杂得多。我们踩过一个大坑：用默认的RollingUpdate策略，新Pod启动后readiness探针还没通过，旧Pod就已经被Terminate了，导致推理队列瞬间积压。后来我们改用MaxSurge=1, MaxUnavailable=0的策略，确保新Pod完全就绪后再回收旧Pod。但更关键的是，模型版本切换时，探针本身也要感知版本变化。我们目前的方案是：readiness探针除了检查模型是否加载，还会检查当前加载的模型版本是否与期望版本一致。这是通过一个环境变量注入的，比如MODEL_VERSION=v2，探针里会去读模型元数据里的版本号，如果不匹配就返回失败。这样旧Pod在滚动过程中会一直保持ready状态，直到新Pod的readiness通过，然后旧Pod才被真正替换。但这里有个边界情况：如果新模型加载失败，探针永远不通过，滚动更新就会卡住。我们的做法是配合PodDisruptionBudget，同时加一个超时机制——如果新Pod在5分钟内readiness不通过，就自动回滚到上一版本。这个逻辑我们用了一个sidecar容器来实现，它会监听K8s的Event，然后根据状态决定是否触发回滚。

至于你提到的传统HTTP探针糊弄AI负载的问题，我完全同意。200状态码欺骗性太强了。我见过最离谱的一个案例是，某团队用Flask写了一个极其简单的健康检查端点，里面只写了个return "ok", 200，连模型是否加载都没检查。结果某次模型文件被误删了，服务端启动时静默加载失败，但Flask进程还在跑，探针一直返回200，K8s认为服务正常。直到用户报错说所有请求都返回500，他们才去排查，发现模型文件没了。这其实就是典型的“进程活着但服务死了”的场景。所以我们对liveness探针的要求是，必须能检测到进程级别的僵死，比如Python GIL死锁、CUDA driver崩溃导致进程hang住。我们用的是自定义的liveness探针，里面会调用一个“心跳”函数，该函数会尝试获取CUDA context并执行一个极小的推理（比如一个全1张量的forward），如果连续三次失败就把进程杀掉。注意这里不能直接调用模型推理，因为推理接口可能因为负载高而暂时超时，但进程本身没僵死。所以我们用的是专门留的一个轻量级CUDA kernel，只验证cuda runtime是否正常。

关于显存泄漏的监控，我们是在liveness探针里加了一个显存占用的检查。比如，如果当前显存使用率超过95%并且持续上升趋势（通过比较前后两次探针的差值），就认为有泄漏，触发重启。但这里有个度的问题：大模型在推理高峰时显存占用波动很大，不能简单设一个硬阈值。我们实际的做法是：探针里读取nvidia-smi的输出，计算已用显存和总显存的比值，同时记录上一个周期的值。如果连续三个周期内该比值都超过90%且每个周期都比上一个高5个百分点以上，才判定为泄漏。否则只是正常波动不处理。这个逻辑我们写成了一个Python脚本，作为liveness探针的exec命令执行。另外说一句，用exec探针比HTTP探针更可靠，因为exec是在容器内部执行的，不依赖任何网络层，避免了HTTP适配器本身的故障。

你提到未来可能需要结合Prometheus指标做自适应探针，这个方向我们已经在尝试了。思路是：不再用固定的阈值，而是让探针从Prometheus拉取最近5分钟的推理延迟P99、请求排队长度、显存分配失败次数等指标，然后动态计算一个健康分数。如果健康分数低于某个动态基线（比如低于过去24小时平均值的30%），就认为服务不健康。但这个实现起来很复杂，我们目前只做了POC，还没全量上线。一个折中的方案是，把Prometheus指标作为readiness探针的辅助判断，而不是替换。比如，readiness探针先检查模型是否加载、推理接口是否可响应，如果这两项都通过，但Prometheus显示P99延迟已经超过500ms（正常是50ms），就认为服务处于“亚健康”状态，此时readiness探针返回失败，但liveness探针不触发重启，只是从service的endpoint中摘除。这样流量就不会打到已经过载的Pod上，同时Pod继续运行等待恢复。我们实测下来，这个策略在流量突发时能有效避免大规模重启，因为重启本身会加剧显存竞争和模型重新加载的开销。

还有一个帖子没怎么提但我认为至关重要的点：initialDelaySeconds和periodSeconds的配置必须结合模型加载时间和推理请求的burst特性。以LLM推理服务为例，模型加载可能需要5-10分钟（尤其是70B以上的模型），如果initialDelaySeconds设得太短，探针在模型还没加载完就开始检查，就会导致Pod反复被kill。我们现在的做法是，在Dockerfile里加一个初始化标志文件，模型加载完毕后才会touch这个文件，探针检查这个文件是否存在。这样initialDelaySeconds可以设得短一些（比如30秒），因为探针不会因为文件不存在而失败，只会一直等待。同时periodSeconds我们设得比较长（比如30秒），避免探针检查本身占用推理资源。对于liveness探针，periodSeconds会设得更长（比如60秒），因为liveness探针的检查成本更高（涉及CUDA kernel执行）。

最后，我补充一个你可能没提到的场景：GPU共享和多租户环境下的探针设计。如果你的K8s节点上跑着多个AI服务共享一块GPU（比如通过MPS或MIG），那么liveness探针里检查显存时一定要区分是哪个进程占用的。我们踩过坑：一个Pod的liveness探针检查到整个GPU显存使用率过高，但实际上高占用是隔壁Pod导致的，结果自己的Pod被误杀了。后来我们改成通过nvidia-smi的--pid参数只过滤当前进程的显存占用，才算解决了这个问题。

总的来说，AI服务的探针配置绝对不是“能返回200就行”那么简单。它需要对模型生命周期、显存管理、推理延迟波动有深刻理解，并且要结合K8s的滚动更新、PodDisruptionBudget、HPA等机制做联动。我认为未来行业会逐渐形成一套标准化的AI探针模板，就像Istio的envoy健康检查那样，但当前阶段还是得靠团队自己根据业务场景定制。你提到的gRPC健康检查和自适应探针都是正确的方向，但落地时一定要做好充分的边界测试，特别是冷启动和流量突发的场景。另外，我建议在探针之外，还要加一层独立的“业务健康检查”——比如定期向推理服务发送一个预设的测试请求，并验证返回结果的正确性和延迟。这个检查可以跑在外部监控系统里（比如Prometheus的Blackbox Exporter），不依赖K8s的Pod生命周期，能更真实地反映服务对用户的影响。我们团队现在就是“K8s探针+外部业务健康检查”双保险，K8s探针负责快速检测进程级故障，外部检查负责发现逻辑错误或性能退化。两者配合，才算是把AI服务的健康保障体系搭完整了。

AI服务探针配置不当？小心生产环境翻车

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

Luc-24 的其他帖子