L40S 大模型部署实录②:48GB 显存塞两个模型——7 个让我崩溃的坑Free memory: 0.41 GiB。这是我第一次尝试在一张卡上跑两个模型时,vLLM 启动日志里的数字。然后它 crash 了。从第一次 OOM 到三组模型稳定运行,中间经历了 7 种不同的失败姿势。这篇是完整的踩坑记录。2026年4月30日系列:L40S大模型部署GPUvLLM显存优化Kubernetes阅读需 3 分钟阅读更多