1 篇博文含有标签「显存优化」

L40S 大模型部署实录②：48GB 显存塞两个模型——7 个让我崩溃的坑

Free memory: 0.41 GiB。这是我第一次尝试在一张卡上跑两个模型时，vLLM 启动日志里的数字。然后它 crash 了。从第一次 OOM 到三组模型稳定运行，中间经历了 7 种不同的失败姿势。这篇是完整的踩坑记录。