L40S 大模型部署实录③:同一张卡跑三个模型,速度差了 8 倍Qwen3.5-27B:18 tok/s。Qwen3.6-35B:11 tok/s。gemma-4-26B 双卡:93 tok/s。同样是 L40S,模型选错速度差 8 倍。这篇用真实测试数据告诉你,哪个模型值得你的 GPU 时间。2026年5月1日系列:L40S大模型部署GPUvLLM性能测试LLM阅读需 3 分钟阅读更多