1 篇博文含有标签「性能测试」

L40S 大模型部署实录③：同一张卡跑三个模型，速度差了 8 倍

Qwen3.5-27B：18 tok/s。Qwen3.6-35B：11 tok/s。gemma-4-26B 双卡：93 tok/s。同样是 L40S，模型选错速度差 8 倍。这篇用真实测试数据告诉你，哪个模型值得你的 GPU 时间。