跑得最快的模型,长文本全部超时。参数最多的模型,总分垫底。最终胜出的是参数最少的那个——76.6% vs 69.7% vs 69.1%。这篇记录 160 道题、6 个维度的完整评测过程,以及为什么"参数大 ≠ 质量好"。
4 篇博文 含有标签「系列:L40S大模型部署」
查看所有标签L40S 大模型部署实录③:同一张卡跑三个模型,速度差了 8 倍
Qwen3.5-27B:18 tok/s。Qwen3.6-35B:11 tok/s。gemma-4-26B 双卡:93 tok/s。同样是 L40S,模型选错速度差 8 倍。这篇用真实测试数据告诉你,哪个模型值得你的 GPU 时间。
L40S 大模型部署实录②:48GB 显存塞两个模型——7 个让我崩溃的坑
Free memory: 0.41 GiB。这是我第一次尝试在一张卡上跑两个模型时,vLLM 启动日志里的数字。然后它 crash 了。从第一次 OOM 到三组模型稳定运行,中间经历了 7 种不同的失败姿势。这篇是完整的踩坑记录。
L40S 大模型部署实录①:单卡 48GB,能跑多大的模型?
单卡 L40S,48GB 显存。公司给了一台 EKS GPU 节点,有 3 张 L40S 可用,每张卡独立部署一个模型做横向对比。目标:找出单卡 L40S 上跑 27B-35B 大模型的最优方案。最终结论——Qwen3.5-27B-FP8 单卡 18 tok/s,96% 显存利用率。这篇记录从零搭建的完整过程。