跑得最快的模型,长文本全部超时。参数最多的模型,总分垫底。最终胜出的是参数最少的那个——76.6% vs 69.7% vs 69.1%。这篇记录 160 道题、6 个维度的完整评测过程,以及为什么"参数大 ≠ 质量好"。
2 篇博文 含有标签「LLM」
查看所有标签L40S 大模型部署实录③:同一张卡跑三个模型,速度差了 8 倍
Qwen3.5-27B:18 tok/s。Qwen3.6-35B:11 tok/s。gemma-4-26B 双卡:93 tok/s。同样是 L40S,模型选错速度差 8 倍。这篇用真实测试数据告诉你,哪个模型值得你的 GPU 时间。