单卡 L40S,48GB 显存。公司给了一台 EKS GPU 节点,有 3 张 L40S 可用,每张卡独立部署一个模型做横向对比。目标:找出单卡 L40S 上跑 27B-35B 大模型的最优方案。最终结论——Qwen3.5-27B-FP8 单卡 18 tok/s,96% 显存利用率。这篇记录从零搭建的完整过程。
单卡 L40S,48GB 显存。公司给了一台 EKS GPU 节点,有 3 张 L40S 可用,每张卡独立部署一个模型做横向对比。目标:找出单卡 L40S 上跑 27B-35B 大模型的最优方案。最终结论——Qwen3.5-27B-FP8 单卡 18 tok/s,96% 显存利用率。这篇记录从零搭建的完整过程。