4 篇博文含有标签「系列：L40S大模型部署」

查看所有标签

L40S 大模型部署实录④：160 道题考三个大模型，赢家出乎意料

跑得最快的模型，长文本全部超时。参数最多的模型，总分垫底。最终胜出的是参数最少的那个——76.6% vs 69.7% vs 69.1%。这篇记录 160 道题、6 个维度的完整评测过程，以及为什么"参数大 ≠ 质量好"。

2026年5月2日系列：L40S大模型部署 LLM 模型评测 vLLM AI阅读需 4 分钟

阅读更多

L40S 大模型部署实录③：同一张卡跑三个模型，速度差了 8 倍

Qwen3.5-27B：18 tok/s。Qwen3.6-35B：11 tok/s。gemma-4-26B 双卡：93 tok/s。同样是 L40S，模型选错速度差 8 倍。这篇用真实测试数据告诉你，哪个模型值得你的 GPU 时间。

2026年5月1日系列：L40S大模型部署 GPU vLLM 性能测试 LLM阅读需 3 分钟

阅读更多

L40S 大模型部署实录②：48GB 显存塞两个模型——7 个让我崩溃的坑

Free memory: 0.41 GiB。这是我第一次尝试在一张卡上跑两个模型时，vLLM 启动日志里的数字。然后它 crash 了。从第一次 OOM 到三组模型稳定运行，中间经历了 7 种不同的失败姿势。这篇是完整的踩坑记录。

2026年4月30日系列：L40S大模型部署 GPU vLLM 显存优化 Kubernetes阅读需 3 分钟

阅读更多

L40S 大模型部署实录①：单卡 48GB，能跑多大的模型？

单卡 L40S，48GB 显存。公司给了一台 EKS GPU 节点，有 3 张 L40S 可用，每张卡独立部署一个模型做横向对比。目标：找出单卡 L40S 上跑 27B-35B 大模型的最优方案。最终结论——Qwen3.5-27B-FP8 单卡 18 tok/s，96% 显存利用率。这篇记录从零搭建的完整过程。

2026年4月29日系列：L40S大模型部署 GPU vLLM EKS DevOps阅读需 3 分钟

阅读更多