跑得最快的模型,长文本全部超时。参数最多的模型,总分垫底。最终胜出的是参数最少的那个——76.6% vs 69.7% vs 69.1%。这篇记录 160 道题、6 个维度的完整评测过程,以及为什么"参数大 ≠ 质量好"。
博客
代码人生:编织技术与生活的博客之旅
L40S 大模型部署实录③:同一张卡跑三个模型,速度差了 8 倍
Qwen3.5-27B:18 tok/s。Qwen3.6-35B:11 tok/s。gemma-4-26B 双卡:93 tok/s。同样是 L40S,模型选错速度差 8 倍。这篇用真实测试数据告诉你,哪个模型值得你的 GPU 时间。
L40S 大模型部署实录②:48GB 显存塞两个模型——7 个让我崩溃的坑
Free memory: 0.41 GiB。这是我第一次尝试在一张卡上跑两个模型时,vLLM 启动日志里的数字。然后它 crash 了。从第一次 OOM 到三组模型稳定运行,中间经历了 7 种不同的失败姿势。这篇是完整的踩坑记录。
L40S 大模型部署实录①:单卡 48GB,能跑多大的模型?
单卡 L40S,48GB 显存。公司给了一台 EKS GPU 节点,有 3 张 L40S 可用,每张卡独立部署一个模型做横向对比。目标:找出单卡 L40S 上跑 27B-35B 大模型的最优方案。最终结论——Qwen3.5-27B-FP8 单卡 18 tok/s,96% 显存利用率。这篇记录从零搭建的完整过程。
日均开发实录⑤:SwiftUI + SwiftData 实践笔记
日均的技术栈很简单:SwiftUI + SwiftData,纯 iOS 原生开发。没有后端,没有第三方依赖,数据通过 iCloud 同步。
这篇记录一些技术选型的思考和实际开发中的经验。
日均开发实录④:小红书 + App Store 的获客漏斗——211 次下载背后的故事
日均上线后的前两周,我没花一分钱投广告,累计获得了 211 次下载。
这个数字不大,但背后的获客路径很有意思:不是 App Store 搜索带来的自然流量,而是小红书内容间接驱动的。
日均开发实录③:独立开发者的留存困局——从 4% 到破局之路
D1 留存 12%,D7 留存 4%。
这两个数字,是日均上线两周后 App Store Connect 给我的现实。100 个人下载了 App,一周后只有 4 个人还在用。
这篇文章记录我怎么诊断问题、做出决策、以及为什么"砍功能"有时候比"加功能"更重要。
日均开发实录②:一个人做 iOS App 的设计系统——日均的温暖极简风格
独立开发者最容易忽略的事情之一:设计系统。不是说要做一套 Material Design 那样的巨型规范,而是——你的 App 看起来像是同一个人做的吗?
日均的设计关键词是四个字:温暖极简。
日均开发实录①:从想法到上架——日均 App 的产品定位思考
做「日均」之前,我问自己一个问题:市面上记账 App 已经几百个了,我为什么还要做一个跟钱有关的工具?
答案是——我不做记账。