DeepSeek 塞进苹果本儿，分币不花实现「龙虾自由」

（本文作者为字母 AI，钛媒体经授权发布）

甩掉 1000 亿包袱后，新紫光「想赢」还要回答几个问题

2026 年 5 月 10 日

18 亿增资搁浅后，光大永明人寿又遭两股东清仓

2026 年 5 月 10 日

文 | 字母 AI

在 agent 时代最贵的是什么？是 token。

一些重度 agent 使用者，一个月用掉几亿 token，账单小几万块钱也是常有的事。

然而现在开始，有这么一个开发者他开源了一个本地方案，一台苹果笔记本就能部署，也就是说，你从此实现了“ 龙虾自由”，跑再多任务，也不会再为 token 付出一分钱了。最关键的是，他用的还是 DeeSeek V4 Falsh。

几天前，antirez 在 GitHub 上发布了一个项目，叫 ds4。

这是一个专门为 DeepSeek V4 Flash 写的推理引擎。一共几千行 C 代码，可以让 DeepSeek V4 Flash 这个模型在 128G 内存的苹果电脑上跑起来。

开发者 antirez，本名 Salvatore Sanfilippo，是意大利程序员，同时他也是开源数据库 Redis 的原作者。Redis 后来成为全球互联网基础设施里最常用的内存数据库之一。

往好的方面去想，DeepSeek 影响力足够大，吸引到了圈内顶流的程序员，但是坏的方面是，DeepSeek 这回真的免费了。

任何开发者都可以用 ds4，去把 DeepSeek V4 Flash 装进自己的 MacBook Pro 里，本地跑代码、本地读上下文、本地做 agent 任务，而这一切的一切，不需要给 DeepSeek 付 1 分钱。

虽然 DeepSeek V4 Flash 本身开源，可 FP16 精度的原始模型要吃掉 284G 内存，显存需求更是高达 160G。

因此，想运行它，你至少得有两张英伟达 A100 80GB、一条 512GB DDR5 ECC 内存，以及一个 4TB NVMe SSD。总成本 50 万人民币。

而现在，一台 3 万块钱的 MacBook Pro 就能跑。

那 antirez 为什么偏偏选中 DeepSeek V4 Flash 呢？

原因是 DeepSeek 最适合被“ 塞进本地电脑”。

它有 284B 总参数，足够大；但每次推理只激活 13B 参数，又不像传统大模型那样沉重。

它支持 100 万 token 上下文，适合编程助手这种长任务；同时 KV cache 压缩得足够狠，给本地内存和 SSD 留下了操作空间。

DeepSeek V4 Flash 刚好站在了这样一个神奇的平衡点上，既大到值得折腾，又小到能被塞进苹果笔记本里。

YC 的 CEO Garry Tan 在 X 上转了这条消息，只打了一行字：正在下载……100 万 token 上下文窗口，可用的编程助手能力，全在一台 128GB 的 MacBook Pro 上，太疯狂了。

ds4 究竟是什么？

先说结论，ds4 不是一个模型，它是一台“ 专用发动机”。DeepSeek V4 Flash 是车，苹果电脑是路，ds4 负责把这辆原本更适合跑在云端的大车，改到本地机器上能跑、能接 API、还能被 coding agent 调用。

过去大家想在自己电脑上跑大模型，普遍用的都是 llama.cpp 这个工具。它的好处是什么模型都能跑，Llama、Qwen、DeepSeek 全都支持。

可问题就是，什么都能跑，就意味着什么都跑不到最快。为了照顾所有模型，llama.cpp 必须做很多妥协，性能上不可能做到极致。

antirez 的想法正好相反，他才不管别的模型死活，他就专门伺候 DeepSeek V4 Flash 这一个，把它优化到极限。

他一共做了 3 件事。

第一件事，是不对称的 2-bit 量化。

DeepSeek V4 Flash 的架构是 MoE（Mixture of Experts），284B 总参数里，每次推理只激活 13B，这 13B 是路由挑出来的若干个专家子网络。

就像一个工具箱里有 284 把工具，每次只拿出 13 把来用。这 284B 里面，有一大堆“ 备选专家” 占了 90% 以上的空间，但它们不是每次都用，只是候补。

antirez 的做法是，只对这批 routed experts 做激进的 2-bit 量化，up 和 gate 矩阵用 IQ2_XXS，down 矩阵用 Q2_K，而模型里所有关键路径上的组件，包括 shared experts、projections、routing 网络，全部保持原始精度不动。

也就是说，antirez 把这些“ 候补专家” 狠狠压缩，压到只剩原来 1/4 的大小，但那些每次都要用的核心组件，一点都不动，保持原样。

这是一种不对称的压缩策略，砍掉体积大头，保住质量命脉。

第二件事，是把 KV Cache 搬到 SSD 上。

DeepSeek V4 Flash 支持 100 万 token 的上下文，这相当于你可以把一整本小说扔给它，它能全记住。

但这么长的上下文，意味着 AI 在工作时要不停地回头翻看前面的内容。为了让这个“ 回头翻看” 的动作不至于慢到卡死，AI 需要把这些内容暂存在一个叫“ 缓存” 的地方，方便随时调用。

以前的做法是把这个缓存放在内存里。内存速度快，AI 每次生成一个字都要频繁查这个缓存，所以必须放内存。

但问题是，如果让 128GB 内存的 MacBook Pro 跑 DeepSeek-V4 Flash，光缓存就能把内存吃光，模型本身都没地方放了。

所以 antirez 的做法是直接把缓存扔到硬盘（SSD）上。ds4 把一部分 KV 状态做成可落盘、可恢复的缓存，让长提示词和 agent 反复续写时，不必每次从头处理。

这听起来有点离谱，因为硬盘比内存慢多了。

然而现代 Mac SSD 足够快，适合做 KV 缓存持久化和恢复。加上 DeepSeek V4 Flash 本身对缓存做过压缩，读写量不大，所以硬盘完全顶得住。

结果就是内存省出来了，100 万 token 的超长对话真的在一台 MacBook 上跑起来了。

不过这不等于 128GB MacBook 可以毫无压力地把 100 万 token 全部拉满。

按照 ds4 自己的说明，2-bit 模型本身已经要占掉大约 80GB 级别的内存，真正日常使用时，100k 到 300k 上下文会更现实一点。

第三件事，是纯 Metal 原生路径。

antirez 把所有优化都押在苹果电脑的 GPU 上。

因此他专门为苹果芯片写了一套代码，让 DeepSeek V4 Flash 能在苹果电脑上跑得飞快。

至于 CPU，并不是这个项目的重点。README 里也写得很直白，CPU 模式目前还不稳定，甚至可能触发系统崩溃。antirez 进一步表示，如果有人真想走这条路，后续大概还得靠社区来补救。

在 M3 Max 128GB 的 MacBook Pro 上，实测速度是每秒能生成 26 个字左右。M3 Ultra 512GB 的 Mac Studio 上能跑到每秒 36 个字。

不算快，但写代码、调试这些日常工作完全够用。

更有意思的是，antirez 是独自一人通过 GPT-5.5 完成的整个这个项目。

利好 DeepSeek

根据外媒报道，DeepSeek 目前正在寻求高达 73.5 亿美元的融资，梁文锋现在就处在这个关键的转折点上，用商业叙事取代 DeepSeek 过往的技术叙事。

那投资人看什么？不只是看模型跑分，不只是看 API 调用量，更看生态位和不可替代性。

一个海外知名开发大佬，愿意为你的模型写专用引擎，这本身就说明 DeepSeek 在海外有着一定的生态地位。

过去一年，中国开源模型的出海叙事里，主流衡量标准是 benchmark，MMLU、HumanEval、SWE-bench，一串又一串的数字。

但有人愿意围绕你做二次工程，才代表你的模型被认可了。Anthropic 用千问做实验，Cursor 蒸馏 Kimi，这种认可比分数更值钱。

antirez 不是 AI 圈里那种什么新模型都要试一遍的博主

他选一个模型，然后还要花几周的时间去写专用推理引擎、做特制量化、搭 HTTP 服务层、做 agent 集成测试，显然是他认为 DeepSeek 值得。

这就变相等于，一个有信誉的第三方，在用自己的时间和名声给 DeepSeek-V4 背书。

说到国产模型出海，目前我能想到的路有两条。

一条是 API 被调用。你提供服务，别人付费使用，你是 service provider，客户是 consumer。

这条路很直接，也很现实，别人可以随时切换，你无时无刻都得对抗你的竞品，从性能到价格。

另一条是模型被改造。有人把你的权重拿走，做量化、做蒸馏、做专用 runtime、做本地部署、做 agent 工具链。在这条路里，你的模型成了材料。

材料和服务的区别在于，材料会被嵌入到别人的工具链里，然后就很难被换掉了。

举个例子，某个开发者把 ds4 集成到自己的 coding agent 里，写了一堆配置文件、调试脚本、自动化流程。他的团队成员也都习惯了这套工具，公司的代码库里到处都是基于 DeepSeek 本地推理的调用。

这时候如果要换成别的模型，就不是“ 改个 API key” 那么简单了，而是要重新适配引擎、重写脚本、重新培训团队习惯。成本太高，大概率就不换了。

这就是“ 被嵌入” 的粘性。

ds4 把 DeepSeek V4 Flash 嵌进了 Metal 原生本地推理这个场景。截至发稿，Hugging Face 上 antirez 那个 deepseek-v4-gguf 仓库，就已经有 25000 次下载了。

每一次下载，都意味着有人在自己的机器上跑起了 DeepSeek，粘性也就这么一点一点的建立起来了。

更值得注意的是连锁效应。

Hacker News 上有这样一条高赞评论，他说如果以后针对精确的 GPU 加模型组合构建超优化推理引擎会怎样？GPU 越来越贵，抽象层去掉得越多，优化空间就越大。

这个方向一旦被验证，意味着每一代有分量的开源模型发布时，都会有人跳出来给它做专属引擎、专属量化、专属 agent 接入。

相当于是每一代模型都应该有一个自己的“antirez”，开发出一个自己的“ds4”。

DeepSeek V4 Flash 正好踩在了这个起点上。

如果这套逻辑成立，那么后续每个 V4 Flash 的小版本迭代，都会天然地被嵌入到这个“ 一代模型配一个专用引擎” 的循环里。

梁文锋成了第一个吃螃蟹的人。

DeepSeek 也从一个模型品牌，变成海外开发者手里的基础设施材料。

对于现阶段的 DeepSeek 来说，这种“ 升维” 非常重要。

焉知非福

讲完了利好，必须讲另一面。

目前来看，DeepSeek 的核心商业化路径是 API。开发者调用，按 token 付费，薄利多销。

这是 DeepSeek 最擅长的打法。

但 ds4 这种项目，本质上是在“ 劝退” 一部分 API 用户。

你可以这么来理解，一个独立开发者或者小团队，过去用 Claude Code 或者 DeepSeek 的 API 跑 coding agent。coding agent 是高 token 消耗场景，长上下文、多轮对话、频繁工具调用、反复重试。

按 token 计费的话，一个重度 agent 的开发者每个月可能要花几千块钱的 token 费用。

然而现在他面前出现了另一个选项。

花几万块钱买一台 128GB 的 MacBook Pro，然后跑 ds4。

前期投入一次，之后推理没有边际成本，数据不出本地，延迟完全可控。

外网论坛上有个开发者分享了他的方法：日常写代码、改 bug 这些简单任务，全扔给本地的 ds4 跑，不花钱。只有遇到复杂的架构设计问题，才切换到云端的 DeepSeek V4-Pro 或者 Claude Opus。

高 token 消耗的部分被本地化了，只有少量高价值调用还留在云端。

相当于一分钱没有给到 DeepSeek，却在绝大多数时间都在使用 DeepSeek。

同时，antirez 采用的量化方法也是有“ 坑” 的。

即使是不对称量化策略，只压 MoE 专家不压关键路径，也不可能完全没有质量损失。

外网论坛上已经有人发出了测试结果，ds4 本地量化版本在超 2000 行代码的文件里偶尔丢失变量作用域，幻觉略多，MoE 路由层对量化噪声尤其敏感。

这就引出了另一个更麻烦的问题，叫做体验解释权。

就像 DeepSeek 服务器崩了，我不知道是为什么崩的，我只会觉得是 DeepSeek 不行。

用户调用 DeepSeek 官方 API，如果效果不好，他大概率会认为是 DeepSeek 自己的问题。但用户在本地跑 ds4 时，面对的是 2-bit 量化、Metal runtime、SSD KV cache、上下文截断、agent 配置等一整套变量。

这里面任何一个环节出问题，最后往往被归因到“DeepSeek 不行”。

别人帮你扩散模型，但他并不会帮你去维护口碑，主要是人家也没这义务。

更深一层看，“ 成为材料” 和“ 成为平台” 是完全不同的两件事，梁文锋更想要的是后者，可是 ds4 却让 DeepSeek 成为了前者。

材料只会被嵌入别人的工具链，不能为 DeepSeek 提供商业闭环，只有平台才掌握分发、计费、账户、数据、开发者关系和升级节奏。

DeepSeek 如果只是提供权重，被 antirez、Cursor、各种本地 agent 和第三方 runtime 拿去改造，它当然获得了名声。不过真正能留住用户的人，可能是那些工具链的开发者。

这就是开源模型的悖论。

模型越成功，越容易成为别人的底层能力；但底层能力如果没有抓住开发者的入口，就有可能被上层产品吃掉大部分商业价值。

所以 ds4 对 DeepSeek 不是简单的好消息，也不是坏消息。

可以肯定的是，对于 DeepSeek 来说，他们又有故事可以讲给投资人听了。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

DeepSeek 塞进苹果本儿，分币不花实现「龙虾自由」

甩掉 1000 亿包袱后，新紫光「想赢」还要回答几个问题

18 亿增资搁浅后，光大永明人寿又遭两股东清仓

相关文章

甩掉 1000 亿包袱后，新紫光「想赢」还要回答几个问题

18 亿增资搁浅后，光大永明人寿又遭两股东清仓

我，49 岁，成为模特

奥特曼「官宣」 OpenAI 手机

豪掷 40 亿「赌明天」，天阳科技主业困境下的算力豪赌

神马经典投研: 集资讯、策略、研报一站式期货投研工具

「我们也深陷残酷价格战」，德资巨头中国区高管警告

一周产业基金｜上海市人工智能 CVC 基金发布；湖北百亿人形机器人母基金来了

基民懵了！这个火爆的板块年内涨超 37%，主力却借道 ETF 狂抛逾 400 亿元

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

New Cryptocurrency That Will Kill Of Bitcoin

2026 年 5 月 1 日各大品牌金店最新黄金价格多少钱一克？

国投白银 LOF：5 月 11 日开市起停牌至 10:30

港股收盘 | 三大指数集体走强 AI 热潮点燃科技股

下周 A 股还能涨吗？这两件事，请股民重点关注

欢迎回来！

创建新帐户！

重置您的密码

DeepSeek 塞进苹果本儿，分币不花实现 「龙虾自由」

Related articles

ds4 究竟是什么？

利好 DeepSeek

焉知非福

相关 文章

欢迎回来！

创建新帐户！

重置您的密码

用户登录

用户注册

DeepSeek 塞进苹果本儿，分币不花实现「龙虾自由」

相关文章