DeepSeek 目前是全世界科技领域最受关注的焦点,可以称之为 “DeepSeek 现象”,但现象本身目前有点过于炒作了,导致很多人看不清楚实际情况。
专注于 AI 的独立研究分析公司 SemiAnalysis 发布了一个关于 DeepSeek 的报告,涉及了 DeepSeek 背景、GPU 数量、成本、模型、技术等方方面面,值得一读。
SemiAnalysis 一开始解释为什么很多人在炒作,因为最近两个月出现了完全相反的观点,上个月很多人认为 DeepSeek 打破了缩放定律(scaling laws),随着算法效率提高,GPU 产能过剩,导致英伟达股票大跌。
但这个月说法是,虽然算法效率提高了,但计算需求并没有减少,反而增加了,这就是 Jevons paradox 悖论,即技术的进步也会增加需求,SemiAnalysis 无疑支持后一种观点,目前看来 H100 和 H200 价格还上涨了。
回到 DeepSeek 本身,下面是 SemiAnalysis 的一些主要观点。
1:DeepSeek 和幻方量化
DeepSeek 背后的母公司是幻方量化,是一家对冲基金,其开发的交易系统就使用了 AI 算法,很早就意识到 AI 在各行各业的潜力,深谙 GPU 基础设施的重要性,所以 2021 年趁着没有出口管制就购买了 1 万颗 A100 GPU。
随着发展,2023年 5 月份成立了 DeepSeek,目标是专注探索 AI 能力,和其它寻求融资的 AI 公司不一样的是,幻方量化自筹资金成立并发展 DeepSeek,两家公司也共享计算资源。
可以说 DeepSeek 是正儿八经搞 AI,而非套现和追风,SemiAnalysis 相信 DeepSeek 在 GPU 上的投资超过了 5 亿美元。
下图是英伟达 GPU 出口管制前后,其 GPU 产品的能力,红色部分的 GPU 受出口管制,可以看出给中国供给的 A800、A100、H20 算力并不高,但比更高阶版本 GPU 的 HBM 内存是线性增加的。
2:DeepSeek 有多少 GPU
SemiAnalysis 再一次使用了相信,代表没有经过官方证实,认为 DeepSeek 大概有 50,000 个 Hopper GPU,包括 10,000 个 H100、10,000 个 H800,英伟达在过去 9 个月制造了100 多万个中国专用 GPU,DeepSeek 估计有 30,000 个 H20。
SemiAnalysis 估计 DeepSeek AI 服务器的成本大概是 16 亿美元,运营成本 9.44 亿美元。
DeepSeek 的 GPU 并不是集中管理的,而是分布在不同的地方,这点和国外的 AI 集群很不一样。
3:人才策略
DeepSeek 从国内招聘,不看资历,关注能力和好奇心,职位上也很灵活,在招聘广告强调可以使用上万的 GPU,薪水也很高,优秀人才的年薪达到 130 万美元。
从这些可以看出 DeepSeek 即极扁平化管理,自筹资金,这样的小型初创公司往往能突破极限,有更广阔的空间,能够做出创新。
SemiAnalysis 特别强调 DeepSeek 是目前最好的 “open weights” 实验室,超越了 Meta 的 Llama、Mistral 等。
4:训练成本真的是 600 万美元吗?
DeepSeek 提到 pre-training 预训练成本不到 600万美元,但对于 AI 公司来说,成本还包括硬件、开发、人力、试验等。
比如 DeepSeek 在其 MLA 技术创新中,就花费了几个月,耗费了大量的人力和 GPU 资源。
5:V3
很多人将 V3 和 GPT-4o 进行比较,而且性能确实优于 GPT-4o,但 GPT-4o 是在 2024 年 5 月发布的,大半年的时间过去了,通过算法的改进,能够以更少的计算资源获取同等或更强大的性能,这就是 DeepSeek V3 超越 GPT-4o 的核心逻辑!
如何衡量 AI 是在快速发展的呢?推理成本就是最明显的指标。
目前的规律就是,算法的进步速度是每年4倍,这说明每过一年,实现相同能力所需要的计算量会减少 4 倍,Anthropic CEO 甚至认为,算法进步的速度每年可以提高 10 倍。比如从推理成本上看,GPT-3 的成本下降了 1200 倍。再比如 GPT-4 由于算法的改进优化成本下降了 10 倍,但能力确提高了10 倍。
下图可以看出随着时间的推移,主流模型的推理成本下降了多少倍。
SemiAnalysis 强调 DeepSeek 实现了卓越的性能,被人熟知是因为他们开放了模型权重,不过 Llama 虽然也开源,但没有引起如此的轰动。
6:DeepSeek R1
如果说 V3 因为其高性能和低成本让人熟知,那为什么 DeepSeek R1 更让人吃惊呢,OpenAI 的 o1 推理模型去年发布的,而 R1 仅仅用 3 个月就达到甚至超越了?
因为 R1 推理使用了新的推理范式,迭代速度更快,计算量更小,但收益却非常大,这也说明以前模式依赖于预训练的范式已经走到了尽头。
具体来说,新的范式通过合成数据生成和 RL 强化学习在现有模型进行 post-training 训练,从而能够以较低的成本取得进展,由于门槛低且很容易优化,这就是 DeepSeek 快速赶超 o1 的原因,随着 AI 玩家研究如何在新的范式下扩展规模,未来模型之间的时间差距会变大。
R1 论文没有提到训练成本,这间接说明 post-training 训练生成合成数据需要大量的计算资源,还包括 RL 的成本。
SemiAnalysis 强调,R1 是一个非常好的模型,它在推理上的性能非常卓越,且是中国开发的,使用了较少的资源。
OpenAI 最近也开放了 o3,性能明显高于 R1 或 o1,OpenAI 提出了性能基准是“垂直”的,提高非常明显。
7:Gemini Flash 2.0 Thinking
此外 SemiAnalysis 也提到了 Gemini Flash 2.0 Thinking,它比 R1 发布时间提早了一个月,但没有引起太大的关注,那这是为什么呢?
SemiAnalysis 最后总结,DeepSeek 作为一家快速发展、资金充足、聪明且目标明确的初创公司,能够在推理模型方面击败 Meta 等巨头,这是值得称赞的,且 DeepSeek 的创新对整个生态系统,尤其是利润率有深远的影响,加速了 AI 产业洗牌,同时 Jevons paradox 悖论表明 GPU 的需求依然强劲。