DeepSeek，做AI竞争的破局者-鸟哥笔记

来源 | 伯虎财经（bohuFN）

作者 | 森系

中美大模型的差距在1-2年。起码在今年春节之前，这还是一个获得普遍认同的观点。

直到中国科技公司深度求索发布了推理模型DeepSeek-R1，用不到GPT二十分之一的成本，获得了和OpenAI的顶尖推理模型o1相当的能力。

DeepSeek的影响很快扩散到大洋彼岸。

1月27日，美国科技股遭遇“黑色风暴”，费城半导体指数（SOX）狂泻9.2%，创下2020年3月以来的最大单日跌幅。英伟达股价重挫近17%，市值一夜之间蒸发近6000亿美元，创下美股历史上最大的单日市值缩水规模。博通、台积电、ASML、Google和微软等科技巨头也未能幸免，股价分别下跌17.4%、13%、7%、4%和2.14% 。

与此同时，欧洲科技股市场同样哀鸿遍野，各类科技股惨遭抛售。

引发全球资本市场“强烈地震”的幕后主角——DeepSeek，不是任何发力大模型的大厂，或者创业明星，而是一家此前名声不显的小型科技初创公司。它由幻方量化创始人梁文锋一手创办，成立仅一年多。

最能唤醒读者记忆的，可能是去年8月，DeepSeek率先宣布其API价格大幅下调，输入费用调整为0.1元/百万tokens，输出费用为2元/百万tokens，随后各家大厂纷纷跟进。大模型价格战也就此打响。

实际上，DeepSeek的创始人梁文锋或许是最早把目光投向AI的那批人。不仅仅是他创立了量化基金，更有意思的例证是，在算力紧缺的2023年，国内只有五家公司拥有万块规模的显卡，前四位是阿里巴巴、腾讯、百度和字节跳动，剩下的那个就是幻方量化。

开源、创新、成本。在硅谷，DeepSeek被称作“来自东方的神秘力量”。他们一面跟随，推出类似的推理模型，一面攻击，要求对其进行封杀甚至算力封锁。

1月28日，DeepSeek曾连续发布两条公告称，DeepSeek线上服务受到大规模恶意攻击。

客观来讲，从产品实际表现来看，DeepSeek目前只是跻身行业第一梯队，尚未实现对市面上现有产品的全面超越，也并非在技术底层实现了范式创新。

但DeepSeek确实为全球AI行业的长期发展探索出了新的模式，也让长期被硅谷霸占话语权的AI行业出现了一些不一样的声音。正如AI领域泰斗吴恩达所言：“DeepSeek的创新表明，中美在生成式AI领域的差距正在迅速缩小，在某些领域中国已现领先迹象。”

01 DeepSeek，破了谁的金身？

去年12月，36氪旗下的暗涌账号采访了DeepSeek。采访中提到了去年8月由DeepSeek发起的价格战，原因指向了一个事实——与很多大厂烧钱补贴不同，DeepSeek是有利润的。

早在去年5月，DeepSeek发布的DeepSeekV2模型，就展现了他们非凡的效率：推理成本被降到每百万token仅1块钱，约等于Llama370B的七分之一，GPT-4Turbo的七十分之一。

并且相较于OpenAI公司来自全球顶尖学府几千人的大公司人力成本，DeepSeek公司只有寥寥几百人，也没有全球前50的人才密度，聚集的是国内一众大学相关学科的博硕精英人才。

更加难能可贵的是，DeepSeek-V3在训练时使用的GPU是英伟达的H800，一款在性能上被阉割的特供AI芯片。相比之下，GPT-4o使用的是上万块英伟达H100芯片（性能优于H800）。

这和我们过去的认知是不同的。

英伟达及美股大跌的原因直指DeepSeek，原因在于DeepSeek的成功打破了AI大模型领域“拼投入”的惯常逻辑。AI大模型只有砸钱、砸算力才能做出来的观念在行业中深入人心。

2023年，OpenAI的CEO奥特曼（SamAltman）曾经访问印度，他对印度团队能否凭借仅 1000 万美元的预算，在AI领域构建出具有实质性成果的模型表示怀疑。

在他看来，如果没有上亿美元的训练成本，是炼不出好的大模型的。毕竟作为AI行业的领军企业OpenAI至今都尚未实现盈利，很大一部分原因在于尖端AI模型的训练耗资惊人，运行成本也十分高昂。据测算，仅维持ChatGPT的运营，每天成本就高达70万美元。奥特曼则表示，未来的AI模型成本预计将超过10亿美元。

高昂的成本也让后来者纷纷以OpenAI为标杆加大投入。马斯克旗下的xAI，其超级计算数据中心装配了10万颗英伟达H100 GPU芯片，成为全球最强大的AI训练集群之一。特朗普上台后，宣布投资5000亿美元启动“星际之门”项目，试图凭借巨额资金与强大算力，巩固美国在AI领域的霸权地位。

其他科技巨头们也在积极布局。过去一年，微软和谷歌的资本支出均超过 500 亿美元，其中大部分资金用于AI相关的基础设施建设，并且计划在2025财年将这一投入提升至700 - 800亿美元。国内方面，根据浙商证券的分析，2024年字节跳动的资本开支约为800亿元，预计2025年将达到1600亿元，其中约900亿元将用于AI算力的采购，700亿元用于 IDC 基建以及网络设备。

DeepSeek并非是拥有什么降本魔法，而是摸索出了一条不一样的道路。DeepSeek的研究员提出了一种新的MLA（一种新的多头潜在注意力机制）架构，与 DeepSeek MoESparse (混合专家结构)结合，这种架构的优势是显存占用仅为常用MHA架构的5%-13%。

与此同时，和行业惯常的用数万亿token（文本单位）训练模型不同，而是选择通过“数据蒸馏”，降低了数据计算程度，从而实现降本。

正因为如此，DeepSeek也有了“AI届的拼多多”之称，尽管这种表述可能并不完全准确，但也基本表达了DeepSeek对当前主流AI的冲击。通过这一低成本模式使得DeepSeek能够更快速地推出新产品和服务，并极大地降低了其市场进入门槛，可以吸引了更多企业和机构参与到AI研发中来。

02 开源会是更好的选择？

当然，DeepSeek对AI的冲击还不止于此。

作为一家中国公司，DeepSeek表现出了前所未有的自信，对产品实施开源策略，也就是公开模型的代码和架构等等，允许公众查看、使用和修改。这就意味着，很多中小企业可以直接使用其模型，极大降低了很多企业的研发成本。

相比之下，OpenAI和谷歌等旗下的AI产品都是闭源，DeepSeek的开源和低价策略，对于国际上那些依靠高收费的主流AI工具，也将带来巨大冲击。

DeepSeek并不是个例，在开源浪潮席卷全球的时代，Meta的LLaMA、阿里的通义千问，都在试图证明“开放才能赢未来”。甚至就连马斯克也是开源技术的支持者，此前曾批评OpenAI走向闭源，称其为“CloseAI”，并指责其违背了最初的开源初衷而奥特曼则是埋头向前，继续闭源。这个争议还不仅是打口水仗，还曾对薄公庭。

但尽管如此，依然也有不少业内人士对此嗤之以鼻。

去年，有行业人士表示：闭源大模型，才是AI商业化的最优解。

究其原因，开源模型仍有致命伤：“所谓模型开源，往往只提供了模型的大量参数。但想要有效应用这些模型，还需要进行很多后续工作。”即便公布参数，开发者仍难窥见参数的生成过程和数据源等核心“配方”。这种半透明状态，导致二次开发如同盲人摸象。

“由于不了解这些参数的生成过程和数据源，难以直接实现‘众人拾柴火焰高’的协同效应。即使获取了模型源代码，也可能不清楚训练这些参数所使用的具体数量和比例。因此，拿到这些开源资料，并不足以让人直接站在巨人的肩膀上轻松进行迭代与开发。

这也是为什么OpenAI能够通过闭源在一定时间内保持了技术的领先性和独特性，构建了自己的商业生态的原因之一。

另外，在医疗、金融等高敏感领域，闭源优势还可以在保护技术和商业利益方面有其独特作用，能保障知识产权安全，防止技术滥用。

但不可否认的是，DeepSeek的确迎来了填补生态位的绝佳机会。

在和暗涌的采访里，梁文锋就表示，长远来说，我们希望形成一种生态，就是业界直接使用我们的技术和产出，我们只负责基础模型和前沿的创新，然后其它公司在DeepSeek的基础上构建toB、toC的业务。

用户无需付费即可享受强大AI推理能力，推动AI技术普及，让普通用户在日常工作生活中体验前沿科技的便利。在开源生态上，它已吸引大量开发者，形成了蓬勃发展的社区。随着越来越多的开发者和企业认可开源模式，DeepSeek有望进一步扩大其影响力，重塑AI产业格局。

03 一场DeepSeek风暴，揭开中美AI叙事重心的摇摆

实际上，在全球瞩目的目光聚焦于DeepSeek出圈的背后，从技术领域、产业范畴到资本市场，DeepSeek都以非凡之势打破了人们对AI发展的固有认知，掀起了一场前所未有的技术变革浪潮，在某种程度上预示着算力军备竞赛的终结。

长期以来，AI行业形成了一种依赖大规模算力与巨额资金投入的研发模式。以OpenAI等公司为例，它们在模型训练上动辄投入数亿美元，大规模采购英伟达最顶尖的GPU芯片，致力于构建庞大的数据中心。英伟达凭借早期卖显卡的业务基础，顺势踏上AI算力的发展大潮，缔造了算力芯片领域的商业神话。一时间，谷歌、OpenAI、苹果等各路科技巨头纷纷排队向英伟达输送资金，使其在AI算力市场占据了主导地位。

然而，DeepSeek却以颠覆性的创新打破了这一格局。它仅使用2000块芯片，投入不到600万美元，就实现了与行业巨头相媲美的性能。这一成果引发了行业的深刻反思：“如果DeepSeek的创新是真实有效的，那AI公司真的还需要如此大量的显卡吗？”当英伟达还在为每秒200TB的显存带宽而自鸣得意时，DeepSeek用一行开源代码有力地证明了：真正的人工智能不应被算力所束缚。

根据全球半导体观察的不完全统计，目前已有包括英伟达、AMD、微软、亚马逊云科技、英特尔等国外巨头，沐曦、天数智芯、摩尔线程、海光信息等国内GPU企业，华为云、腾讯云、天翼云、阿里云、百度智能云、火山引擎等云计算大厂，以及无问芯穹、壁仞科技、硅基流动、PPIO派欧云、云轴科技等共计20家企业宣布适配及上架DeepSeek模型服务。随着多家国内外知名云平台和科技企业相继上线DeepSeek大模型，AI市场迎来了新一轮的变革浪潮。

从另一方面看，英伟达股价的大幅下跌恰恰而言折射出的是在经受DeepSeek风暴冲击下其AI芯片霸权的逐渐被终结。正如塔勒布现任对冲基金Universa Investments的顾问的警告，当英伟达把一切都建立在人们会使用你的芯片的希望之上，希望需求持续增加，同时假设不会出现软件上的革命性改进或其他创新方法。而现在，这些假设受到挑战，未来或将出现数倍于当前跌幅的回调。

值得关注的是，DeepSeek带来的这种技术路径的转变，不仅是对美国科技霸权的有力回击，也让全球开发者重新认识到中国AI的巨大潜力。在美国不断通过各种限令限制中国AI和芯片发展的背景下，这场由中国团队发起的“效率革命”，或许将重现电动车颠覆燃油车的精彩历程——以更低的成本、更开放的生态，让AI从“美国巨头的专属玩具”转变为“全民普惠的实用工具”。

正如DeepSeek技术白皮书扉页所写：“我们并非在追赶GPT，而是在证明：通向AGI的道路，绝不止硅谷这一种走法。”从产业发展的角度来看，随着DeepSeek不断发展壮大，未来将逐步采用更多国产芯片，有效降低产业链风险。在DeepSeek的引领下，国产芯片有望逐步从中低端迈向高端，最终摆脱对美国芯片的依赖，在全球AI产业中占据更为重要的地位。

本文系作者：伯虎财经授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

DeepSeek