APP推广合作
联系“鸟哥笔记小乔”
真的有人能在推理环节替代英伟达吗?
2024-07-01 14:30:38

来源:互联网怪盗团

在中文互联网上,英伟达每天都在被颠覆。绝大部分自媒体和短视频达人都讨厌英伟达,包括周鸿祎在内。他们千方百计地指出,某种替代品(不管是不是国产)的性能指标已经超过英伟达A100或H100,后者即将沦为资本市场历史上最大的泡沫云云。尤其是在B站、小红书这样的平台,“英伟达将迅速被替代”可以被视为一致观点,反对这个观点的人将遭到群嘲。

其实,海外互联网同样如此。昨天还有AI行业的朋友给我分享了一份自称“性能大幅超过英伟达”的美国芯片厂商的自我介绍(是当笑话看的)。几个月前,芯片创业公司Groq发布了自称性能大幅超越英伟达的推理芯片,引发了一定的市场关注度。不同之处在于,海外网友稍微讲一点常识,知道英伟达在训练领域的壁垒实在太高、牢不可破,所以他们主要从推理环节入手:可以针对大模型推理开发某种高度特化的“推理专用卡”,在性能或性价比上超越英伟达,而且已经有人做到了。这些观点经常被翻译为中文,不过翻译者经常有意地把其中的海外芯片创业公司的名字偷换成A股上市公司(或某家非上市公司),从而达到不可告人的目的。

遗憾的是,至少在现在,以及可见的未来,英伟达在推理方面的壁垒仍然十分牢固。或许它在推理方面的壁垒不如训练方面那么高,但只要竞争对手攻不破,就没什么区别。对于绝大部分大模型开发商以及云计算厂商而言,AI算力建设只能以英伟达为核心(买不到的情况除外),不论是训练还是推理算力。在展开分析这个问题前,让我们先简明回顾一下训练和推理的区别:

  • 训练,就是指创造和升级AI模型(包括但不限于大语言模型)的过程。训练环节涉及海量的数据,耗时极长,对算力的并发性需求极高,往往要一次动用几千张到上万张规模的显卡集群。专门为训练做过优化的显卡俗称“大卡”,其最典型的例子是英伟达A100、H100和B100。

  • 推理,就是利用现有大模型解决用户需求的过程。我们每向ChatGPT提一次问题,就启动了一次推理流程。单次推理处理的数据规模往往较小,因此对算力硬件的要求不如训练那么高。英伟达专门为推理做过优化的显卡俗称“中卡”,例如A20、L40;一些高端消费级显卡(俗称“小卡”),例如RTX3和4系列,也可以用于推理。

英伟达的竞争对手,从AMD到英特尔,从Groq到华为,每天都在异口同声地陈述同一个观点:推理的门槛没有硬件那么高,英伟达赖以生存的CUDA软件生态以及显卡互联技术在推理端的作用有限,所以在推理端替代英伟达完全可行。事实又是如何?关键要看企业客户,包括OpenAI这样的大模型开发商以及亚马逊、微软这样的云计算平台商怎么看——毕竟是它们的技术团队和采购人员做出了显卡采购的决定,而不是社交媒体网友。如果我们仔细分析一下主要科技企业今年以来的显卡采购决策,就会惊讶地发现,事实与英伟达的竞争对手所鼓吹的完全相反:

AMD和英特尔的“AI加速卡”(其实就是推理卡)卖得都不怎么样。其中,AMD的旗舰产品Instinct MI300的单季度销售额不足10亿美元,2024年全年的目标也仅仅是卖出40亿美元;英特尔的旗舰产品Gaudi 3就更惨了,2024年全年的销售目标不足10亿美元。把这两家的AI硬件销售额加起来,恐怕都只有英伟达“中卡”销量的一个零头。在2024年一季度财报发布会上,苏妈承认AMD的推理卡目前不存在供给瓶颈,客户可以随时提货;隔壁的英伟达几乎所有产品线则都处于紧缺状态。换句话说,大部分客户宁可等上一两个季度,也宁可买英伟达而不是AMD的产品。

与此同时,在硅谷出现了一个新的趋势:尽可能多地采购“大卡”,把推理和训练一起交给“大卡”去做。例如,OpenAI将使用较新的H200承担GPT-4o的推理任务;苹果通过鸿海采购了数万张H100,估计主要将用于推理工作;Meta计划在2024年之内新增35万张H100,其中很大一部分将用于推理;亚马逊采购的首批3万多张GB200“超级芯片”显然将同时用于训练和推理。这充分说明,所谓“英伟达在推理方面的护城河不深”的说法是何等荒谬!如果上述说法是真的,那么除非大厂钱多烧得慌,否则完全没有必要采购单价极高、供应非常紧张的英伟达“大卡”承担推理任务。当然,这些大厂也会采购一点点AMD或英特尔的产品作为补充,每次都会引发后两者的欢呼雀跃,恨不得让全世界都知道。

为什么硅谷大厂要花更多的钱去采购专为训练优化的“大卡”承担推理任务?这既是出于技术考虑,也是出于综合成本考虑。简而言之:

  1. “大卡”的显存更大、显存带宽更高,适合运行参数规模巨大的大模型。目前主流大模型的参数规模均已突破万亿,而消费者使用的一般是“蒸馏”过的、几十亿到几百亿参数的精简版模型。“中卡”“小卡”足以运行这些精简版模型,但大型企业客户可能需要运行万亿规模参数的超级模型,那就非用“大卡”不可了。

  2. “大卡”的爆发性输出能力更高、延迟较低,适合执行高度时效性的推理任务,例如自动驾驶、国防军工、金融交易等场景。最近流行的“超长文本推理”,对显存的要求较高,“大卡”处理起来也更得心应手。

  3. 在AI算力中心当中统一使用“大卡”,有助于降低硬件复杂度,实现较高的算力弹性和通用性。像OpenAI这样的公司,一年之中有几个月处于训练期,在此期间可以把自家“大卡”全部用于训练以保证速度,租用外部算力满足推理需求;训练间歇期则可以少租外部算力,让自家“大卡”转而从事推理。

  4. “大卡”,尤其是B100/B200这种新款产品,最先应用了英伟达的最新技术,从而有利于后续升级和再利用。哪怕几年之后技术突飞猛进,旧款“大卡”退下来还可以做别的工作,而旧款“中卡”“小卡”可能就没有价值了。

上述四条原因,前两条是技术上的,后两条则是成本和管理上的。就像我的一位从事AI技术工作多年的朋友所说:“其实是经济性让大家投票选择了英伟达,这就是市场的力量。”由于上面是在英伟达自家的不同产品线之间做类比,我甚至都没有提到CUDA软件生态——过去十八年,全球上百万开发者为CUDA积累了太多的开发工具和代码,AMD的ROCm根本无法与之匹敌,英特尔就更是不值一提了。

现在假设有一种推理卡,不知道为什么竟能实现远高于英伟达的性能(可能是上帝显灵),而且竟能克服缺乏CUDA生态的麻烦(这次上帝得多受累一点),并且纸面价格显著低于英伟达(这一点极难做到),它也不一定能打败英伟达。客户首先要考虑通用性:专门为大语言模型推理“特化”的芯片,大概率无法拿来执行任何其他任务,从而带来了更高的机会成本。英伟达是“通用计算GPU”概念的提出者,“通用”概念就意味着灵活性和弹性。远的不说,最近几年我们就能看到许多鲜活的案例:

2021-2022年,为了进一步训练内容推荐算法,以符合欧盟消费者隐私要求,以及支持新推出的Reels短视频功能,Meta(原名Facebook)采购了大量英伟达“大卡”;当然其中一部分也是为“元宇宙”研发准备的。Meta还成为了2022年发布的H100显卡早期最重要的客户之一。ChatGPT横空出世之后,Meta立即将手头的算力资源投入生成式AI研发,迅速成为全球开源大模型领域的第一平台。扎克伯格本人亦承认,生成式AI浪潮来的时机很巧,Meta非常幸运——其实他更应该感谢英伟达显卡的通用性和普适性。

2019年前后,中国的“云游戏”产业处于井喷阶段,资本市场对其有很高预期。包括阿里、腾讯和电信运营商在内的云计算大厂纷纷采购了大批英伟达RTX显卡(初期主要是Turing架构,后来亦有Ampere架构)组建刀片服务器。虽然云游戏在国内没火起来,但是高端RTX显卡具备张量核心(Tensor Core),从而拥有一定的推理能力。在美国芯片法案的阴影之下,国内厂商采购推理卡越来越困难,当年积累的“云游戏卡”扮演了雪中送炭的角色;尽管它们的推理效率肯定比不上L40等“中卡”,但有总比没有好。

(附带说一句,为什么英伟达的消费级显卡也装备了Tensor Core? 因为它对于光线追踪技术的实现扮演着不可或缺的角色,而光线追踪能够大幅提升游戏画面的感染力。显卡处理游戏内部光影效果的方式,与处理大模型数据的方式,在硬件和数学层面是互通的。人类如果没有强大的游戏产业,就很难建设强大的人工智能产业。)

我们不知道生成式AI产业的下一步走向是什么:Transformer架构(现在所有大语言模型的基础)诞生至今才七年多,第一个百亿参数的大模型诞生至今才不到五年。就像许多学者指出的一样,生成式AI有可能并不是实现通用人工智能(AGI)的必由之路。但是无论如何,有一点是确定的:未来的世界需要大量算力,尤其是并行的、以多核GPU为基础的算力。当生成式AI浪潮突然降临之时,许多科技大厂都把自家的英伟达显卡从自动驾驶、推荐算法训练、图形渲染等任务迅速转移到了大模型相关任务;这进一步加深了它们对英伟达的信任和依赖。

此时此刻,全球科技巨头用于扩张算力的资本开支,普遍达到了每年几百亿美元的水平;坊间甚至传闻微软打算在一年之内耗资1000亿美元建设新的数据中心。花了这么多的钱,它们肯定不希望自己买到的算力仅能用于非常狭窄的领域,不管其纸面性能好坏、价格高低。所以那些高度特化的推理卡,注定只能在巨头的算力军备竞赛当中扮演次要角色;AMD能扮演的角色可以更重要一点,但离英伟达这个主角还是差得很远。

就在本文撰写的过程中,我的另一位从事AI行业多年的朋友告诉我:“我们最近开始采购另一家公司的显示芯片了。它的硬件规格是合格的,但是软件适配是大问题,需要踩很多的坑。英伟达的CUDA开发团队应该比硬件设计团队的规模要大得多,它的发布会上几乎全是软件生态工具,例如GPU虚拟化、一键部署。缺少了英伟达的软件生态,我们就要自己雇人去实现这些能力。生态就是成本!没有生态就要产生额外的开发成本。”当然,鉴于国内现在越来越难买到英伟达的数据中心级显卡,厂商只能硬着头皮承担成本;在有选择的情况下,它们几乎不会有动力这样做。

至于五年、十年乃至二十年后呢?那就是另一个问题了。通用计算GPU这个概念诞生至今也只有十八年,NVLink技术也只有十年历史。在长期,一切都是可以改变的,但是一切改变只能来自勤奋耕耘和咬定青山不放松的精神。请记住,2013年,当黄仁勋操着半生不熟的普通话在北京国家会议中心的舞台上说“请给我一个机会介绍英伟达”的时候,他已经到处推销自己的通用计算理念长达七年了;而他还要再等待整整九年,才能看到一切开花结果。当时嘲笑他的人,和现在认为可以轻易替代他的人,很可能是同一批人。

互联网怪盗团
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
互联网怪盗团
互联网怪盗团
发表文章122
互联网怪盗团
团长,毕业于北京大学,自媒体“互联网怪盗团”主理人,曾在光大
确认要消耗 羽毛购买
真的有人能在推理环节替代英伟达吗?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接