英伟达的反击:挟 H100 以令诸侯

2023-10-19 03:34:12 来源:网络

AI前进动力

还是阻力

作者:陈彬;编辑:李墨天

论骚操作,硅谷恐怕没有 CEO 能比得上黄仁勋。

去年,黄仁勋向微软、谷歌和亚马逊这些云计算厂商提出了一个计划:这些厂商都有很多搭载了英伟达 GPU 的服务器,由英伟达租用这些服务器,然后让英伟达的工程师对其进行 「优化」,再以英伟达的名义租给普通的 AI 企业,从中赚取差价。

说简单点,以前微软会直接把云服务卖给中小公司,现在由英伟达进来当中间商。当然按照英伟达官方的说法,此举是为了 「向云计算厂商展示在数据中心配置 GPU 的正确方法」[1]。

服务器还是那个服务器,但经过英伟达 「优化」 后,客户就从微软优化到英伟达了。但就是这样一个匪夷所思的提议,除了亚马逊之外,各大云计算厂商居然都同意了。

2023 年 3 月,英伟达正式上线云计算服务 DGX Cloud。事实证明,经过英伟达工程师的优化后,DGX Cloud 在训练大模型时表现得的确更好;在此基础上,英伟达还破例允许短期租赁。仅仅半年时间,英伟达就拿下了软件公司 ServiceNow 等大客户。

科技公司愿意配合英伟达骚操作的真实原因,可能还是因为英伟达手中握有大模型时代最稀缺的资源——H100。

当下,几乎所有的企业都没有足够的算力。连 OpenAI 创始人阿尔特曼,都曾在一次听证会上无奈地表示:「如果人们减少使用 ChatGPT,我们会非常高兴,因为我们的 GPU 非常短缺 [2]。」

买了多少 H100,甚至可以成为决定 AI 成就的关键因素。这也让英伟达有了 「挟 H100 以令诸侯」 的底气。

计算机的 「稀土」

通常来说,科技企业会通过购买云计算厂商的服务,来满足算力需求。从 2023 年 3 月开始,微软 Azure、亚马逊 AWS 等云计算厂商也先后上架了 HGX H100 的租赁服务,HGX H100 是由 4 个或 8 个 H100 组成的服务器。

然而,当下供需严重失衡,云计算厂商这点 H100 存货已经远远满足不了市场的胃口。2023 年 H1 的财报中,微软专门更新了一条风险因素:如果无法获得足够多的 AI 芯片,云计算业务可能会中断。

许多初创公司需要排队等待 3-12 个月,一旦友商抢在自己前面,那可能就是几十上百亿估值的损失。

HGX H100

无数 「H100 穷人」 们,只能被迫发挥主观能动性,看谁的路子更野。

面对《纽约时报》的采访,一位创业者将 H100 比作 「稀土」。早些时候,他跑去请求美国国家科学基金会投资自己,仅仅因为基金会底下一个项目刚好有少数空置的 H100。

在硅谷,AI 创业者打招呼的方式,都变成了 「我认识一个有 H100 的家伙」——不知道的还以为在买卖毒品 [4]。

GPU Utils 曾测算过 H100 抢购潮背后具体的需求数据:

对需要自己训练大模型、追求大力出奇迹的企业来说,没有个上万块 H100 都不好意思出门。由前 DeepMind 联合创始人苏莱曼创办的 Inflection AI,成立方才一年,已买了 2.2 万个 H100;至于 Meta 这样财大气粗的公司,很可能会购买 10 万个甚至更多。

对微软 Azure 等云计算厂商来说,每一家也都需要至少 3 万个 H100。而其余几家私有云,还将消耗总计约 10 万个 H100。

测算后发现,仅美国大型科技公司和少数几家明星初创公司,需求量已达到约 43 万个 [5]。如果再算上其他初创企业、研究机构、大学,乃至富裕国家的追逐、再加之黄牛、黑市等不可控因素,实际需求很可能远大于这个数字。然而据英国《金融时报》爆料,今年 H100 的出货量大约是 55 万个 [6]。

H100 之所以令人如饥似渴,其中一个核心原因在于其近乎垄断的市场地位。

面对大模型训练对极致效率的需求,H100 在大多数情况下都是最优解。

MPT-30B 是第一个使用 H100 训练的开源 LLM(大语言模型),实际训练只耗费了 11.6 天;相比之下,使用前一代的 A100 训练则需要 28.3 天 [7]。如若换成参数规模更庞大的 AI,例如 1800B 的 GPT-4,效率差异会更加明显。跑马圈地的时代,时间就是一切。

除此之外,H100 在模型推理上的效率也远高于 A100。尽管 H100 的首发价约为 3.3 万美元,如今二手市场价格更上涨至 4-5 万美元;但若将 H100 和 A100 的性能分别除以各自的价格,能发现 H100 的性价比实际也高于 A100。

MPT-30B 的具体训练、推理情况

黄仁勋说,「Buy more GPUs , the more money you save(买得多,省得多)」,似乎不无道理。

也正因为如此,即便美国限制了 H/A100 的对华出口,国内科技公司仍在抢购阉割版的 H/A800——尽管阉割版的芯片间数据传输速度只有前者一半,意味着需要在大模型训练上花费更多时间。

除需求量庞大之外,造成 H100 短缺的另一个原因是产能的严重不足。

H100 芯片需要使用 SK 海力士的 HBM 内存,以及台积电的 CoWoS 封装——两者都因过于昂贵,此前并没能大规模市场化,预备产能并不多。由于产能爬坡尚需时间,有分析师预测 H100 的短缺至少会持续至明年一季度,也有人认为要到明年年底才有可能有所缓解 [9]。

H100 内部结构

H100 的空前盛况,让黄仁勋在短短一年时间内体验了一回坐过山车的感觉。

去年二季度,消费市场萎靡不振加上挖矿企业扎堆倒闭,英伟达交出了一份不及格的财报,「GPU 滞销,帮帮我们」 的表情包一度遍地都是。一年之后,黄仁勋成功向资本市场展示了什么叫 「反向暴雷」,同比营收暴涨 854%,大幅超出了最乐观分析师的预测。

巅峰换来了漫天的吹捧,但黄仁勋心里清楚,英伟达的头上一直悬着一把剑。

不可避免的战争

今年 8 月,传奇工程师吉姆·凯勒对媒体评论道,「我不认为 GPU 是运行 AI 的全部,世界憎恶垄断 [11]。」

此番发言虽有给自家 AI 芯片打广告之嫌,却也是业界的共识。

事实上,那些购买了最多 H100 的大型科技公司,基本都不太 「安分」:微软、谷歌、Meta,或多或少都尝试过自研 AI 芯片。

这让英伟达面临着一个异常尴尬的处境:在 AI 芯片领域,自己与 「大客户」 之间,未来几乎必有一战。

大型科技公司们选择自研 AI 芯片,最初都源于一个非常质朴的需求——省钱,其中最典型的便是谷歌。

早在 2014 年,谷歌已启动了自研芯片计划。彼时,OpenAI 的首席科学家伊利亚还在谷歌工作,打造出了一套颇具颠覆性的 AI 模型。该模型脱胎于伊利亚的 「大力出奇迹」 理念,只需要灌入足够多且正确的数据,它便能更好地完成翻译、语音识别等工作。然而待到实际应用时,谷歌却犯了难:

如果将 AI 服务安装至 10 亿多台安卓手机中,哪怕每个人每天只使用 3 分钟,谷歌都需要 2 倍于当前数据中心的算力。当时谷歌已经建了 15 个数据中心,每个造价上亿美金,「超级加倍」 显然不切实际。

最终,谷歌自研出了性能更强、功耗更低的 TPU,大大提升了单个数据中心的算力供应,以一种更经济实惠的方式解决了算力难题。

引入了 TPU 的数据中心

TPU 的出现,令黄仁勋如坐针毡,开始了 「爆改 GPU」,很快在性能上实现了反超,其最新成果便是 H100。不过,H100 的售价实在过于昂贵。

如果按重量售卖 H100,那么其每盎司售价将达到黄金的一半;即便对地球上最赚钱的科技公司而言,这笔 「英伟达税」 也堪称天文数字。

然而,H100 的实际制造成本并不高。据金融咨询公司 Raymond James 测算,H100 的成本约为 3320 美金,仅占首发价的 1/10,黄仁勋含泪赚 10 倍 [12]。

自研芯片的经济收益毋庸置疑,但除此之外其实还有另一个好处:垂直整合打造差异化。

堆叠算力不是简单的往车里加汽油,需要考虑软件适配性、自身业务需求等一系列问题。例如 AI 所使用的深度学习框架有多个派别,谷歌是 TensorFlow,Meta 用的 PyTorch,而百度则有 PaddlePaddle,硬件需要根据不同框架做适配。

专门定制的 AI 芯片,可以更加紧贴自身 AI 业务的需求。所以 Meta 在今年又重启了自研芯片计划,针对 PyTorch 框架定制了全新的 MTIA 芯片。

对大公司来说,考量芯片的核心其实不是算力,而是 「单位美元提供的算力」,也就是成本。谷歌的 TPU 和特斯拉的 Dojo 都证明了,定制服务的成本是可以接受的。

眼下,「反抗的星火」 已经点燃。据外媒爆料,大型科技公司的云计算团队,已开始频繁劝说客户改用其自研芯片,而不是英伟达的 GPU。英伟达固然是目前为止绝对的赢家,但没人知道平衡什么时候会被打破。

不过,面对这场不可避免的战争,英伟达也留了后手。

挟 H100 以令诸侯

英伟达打出的第一张牌,叫 CoreWeave。

CoreWeave 成立于 2017 年,最初是一家以太坊挖矿公司,后来转型做起了云计算业务。据 CoreWeave 创始人透露,2022 年公司收入为 3000 万美金,仅有微软 Azure 的 1/1133,在硅谷几乎没什么存在感。

然而到了 2023 年,CoreWeave 突然一夜成名,接连签下 Inflection AI 和 Stability AI 两个大客户,年营收预计将达到 5 亿美金,一年翻 16 倍。除此之外,微软甚至决定在未来几年花费数十亿美金购买其服务;其中仅 2024 年的订单,已有 20 亿美金。

改变 CoreWeave 命运的贵人,正是英伟达。

今年 4 月,英伟达参与了对 CoreWeave 的投资;但比起美元,英伟达还给了它一项更稀有的资源——H100。CoreWeave 是全球第一家上线 HGX H100 租赁服务的云计算企业,比微软 Azure 还要早一个月。

CoreWeave 三位创始人

这番安排,其实是黄仁勋的有意为之。

H100 近乎垄断的市场地位加之严重短缺的现状,让英伟达手中多了一层权力:他可以自由决定优先供货的对象。

相比自己跟 Big Tech 们同床异梦的塑料友谊,CoreWeave 和英伟达是实打实的革命战友。因此,英伟达削减了对大型科技公司的 H100 供应,转而将这部分产能交给了 CoreWeave 等 「自家兄弟」——它们曾确保不会自研芯片。

从结果来看,这一战略不仅避免了囤积现象的出现,也确实抢到了大型科技公司的蛋糕:

例如前文提到的 Stability AI,在 2022 年底时一直将亚马逊 AWS 视作唯一云服务商;然而到了今年 3 月,困于算力不足的 Stability AI,悄悄叩开了 CoreWeave 的大门。

事实上,英伟达手中并非仅有 CoreWeave 一张牌。这位手握 H100 的投资人,还投资了同为云计算公司的 Lambda Labs,以及三家从事大模型、应用开发的明星初创企业。

前 DeepMind 联合创始人苏莱曼创办的 Inflection AI,也接受了英伟达的投资

在亩产十万大模型的当下,H100 是比美元还珍贵的硬通货,也为英伟达创造了一个宝贵的窗口期:尽可能让更多公司用上 H100,趁早建立起生态,「把朋友搞得多多的」。

那么这个窗口期能持续多久呢?

尾声

英伟达的一系列 「骚操作」 已经引来了美国反垄断机构的注意,同时,全球疯抢 H100 的现状,很可能不会长期持续下去。

正如前文所述,H100 产能受限是因为台积电和 SK 海力士的预备产能不足;随着新产线陆续落地,短缺状况会逐渐得到缓解。

除此之外,旺盛的需求也未必会延续下去。

事实上,越来越多的科技公司和研究机构都选择将大模型开源。随着市场上的优质开源模型越来越多,初创企业和研究机构可以不必再自己动手训练,转而直接下载开源模型,根据自身业务需求进行开发或者推理。

Meta 发布开源大模型 Llama 后,斯坦福、卡内基梅隆等多所高校的研究人员就曾联合起来,以此为基础打造了开源大模型 Vicuna,很快便突破了 200 万次下载。

Vicuna

在肉眼可见的未来,算力的主要使用场景很可能会从训练转向推理——届时,H100 便不再是独孤求败了。因为不同于追求极致效率的训练场景,AI 推理其实更看重性价比。

另一方面,以大模型为代表的生成式 AI 如今面临的问题在于:面对高昂的算力成本,除了英伟达,大家都还没赚到钱。

2006 年 CUDA 平台推出时,英伟达以超脱于行业的前瞻性推动了 AI 的飞速进步。而如今,英伟达气势如虹的业绩似乎也是一种拷问:它是不是已经从 AI 的推动者,变成了 AI 前进的阻力?

参考资料

[1] Nvidia Muscles Into Cloud Services, Rankling AWS,The Information

[2] OpenAI CEO Sam Altman testifies at Senate artificial intelligence hearing | full video,CBS News

[3] Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X, The GPU-Poors,Semi Analysis

[4] The Desperate Hunt for the A.I. Boom’s Most Indispensable Prize,The New York Times

[5] Nvidia H100 GPUs: Supply and Demand,GPU Utils

[6] Saudi Arabia and UAE race to buy Nvidia chips to power AI ambitions,Financial Times

[7] MPT-30B: Raising the bar for open-source foundation models

[8] China’s internet giants order $5bn of Nvidia chips to power AI ambitions,Financial Times

[9] AI Capacity Constraints – CoWoS and HBM Supply Chain,Semi Analysis

[10] Insight: Inside Meta’s scramble to catch up on AI,Reuters

[11] Jim keller 发声:世界憎恨垄断,GPU 不是全部,半导体行业观察

[12] Nvidia Makes Nearly 1,000% Profit on H100 GPUs: Report,Toms Hardware

[13] 深度学习革命,凯德·梅茨

[14] 英伟达帝国的一道裂缝,饭统戴老板

[15] CoreWeave came ‘out of nowhere.’ Now it’s poised to make billions off AI with its GPU cloud,Venture Beat

[16] Why Nvidia Aids Cloud Rivals of AWS, Google and Microsoft,The Information

[17] TPUv5e: The New Benchmark in Cost-Efficient Inference and Training for <200B Parameter Models,Semi Analysis

[18] Nvidia’s Hot Streak May Not Last Forever,The Information

,思创 英伟达的反击:挟 H100 以令诸侯

相关:

重构、颠覆,广告营销行业已步入“生成式AI时代”作者|吕玥“生成式AI”已狂奔了近一年时间,至今仍持续高热。国内上百个大模型从“抢首发”开始纷纷转向“落地”,从商业到生活各个行业都在讲述着AI将如何“掀起巨浪”的故事。广告营销行业亦是如此。从ChatGPT爆红后,业内就在构想传统的系统、产品以及策略如何被颠覆。目前,生成式AI也的确已经带来真实可见的创新突破,从创意内容生成、BOT到自动化投放等等,海内外都有不少产品落地。但相比行业的预测,新技术带来的变革似..

以媒:以军被要求在拜登访以期间暂停打击哈马斯据以色列公共广播公司10月18日报道,以色列国防军此前接到有关指示,强调在美国总统拜登访问以色列期间,以军不要向巴勒斯坦伊斯兰抵抗运动(哈马斯)发动进攻。一位消息人士向该媒体机构透露,以军仍将针对哈马斯火箭发射器及其武装人员继续进行打击。(总台记者 李享)

日本前首相:遗憾日本没能参与“一带一路”【环球时报-环球网报道 记者陈子帅】18日下午,第三届“一带一路”国际合作高峰论坛智库交流专题论坛在北京举行。日本前首相鸠山由纪夫在发言中表示,我们高度赞赏“一带一路”倡议过去十年间取得的显著成效,遗憾的是直到今天日本政府都没有参与“一带一路”,未来日中两国必须建立起行之有效的合作。鸠山由纪夫在发言中说,非常想借此次机会向中国朋友表示感谢,感谢中国在疫情期间对日本的援助和支持,“距离我上次2020年1月..

特朗普被“有限禁言”,怎么回事?丘特坎承诺,如果特朗普违反噤声令,联邦法院将“在必要时”考虑制裁。向前总统发布噤声令,美国政坛出现罕见一幕。据新华社报道,美国华盛顿联邦地区法院法官塔尼娅·丘特坎16日裁决,受联邦指控试图推翻2020年总统选举结果的共和党籍前总统唐纳德·特朗普不得口头攻击本案检察官、法院职员和潜在证人,可对司法部作批评性声明,也可谴责所受刑事指控存在政治动机。今年9月,特朗普试图推翻2020年总统选举结果一案的控方——美..

国防部正告加拿大:立即停止任何挑衅行为!记者:据报道,加拿大军方官员10月16日称,1架加武装部队侦察机在中国附近国际空域执行任务时,遭中方军机拦截,加防长称中方行为“不安全、不专业”。请问中方对此有何评论?吴谦:近日,加拿大空军1架CP-140型机多次侵入中国赤尾屿领空并抵近我华东沿海、进入台湾海峡侦察滋扰,中国空军依据中国法律和有关国际规则,对其实施查证识别、跟踪监视、警告驱离等管控措施,处置行动完全合理合法、专业规范。加方有关炒作罔顾事实,..

“‘反俄挺乌’的西方急着支持以色列,激怒全球南方”【文/观察者网 熊超然】关注国际局势的人近期会发现,此前热衷于前往乌克兰“打卡”的西方政客,近期又蜂拥至以色列,而在媒体报端,俄乌冲突的关注度也已经被巴以冲突“抢走”。英国《金融时报》10月19日发布了一篇报道文章指出,就在美国和欧盟寻求建立一种所谓的“反俄共识”之际,美西方目前支持以色列袭击加沙地带的态度却激怒了“全球南方”国家。有官员和外交人士警告称,西方对于以色列袭击加沙地带的支持,破坏了与重..

京津冀发布2项协同地方标准 涉未成年人保护等  中新网北京10月18日电 为贯彻《首都标准化发展纲要2035》,推动京津冀协同发展,京津冀三地发布2项协同地方标准,涉及未成年人健康成长和高速公路入口称重检测工程建设的布设。   今天,记者从北京市市场监督管理局了解到,发布的《救助保护和儿童福利机构未成年人心理评估规范》,将通过京津冀救助保护和儿童福利机构实施落地,对民政部门监护的未成年人开展心理健康、社会适应等方面测评,对于他们的心理问题进行鉴别..

第82届中国教育装备展示会:教育数字化装备成亮点  中新网天津10月18日电 (记者 王君妍)第82届中国教育装备展示会(以下简称“展示会”)将于2023年10月20日至22日在天津举办。中国教育装备行业协会秘书长李瀛18日向媒体介绍,从企业带来的参展产品看,教育数字化装备在教育领域正呈现出方兴未艾的势头,本届展示会上将有众多企业带来教育数字化装备和数字化技术应用于教育场景的创新产品和解决方案,如数字教材、数字图书、智慧教育管理平台、智慧校园综合管理平台等。 第..

在港“宁波帮”难舍故乡情 “捐楼建馆”频出手助共富  中新网宁波10月18日电(记者 林波)捐资200万元(人民币,下同),建设柴桥花农客厅,为家乡8000余户花农提供技术研讨、电商直播、助农问需等全产业链服务;捐资助建社区城市书房,让公共阅读融入乡亲们的生活,提升城市文化品质……近日,在港“宁波帮”频频出手,通过“捐楼建馆”等方式助力家乡共同富裕。   “宁波帮”和帮宁波人士是宁波得天独厚的发展优势。   宁波与香港血缘相亲、文缘相近、商缘相融,两地交往历..

北京前三季度PM2.5累计浓度32微克/立方米 为历史同期次优  中新网北京10月18日电 (记者 陈杭)记者18日从北京市生态环境局获悉,今年前三季度,北京细颗粒物(PM2.5)累计浓度为32微克/立方米,空气质量总体呈改善趋势,为历史同期次优。   专项治理挥发性有机物   北京市生态环境局表示,北京结合季节特点,坚决打好蓝天保卫战。专项治理挥发性有机物(VOCs),针对夏季臭氧污染,实施汽修园区走航溯源整治、建筑类涂料和胶粘剂VOCs源头管控、夏季错峰装卸油、打击黑加油等VOCs治..