从狂热到理性:大模型训练三堵墙 一场少数人的游戏

2023-06-29 21:00:59 来源:网络

作者 | 张帅

“只要有GPU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,就是感觉大家都在抢机器,先抢过来固定住时间,然后再去看怎么用,那会大家还没有想明白怎么用。”

到了4月,有些客户已经尝试过或者见过大模型训练,逐渐开始想明白,大概知道想要什么样的配置。要一堆GPU卡,实际上是一个认知误区,大模型训练的实现依靠的是一个算力集群,包含整套的服务。

但不是所有企业都能驾驭大规模算力集群,这注定是一场少数人的游戏。事实上,微软和OpenAI的合作也已经证明,用云来训练大模型,似乎是更合理的选择。

作为中间层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研发和算法工程师、个人开发者等,此外背靠集团的云厂商,还具备资金、人才、数据等优势,也就最先开始声势浩大的进军大模型。

AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色,仿佛齿轮般咬合在一起,构成数字经济的产业发动机,如今,大模型让每个齿轮都极速传动起来。

训练基础模型,是一切大模型产业生态的起点,也只有闯过算力关,才能拿到大模型竞赛的入场券。

大模型训练的三堵墙

技术的发展有其延续性,正如微软Azure为OpenAI打造的“超级计算机”,经历了数年的演进才有成果,现阶段大模型训练比拼的,其实是过去几年厂商的战略预判与技术积累,能上牌桌的大多是老玩家。

“大模型存在明显的炒作过热倾向,行业应该更加理性,而不是套着大模型概念做资本或者业务的炒作。我自己的观点是,真的不要去考虑端到端地去做一个大模型,对于非要做的企业,我只能说有机会,但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。

在学术界看来,OpenAI并没有做出革命性的创新,本质是围绕AGI产品进行的“工程创新”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研究、工程、产品、组织各个环节,算力训练集群也是如此。

“工程化做得好也很难,它证明了往上堆算力,堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。

这一看似简单的逻辑背后,对企业而言却是极大的考验——看不见可能的出路,担心巨大的投入没有产出,这是最大的风险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随,而不是对一条没被验证过的路投资。

算力集群的工程化,至少要突破三堵墙。

首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练,而单卡只有312TFLOPS算力时,一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。

其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了,往往需要上百张卡才可以支持。

所以厂商一般会引入流水线并行,将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数,降低显存的压力。

随之而来的是“通信”墙。大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信,节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信,这时候就会对总线和总带宽都有很高的要求,要达到几百G的吞吐。

另外除了这三堵墙以外,还有一些其他问题:如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着transformer结构的引入,平均每两年,模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求

大模型训练需要的不单单是算力,对存储,对安全,对训练框架都有一定的要求,需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受,就是能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张。”陈希说。

为什么“他们”能成?

现在仍有不少企业毫无准备或者自我感觉有所准备,就冲进基础模型领域。

然而,如果细细研究现阶段做出基础模型的厂商,无一例外在AI领域都有足够积累,特别是底层基础设施层面,他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。

“为了打造AI超级计算机,微软早在2018年就开始布局,除了OpenAI还投资了几个小公司,大数据是AI的前序,云计算基础设施是算力平台,大模型是算力、算法和数据的集合,微软的成功在于全栈能力。”韩凯表示。

回到国内,百度也遵循类似的逻辑。百度副总裁谢广军提到,算力和存储一定要达到更高的密度,才能够支持大模型。显著的问题还有网络互联,大模型训练用的比较多的显卡是带有NVLink高速互连的A800,需要比传统云计算做到更低延时、更高带宽,大量的小文件,也需要低延时、高存储的基础设施。

“大模型跑起来之后,还有非常多的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。

从平台的视角来说,不管是训练任务还是推理任务,单个的任务就需要非常长的时间,需要占用很多资源。怎么能够保证资源的充分利用,以及降低它的训练和推理时间。这里面需要切任务、调度、并行,对于模型训练的加速比和并行度的支撑。

同时,一个平台上往往有有很多任务,如何灵活调度,进而能够让这些任务充分地使用资源,甚至能够感知到异构算力的拓扑,使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。

以文心一言的训练为例,千卡规模的A100或者A800数据并行加速比达到90%,其中用了非常多的调优手段和技术,百度智能云围绕着大模型一层一层做优化,在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层,共同组成了 AI IaaS,这些基础设施可以支持上万亿参数大模型的训练。

此外,预训练模型需要通过千卡以上的集群训练,而在大多数情况,精调或者微调更普遍,基于大模型训练行业模型,相当于在树干上长树枝,不需要超大规模的集群,小几十张卡足以满足企业所需训练资源。

达观数据将在7月份正式推出国产版GPT“曹植”系统,也是得益于多年文本智能技术积累和垂直领域场景业务经验,算法和数据层面有所储备,而在测试阶段的算力层面,达观数据CEO陈运文表示,自建算力数据中心较为吃力,达观寻求了多种算力平台的支持,包括运营商算力中心、鹏程实验室等。

达观数据也曾尝试某家头部云厂商的GPU算力,但经过测算成本太高,租一年半下来的成本,足够达观数据自家购置一个自己的算力平台,达观数据选择了英伟达DGX高性能工作站方案,相当于英伟达自身做了很多集群优化,解决了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达解决方案相比,综合性能相差一倍。

“我们自己的模型训练成本其实还是很高的,但是我们帮客户算过账,模型在推理阶段需要的算力投入并不大,很多客户只要单机多卡就够,硬件投入不算很大,但是给客户带来的效果和体验提升非常明显。”陈运文表示。

英伟达不只有GPU

小厂商用英伟达的商业技术补齐能力,大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能,进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。

来自市场的消息显示,A800的价格一度超过8万元人民币,A100更贵,甚至超过9万元。

“英伟达的策略是既要确保每家大客户都能拿到货,同时又不会完全满足其短时大量的需求,这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示,英伟达全球A100的产能并不缺,供货没有问题,对于禁售A100之后,特供中国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需矛盾。

一些厂商也在想其他办法,比如在香港建立算力集群,同时H800和A800复用了一部分产品线,未来H800的产能上来之后或许会压制A800,不排除英伟达会继续增加适用于中国市场的产线。

除了产量,高企的价格也源于英伟达芯片的工程化能力,这是其成为大模型训练核心的决定性原因。

业界内外对英伟达有两种极端认知:一种认为,英伟达难以战胜;另一种是诸多厂商在PPT上“吊打”英伟达。然而,即便在理念和先进性上领先,但这一切只停留在芯片设计环节,没有真正工业落地,也就无从对比。

现实情况是,在大模型算力领域,英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。

以英伟达最新发布的GH200GraceHopper超级芯片,以及拥有256个GH200超级芯片的DGXGH200超级计算机为例,产品性能上至少领先其他厂商一个身位。

涉及到算力集群,RDMA网络成为大模型时代的底层通信技术,业内主要使用的是Infiniband、RoCE,NVlink仅用于GPU之间通信,InfiniBand网络则为通用高性能网络,既可用于GPU之间通信,也可用于CPU之间通信。

Infiniband网络以往在超算领域应用较为广泛,随后扩展至人工智能计算,2019年,英伟达以69亿美元收购迈络思,补全了自己了网络短板,目前IB较为成熟,很多厂商都在尝试自研RoCE路线,在部分场景下较IB网络还有一定差距。

例如文心一言,早在2021年6月,百度智能云开始规划全新的高性能GPU集群的建设,联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计,集群中节点间的每张GPU卡都通过IB网络连接,并在2022年4月将集群建设完成,提供单集群EFLOPS级别的算力。

2023年3月,文心一言在这个高性能集群上诞生,并不断迭代出新的能力。目前,这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到,高速IB网络互联的GPU集群是大模型时代的关键基础设施。

据了解,百度仅半年时间就采购了数万片英伟达A800,其他互联网厂商的采购量也在上万片,刨除一开始发生了挤兑现象导致供不应求外,目前英伟达产品的供货周期在三个月以内。

CUDA(ComputeUnifiedDeviceArchitecture)软件生态,也是备受开发人员好评的产品,它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算,提供了强大的计算能力和高效的数据传输方式,使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。

目前,英伟达是大模型热潮中最受益的厂商,没有之一,即便是微软为OpenAI搭建的超级计算机,也依赖于英伟达的产品,绝大多数训练算力都来自于英伟达GPU,面对全球如雪花般飞来的订单,英伟达赚的盆满钵满。

其最新的2024财年第一季度财报显示,英伟达数据中心业务营收为42.8亿美元,创下历史纪录,与上年同期相比增长14%,与上一财季相比增长18%,股价也创下历史新高。财报具有滞后性,大模型带来的业绩增收还没有完全体现在财报上。

国产算力的机会

在自主创新的大背景下,大模型算力也在加速拥抱国产化,大家的态度是远期普遍看好,短期仍有挑战。大模型时代到来之后,很多国产芯片虽然有所准备,但是在最高端的芯片上存在一定的差距。

燧原COO张亚林表示,当前所有人在做大模型训练的时候,时间至关重要,现在大家需要成熟的产品,不会倾向于选用国产化芯片,避免遇到一些稳定性或者成熟度的问题。

但推理层面是国产芯片的机会,张亚林表示,推理模型本身支持的方向比较单一,只要在推理模型上做到极致的调优,把性价比拿出来,很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来,先做推理和微调,然后慢慢通过研究所、高校、国家级实验室的研究,牵引到集群化的能力,从推理到训练的曲线会更加合理。”他说。

谢广军提到,AI芯片的发展比摩尔定律更加激进,也会有更大的下降空间。算力短缺一方面算力跟不上需求,另一方面,还是由于整个供应形势所带来的问题。

“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲,今年年底昆仑第三代,更加适合大模型,不管是训练还是推理,包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的,国产算力更具备竞争力,会使得整个算力成本进一步下降,而且是加速下降。”谢广军说。

钛媒体App了解到,今年国产芯片的发展呈现错位状态,国产芯片还没有对标到英伟达最高端的产品,比如A100。有几家国产芯片厂商已经预备在今年晚些时候,推出类似的对标产品。不论是训练还是推理,国产芯片的发展或多或少有一些滞后。

与之对应地,英伟达芯片供应相对紧张,国产算力在明年之后,会有比较大的机会,现在算力市场还在急剧增长,国产芯片的匹配度不够,主要还是英伟达在增长,如果需求匹配上之后,国内芯片会有很大的机会。

张亚林表示,如果燧原要真的“杀”到互联网客户场景,一定是在他们需要的场景和业务下,具备1.5倍的英伟达产品性能,和两倍的性价比。

“互联网客户普遍追求极致性价比,但是在集群方面要看TCO(总体拥有成本),集群的软硬件整体价格、运维服务部署等,比如我1000卡的集群,跟英伟达的600卡集群对比,可能性能差不多,但是我性价比更高,同时我提供更好的定制化的服务支持,在市场上也是很有竞争力的。”他说。

6月,关于大模型算力的讨论渐歇,基础模型厂商初窥门径,要么身体力行地去训练大模型,要么买到更有性价比的算力,但总体来说,以算力为中心的大模型基础设施,成本依然处于较高的水平。

IT产业总是遵循否定之否定的钟摆定理,在大模型的产业热潮中,接下来算力的各个环节如何进化,也更值得期待。(文中张阳为化名)

,从狂热到理性笑着流泪 :大模型训练三堵墙 一场少数人的游戏

相关:

AI七十年 从一篇论文到一个世界“未来是AI(人工智能)、美国和印度。”6月23日,美国总统拜登向来访的印度总理莫迪赠送了一件特别的T恤,上面就写着这句话。AI现在已经成为全球热门话题,特别是在ChatGPT横空出世之后。它引发的不只是兴奋,还有深深的担忧。一方面,各国政府以及众多企业正在积极投资AI领域,希望能在这场科技革命中占据一席之地;另一方面,很多企业家和学者对AI的迅速发展发出警告,认为它可能导致人类灭亡。那么,什么是AI、它是怎么发展..

汽车突然变道将摩托车骑手撞下高架桥,警方通报早前报道:汽车突然变道撞摩托车,骑手瞬间飞出摔下高架桥,头部周围有血迹6月28曰晚,网传重庆发生一起交通事故,相关视频显示一辆黑色吉普车突然变道撞击到对向行驶的一辆摩托车,将摩托车司机撞下桥,此后摩托车司机倒在路上一动不动,头盔掉落,且头部周围有血迹。红星新闻记者多方核实了解到,此事发生于6月28日下午,地点为渝北区电子校立交桥。重庆市急救中心一名工作人员表示,该摩托车司机正在该院重症监护室进行治疗,..

网上杠精多的原因找到了不久前泰坦尼克号观光艇失踪了。外媒报道载了5名富豪的泰坦号,消失在4000米深的海域中。抖音网友表示不信:“4000米想当于40公里,开车每小时40公里都要开10个小时,何况是下海。”这里有两个常识性错误:4000米等于4公里,不是40公里;以40码开车10小时后,距离是400公里,不是40公里。然而犯同样错误的网友实在不少。看多了,其实你会发现他们是来带节奏的。他们闲着没事做,每天在网上故意装蠢,诱导人来吵架和回复。另一边..

三五元的平价雪糕大量上市,“雪糕刺客”卖不动了?今夏平价雪糕畅销,酒味产品大量涌现,无论是线上平台或线下渠道,热销的雪糕产品大多在3-5元区间。本文自南都·湾财社。采写 | 南都·湾财社见习记者 王静娟在炎热的酷暑中,雪糕产品迎来销售旺季。不过相比去年频频掀起话题讨论的情况,今年的雪糕市场似乎有些平静。在刚刚过去的“618大促”中,无论是各大电商平台还是雪糕品牌,均未提及相关销售数据;此外,去年讨论最热烈的“雪糕刺客”,今年也鲜少被提及和关注。南都..

安徽、浙江,为什么越“赌”越大打造生态保护补偿样板区最近,安徽和浙江,打了一场更大的“赌”。近日,浙江省政府、安徽省政府在合肥签署《共同建设新安江—千岛湖生态保护补偿样板区协议》(以下简称《协议》)。上述《协议》显示,从2023年开始,双方每年出资额度从过去的最多出资“2亿元”提升到“4亿元至6亿元”。此外,在断面水质补偿上,2023年补偿资金总盘增至10亿元。值得注意的是,这次升级的“对赌”特别提到了两省共同建立生态保护补偿“样板区”..

大学读什么专业才不会被AI替代?答案写在这260年里技术一直在重塑工作志愿填报,一直是件比高考还要烧脑的事。专业、院校、城市,这些都影响着考生未来几年甚至是一生的走向。而在如今这个文凭快速贬值的年代,学生们除了会和同龄人博弈,还要应对一个新对手——人工智能。比如今年 5 月,GPT-4 就被报道通过了公认难考的四大会计行业执业资格考试,平均得分 85.1。这给正在学习的人带来了不小的焦虑,有人在相关报道下评论:“费心费力考注会,就要被替代了吗?”这并非杞人..

当名字里查无此字,会有多少麻烦出现?“黄杭?”“黄杭 la”“黄杭_”“黄杭口”……这些都是黄杭 là(⿱足用)的“曾用名”,多次出现在她的高考准考证、银行卡、户口本上。“là(⿱足用)”,是潮汕方言里的一个音节,并没有对应的普通话发音,目前在输入法中无法直接用汉语拼音打出。在云南丽江,“nià”姓家族近 700 人被迫改姓“鸭”,就是由于办理二代居民身份证时,“nià”字无法在信息系统中被输入和显示。4 月 21 日,“#因姓氏太罕见全村集体改..

贾庆林校友亲切接待学校领导6月28日上午,中共中央政治局原常委、全国政协原主席、我校校友贾庆林在北京亲切接见了学校党委书记韩旭、党委副书记贺立军一行。韩旭代表全校师生员工及海内外广大校友向贾庆林校友表达了良好的祝愿,就学校各项事业的发展进行了汇报。韩旭说,学校紧密围绕京津冀协同发展重大国家战略需要、雄安新区建设和区域产业转型升级发展需求,顺利完成国家“双一流”首期建设任务,成功入选新一轮国家“双一流”建设序列,获评第二届“..

死刑!男子欠债杀妻欲藏尸冰柜案宣判6月29日,男子在上海杀害妻子欲藏尸冰柜案一审宣判。北青报记者从死者姐姐小丽(化名)处了解到,凶手高某一审被法院判处死刑。据本报此前报道,高某在去年3月将妻子小婷(化名)残忍杀害。高某杀人后,一边购买冰柜,一边冒充小婷的身份给家属、同事发消息,次日上午高某试图将小婷的尸体放进冰柜未果后,于当晚报警称妻子自杀。小丽表示,6月29日家里多名亲属都到法院旁听宣判,听到法院宣读高某的死刑判决后,一家人都很欣慰..

全民排外,周期性变脸!这个国家是反面教材撰文丨关不羽最近印度税务机构向小米开了张48亿元的天价罚单,让人大跌眼镜。小米在印度干了九年,总共也就赚了8亿。小米要是认罚,就得给印度政府打工五十年。小米这次的遭遇和去年被坑的vivo、OPPO如出一辙,都是查税、查封、天价罚单的组合拳。这是不是印度刻意针对中国手机制造商呢?非也。近两年被印度坑的中资企业至少有500家,华为、中兴、荣耀、富士康等知名品牌无一漏网。那么,这是印度刻意针对中资企业吗?答案也是,..