自研AI服务器芯片,竞争升级

2024-04-30 03:34:29 来源:网络

有越来越多的互联网和IT设备大厂开始自研AI服务器芯片,最近,这一风潮吹到了苹果公司,据悉,该智能设备龙头正在开发用于AI服务器的定制芯片。

与微软和谷歌等竞争对手相比,苹果在推出生成式AI方面进展较慢,不过,苹果公司CEO库克称,AI已经在苹果产品的幕后发挥作用,此前有媒体报道,苹果计划使用AI来提高搜索存储在苹果设备上的数据的能力。

今年2月,库克在年度股东大会上表示,使用苹果AI技术的功能包括Vision Pro的手部跟踪工具和Apple Watch的心率警报。他还表示,MacBook中的芯片能够运行AI。

库克表示,今年晚些时候,将与大家分享如何在生成式AI领域开辟新天地。苹果公司通常在6月份的年度开发者大会上宣布新的软件产品和功能。

知名分析师郭明錤在2023年10月发布的一份报告显示,预计苹果在2023和2024年分别采购2000–3000台、1.8万–2万台AI服务器,分别占同期全球AI服务器出货量的1.3%和5%。估算苹果在2023和2024年需要分别支出约6.2亿和47.5亿美元,用于AI服务器采购。

基于苹果产品的功能需求,以及庞大的AI服务器资本支出,再结合该公司自研芯片的历史,相信其自研AI服务器芯片是早晚的事,特别是苹果放弃造车,将资金和资源重点投入到AI技术和产品研发上,自研AI服务器芯片就更加顺理成章了。

01

AI服务器芯片的重要性

据统计,2024年,全球服务器出货量约1365.4万台,其中,各家ODM的出货以AI服务器最为强劲。分析师指出,2024年,AI服务器出货年增长率和占比都将达到两位数,这主要得益于生成式AI市场的增长。

预计生成式AI市场规模将从2022年的400亿美元增长到2032年的1.3万亿美元,年复合增长率高达41.7%。由于全球生成式AI市场商机与增长潜力巨大,对训练AI系统的软硬件需求量很大,使得市场对AI 服务器及相关芯片的需求不断增长。

AI大模型迭代速度越来越快,厂商对智能算力的投入大幅增加,支持存储和训练的高端AI服务器的需求激增,2023和2024年,大模型训练所需数据量激增,AI大模型厂商需要的是能够支持存储和训练的高端AI服务器,因此,各服务器厂商都在升级芯片规格、扩大卡组数量。

与传统服务器相比,AI服务器在多个方面有所不同。硬件方面,AI服务器采用异构形式,内存容量更大,可满足不同场景需求;卡的数量方面,由于AI服务器需要大量计算,至少配置4个GPU卡,有的需要8个;系统结构方面,AI服务器在散热、拓扑等方面进行了专门设计,以实现稳定运行。

02

自研AI服务器芯片热潮

根据应用场景不同,AI服务器可分为深度学习训练型和智能应用推理型;根据计算模块结构不同,AI服务器可分为CPU+GPU、CPU+ASIC、CPU+FPGA等,其中,最常见的是CPU+多块GPU组合模式。

虽然AI服务器计算系统主要由CPU和GPU组成,但就目前而言,GPU占据了较大市场份额,CPU份额相对较小。在这种情况下,GPU厂商的行业地位就很凸出了。然而,虽然市场很大,但能够提供高性能GPU的厂商却很少,目前,能够形成一定市场规模的厂商只有3家:英伟达,AMD和英特尔。

基于这种市场供求关系,对AI服务器具有很大需求量的互联网和IT设备大厂纷纷开始自研相关芯片,如亚马逊AWS,谷歌,Meta,微软和苹果。

亚马逊AWS自研芯片始于2015年,当时收购了Annapurna Labs,2018年,AWS推出了基于Arm架构的Graviton处理器,这是其首款自研服务器芯片。2020年,AWS发布了Graviton2。2023年12月,AWS推出了Graviton4和Trainium2,Graviton4的性能比Graviton2提升了30%,Trainium2在AI训练速度上提升了4倍。

2016年,谷歌推出了自研的AI张量处理单元(TPU),这些专为机器学习设计的芯片为谷歌云平台上提供了AI加速能力,2022年前后,谷歌开始研发基于Arm架构的服务器CPU,2024年4月,谷歌发布了首款自研Arm构架CPU——Axion,并宣布该芯片已经在内部使用。

2020年,微软开始为其Azure云服务定制芯片,2023年11月,微软推出了两款自研芯片——Maia100和Cobalt100。Maia100是一款专为大语言模型训练和推理而设计的芯片,采用台积电5nm制程,Cobalt100是一款基于Arm架构的128核服务器CPU。

今年4月初,Meta发布了新一代AI训练和推理加速器MTIA,其计算和内存带宽是上一代产品的两倍多,最新版本芯片有助于驱动Facebook和Instagram上的排名和推荐广告模型。

03

自研AI芯片的好处

互联网和IT设备大厂自研AI芯片的核心动机是降低成本。当然,自研芯片的前提是自身有很大的需求量,否则自研没有意义。这些大厂的巨量规模能够分摊芯片研发成本,随着产量的增加,单位芯片的成本会降低。通过自研,这些大厂可以直接控制芯片的设计和生产成本,从而减少对外部供应商的依赖。这种成本控制能力使它们能够更有效地管理运营支出,提高整体利润率。自研芯片还可以优化供应链管理,减少中间环节,从而降低采购成本和物流成本。此外,自研芯片可以根据云服务的具体需求进行定制,避免不必要的功能和性能过剩,进一步降低生产成本。

通过自研芯片,这些大厂能够掌握更多的议价权和定价权,避免成为英特尔、英伟达等传统芯片商的“打工仔”。这不仅有助于提升利润空间,还能够在价格竞争中保持灵活性,根据市场情况调整定价策略。

自研芯片还可以帮助这些大厂完善软硬件生态系统,它们能够根据自家的业务需求和特点定制芯片,从而实现硬件与软件之间的无缝对接和优化。自研芯片还可以保持技术创新,随着云计算、大数据、人工智能的快速发展,数据中心面临的工作负载越来越多样化,自研芯片使这些大厂能够快速响应市场变化,及时推出符合新需求的产品和服务。

04

自研AI服务器芯片的难度有多大?

AI服务器芯片属于超大规模集成电路,除了需要大量资金投入,其设计和制造的难度都很大,需要能够精准把握技术路线选择,另外,在团队建设,以及与晶圆代工厂合作方面,需要具备业界顶级水平,才能把芯片做好。

AI服务器需要训练和推理两类处理器和系统,如何规划技术发展路线是关键,也就是说,是发展训练,还是推理,或是兼而有之,是不同的技术路线,这要考虑到市场现状及未来的发展情况。

训练芯片主要用于AI算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整、优化算法参数,直至算法识别准确率达到较高水平。推理芯片主要用于AI算法推理,将在云端训练好的算法模型进行裁剪、优化变“轻”之后,进入应用阶段,输入数据直接得出识别结果。

不同用途(训练和推理)、不同应用场景(端-边-云)对AI芯片有着不同的要求。训练芯片追求的是高性能(高吞吐率)、低功耗,推理芯片追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。“端-边-云”这3个环节对AI芯片的要求也不同,在端和边上进行的大部分是AI推理,大部分的训练是在云和数据中心进行的,训练过程对时延没有什么要求,需要保证AI芯片在尽可能保证较高算力的情况下,功耗尽量低。

目前,英伟达GPU主导的AI训练市场最为火热,然而,随着AI应用的深入展开,巨大的推理芯片市场会逐渐展现出来,该市场比我们目前看到的要大得多,没有任何一家厂商的芯片能够满足这个市场需求。这就是前文提到的亚马逊、谷歌、微软,甚至英伟达自研CPU的原因所在。

有统计显示,AI芯片市场包括约15%的训练,45%的数据中心推理和40%的边缘推理。在这样的行业背景下,大厂自研芯片,必须找准方向,权衡好中短期和中长期应用需求,分配好训练芯片和推理芯片的研发投入。

芯片研发团队建设也很重要。

技术团队搭建,是一个长期积累的过程,需要时间,难度不小,因此,多家互联网大厂对芯片设计外包服务的依赖度较高,这恐怕只能解决短期、少量需求问题,长期来看,还需要技术积累和芯片团队建设。

下面看一下自研芯片大厂与晶圆代工厂的合作关系。

AI服务器芯片采用的都是最先进制程工艺,这方面,考虑到三星电子的先进制程(4nm和3nm)良率迟迟提升不上去,台积电几乎是唯一的晶圆代工厂选择。

根据专门研究半导体公司的金融分析师Dan Nystedt的估计,2023年,苹果公司占台积电收入的25%(175.2亿美元)。

2023年,台积电的前10名客户占其收入的91%,高于2022年的82%,这些公司包括联发科、AMD、高通、博通、索尼和Marvell。可以看出,没有一家互联网大厂,除了苹果,都是IC设计大厂。

多年来,苹果一直是台积电的头号客户,而且,在未来多年内将一直是台积电的第一大客户。据悉,苹果自研的AI服务器芯片将采用台积电的3nm制程工艺,将在2025下半年生产,那时,台积电的3nm制程将升级到“N3E”版本。

对于互联网和IT设备大厂来说,自研的AI服务器芯片,必须找到足够好的晶圆代工厂生产,要想保持长期、稳定发展,就必须对晶圆代工厂的制程工艺有足够的了解。这方面,与谷歌、亚马逊和微软相比,苹果具有先天优势,因为该智能设备巨头是台积电多年的第一大客户,双方有深入了解,能够更好地把握好芯片生产规模、良率、成本,可以实现无缝过渡。

05

芯片设计服务商机无限

如前文所述,互联网大厂自研AI服务器芯片,由于研发难度很大,这些大厂短时间内又难以形成有足够技术和经验积累的团队,因此,选择外包,找芯片设计服务合作伙伴就成为了不二选择。

例如,谷歌开发的两种Arm服务器CPU,其中一款代号为“Maple”,是基于Marvell的技术。

另外,谷歌自研的TPU用于取代英伟达的GPU,谷歌设计的芯片蓝图,都由博通进行物理实现。物理实现是将逻辑电路转换为有物理连接的电路图的过程,博通绘制好物理版图后,再送到台积电流片,流片成功后的芯片正式进入制造环节,整个过程都需要博通深度参与。

数据中心中成百上千个高性能处理器共同运作,它们之间的通信就成为了大问题,这也是当下数据中心性能损耗的主要来源。

博通是通信巨头,最善于解决通信带宽问题,在全球50GB/s的SerDes市场中,博通占据了76%的份额,其SerDes接口通过将低速并行数据转换为高速串行数据,然后在接收端转换回并行数据。通过这样的操作,数据可以从一个TPU高速转移到另一个TPU,大大提升了传输效率。

有了博通的帮助,谷歌自研芯片的项目进展速度明显加快了,TPU从设计开始,仅用15个月就部署进了数据中心。

随着大模型市场竞争快速展开,谷歌大幅增加了TPU设计服务订单,使博通一跃成为仅次于英伟达的AI芯片厂商,Semianalysis预估,AI芯片会在2024年给博通带来80亿~90亿美金的营收。

不止谷歌,Meta、亚马逊、微软等大厂都在加大自研AI服务器芯片的投入力度,找芯片设计服务外包合作伙伴的需求只增不减,此时,以博通、Marvell为代表的芯片设计服务公司的商机会越来越多。

,自研AI服务器芯片,上海爱信诺航天信息有限公司 竞争升级

相关:

被OpenAI压制一年后,谷歌终于翻盘了自从ChatGPT诞生以来,谷歌这个Tranformer的发明者、AI的祖师爷被OpenAI打得抬不起头来。过去一年来,市场对它的质疑一浪高过一浪,很多人鼓噪要CEO“劈柴”(皮查伊)下课。最近谷歌终于翻盘了。谷歌和OpenAI的盟友微软在同一天发布2024年第一季度财报。谷歌营收805.39亿美元,同比增长15.41%;净利润236.62亿美元,同比增加57.21%。而微软同期营收619亿美元,同比17%;净利润219亿美元,同比增加20%。第二天,微软股价上涨1.82..

马斯克来北京看“AI最大的应用场景”特斯拉再一次遇到了危机,马斯克再一次来到了北京。马斯克绝对不是为了小小的汽车数据安全通过国家级检测而来的。特斯拉在2021年就已经将其在中国汽车及用户相关数据存储在位于上海的数据中心。并不是所有的巧合都是偶然。这仅仅是为它在中国推出其自动驾驶技术(FSD)迈出的第一步。他的FSD在中国要克服的最大障碍,是把数据转到美国,训练他基于Transformer架构的端到端的神经网络。特斯拉向北美近200万用户开放试用一个月,正..

笑着看完AI换脸综艺后,AI诈骗让我脊背发凉AI技术的发展已经逐渐渗透到了各个领域,电影和电视剧的制作方式也在发生着翻天覆地的变化,AI换脸技术更是成为影视圈中备受瞩目的一环。近日,一部名为《萌探2024》的综艺中,有一期节目以“反诈”为主题,设计了一个既刺激又充满挑战的游戏环节,嘉宾们需要通过AI换脸技术,伪装成自己的亲朋好友,进行视频通话来获取他人的信任。这期综艺节目将AI换脸玩出了新花样,让众多观众爆笑连连,但笑过之后却对AI诈骗不寒而栗。反诈主..

疯狂骚扰你的AI评论,背后竟是平台的小心思?“我的微博下面评论都是AI评论,一会儿孙悟空,一会儿李逵,还屏蔽不了,这简直抓狂!”最近,一波AI机器人正在“入侵”微博评论区。它们披着我们熟悉角色的外衣——孙悟空、佟湘玉、王熙凤、熹妃甄嬛还有名侦探柯南……有时,在一个评论区里甚至能看到角色“大乱炖”,古今中外的知名IP都汇聚在一个粉丝数不到30的个人微博里。不少网友叫苦不迭。这些没有边界感的AI,顶着角色名和头像,在赛博世界里横冲直撞,玩起了“语言Cosp..

英国苏格兰执政党党首胡穆扎·优素福宣布辞职△胡穆扎·优素福(资料图)当地时间4月29日,据英国媒体报道,胡穆扎·优素福辞去英国苏格兰地区执政党“苏格兰民族党”党首职务,这也意味着他将离任苏格兰地方政府首席大臣。胡穆扎·优素福自2023年3月起担任“苏格兰民族党”党首及苏格兰地方政府首席大臣职务。(总台记者 杨兢兢)

尹锡悦和李在明就韩国医改必要性达成共识,商定常见面中新网4月29日电 据韩联社报道,当地时间4月29日,韩国总统尹锡悦和最大在野党共同民主党党首李在明在首尔龙山总统府举行会谈。资料图:韩国总统尹锡悦。据报道,双方就医学院扩招等韩国医疗改革的必要性形成共识,并商定今后经常见面沟通,但就其余大部分问题存在意见分歧。韩国总统办公室公报首秘李度运29日表示,尹锡悦和李在明未能达成协议,但在大局上有形成共识的部分。双方就有必要推行医改、医学院扩招势在必行形成了共..

布林肯称美国与沙特安全协议即将完成△美国国务卿安东尼·布林肯(资料图)当地时间4月29日,美国国务卿安东尼·布林肯在沙特首都利雅得表示,美国与沙特的安全协议即将完成。(总台记者 王雪靖 张亚宁)

盯上重要矿产,岸田要访南美参考消息网4月29日报道 据《日本经济新闻》4月28日报道,日本首相岸田文雄将于5月访问巴西和巴拉圭,包括构建重要矿产和能源供应链在内,预计将与两国签署超过50个备忘录。包括商社、车企和电机公司在内的50家日本企业高管将随行。东芝、双日公司将与巴西矿产巨头展开合作,联合研发以稀有金属为原料的新一代电池。岸田将于5月2日至4日访问南美洲两国。随行代表团中有日本三大银行高管等日企负责人、经济团体以及大学等代表。据..

“嗨,上海”旅美摄影家龚建华摄影展启幕  中新网上海4月29日电(记者 范宇斌)2024年是新中国成立75周年,也是上海解放75周年。75年来,上海的沧桑巨变是新中国发展进步的生动缩影。29日,“嗨,上海”庆祝上海解放75周年·旅美摄影家龚建华摄影展开幕式在上海市杨浦区国歌展示馆举行。 旅美摄影家龚建华摄影展开幕式。 范宇斌 摄   龚建华是中国摄影家协会会员、上海中外文化艺术交流协会摄影学会名誉会长、美国旧金山湾区海外华人联谊会会长,从事专业摄影4..

广西南宁一中学发生校园欺凌事件 警方已介入调查  日前,网上有视频显示,广西南宁发生一起疑似校园欺凌事件。记者多方采访了解并证实,该视频内容为4月18日南宁三中初中部五象校区学生在校外遭遇的一起欺凌事件。   据了解,4月18日下午放学后,南宁三中初中部五象校区的两名学生以归还手机为由,带另一名学生至附近一公园,协同多名外校学生对该学生进行欺凌,并录制手机视频。   目前,当地警方和学校已介入调查。(总台记者 李健飞 傅琦恩) 【编辑:付子豪】