机构:特斯拉,“伪装”成车企的AI芯片公司?

2023-06-29 05:56:32 来源:网络

爱集微消息,近日,知名半导体分析机构Semianalysis作者Dylan Patel对特斯拉在AI芯片和云服务、大数据搜集和AI训练方面的布局做了深入分析。

文章认为,特斯拉志在成为全球领先的人工智能公司之一。迄今为止,特斯拉也许在自动驾驶领域的技术并不是最先进的,Alphabet旗下的Waymo技术被公认为最为先进的技术。此外,特斯拉在生成式人工智能领域的涉足较少。然而,特斯拉拥有数据收集能力、专用计算能力、创新文化和顶尖的AI研究人员,这些或许是其在自动驾驶车辆和机器人领域实现跨越式发展的秘诀。

特斯拉在算力方面的提升

特斯拉在算力方面的提升

目前,特斯拉在内部的AI基础设施非常有限,只有大约4000个V100显卡和16000个A100显卡。与世界上其他大型科技公司相比,这个数字非常小,因为像微软和Meta这样的公司拥有超过10万个GPU,而且他们计划在中短期内将这个数字翻倍。特斯拉AI基础设施的薄弱部分是由于其内部训练芯片“D1”的多次延误。

然而,现在情况正在迅速改变。

特斯拉将在1.5年内大幅提升了其AI能力,预计增长规模超过10倍。其中一个原因是提升自身能力,但也有一个很重要的原因是为了X.AI公司的发展。Semianalysis按季度进行单位估算,深入探讨特斯拉的AI产能、H100和Dojo芯片的情况,以及特斯拉因其模型架构、训练基础设施和边缘推理(包括HW 4.0芯片)产生的独特需求,而且还讨论了X.AI公司的发展现状,X.AI是OpenAI的竞争对手,而马斯克从OpenAI挖走了许多著名的工程师。

D1训练芯片的发展曲折又艰辛,从设计到供电方面都遇到了问题,然而现在特斯拉声称已经准备好公开展示该芯片,并开始进行批量生产。文章认为,自2016年以来,特斯拉一直在为其汽车设计内部的AI芯片,并在2018年开始为数据中心应用设计芯片。

在芯片发布之前,Semianalysis独家披露了他们所使用的特殊封装技术,这项技术被称为InFO SoW,一个与晶圆大小相当的扇出封装技术。原则上类似于Cerebras公司的做法,但优点是可以进行可靠的芯片测试。这是特斯拉架构中最独特和有趣的方面,因为25个芯片被集成到这个InFO-SoW中,并且没有直接连接存储器。

Semianalysis还在2021年更详细地讨论了特斯拉芯片架构的优缺点。当时是因为芯片上的内存容量不足,特斯拉不得不制作另一款芯片。

特斯拉本应在2022年多次扩大产能,但由于芯片材料和系统问题,始终未能实现这一目标。现在已经是2023年年中,产能终于开始提升。这种芯片架构非常适合特斯拉独特的应用场景,但值得注意的是,它并不适用于对内存带宽限制严重的LLM(低延迟内存)。

文章指出,特斯拉之所以独特,是因为他们必须专注于图像网络。因此,他们的架构差异很大。Semianalysis之前曾讨论过深度学习推荐网络和基于Transformer的语言模型需要非常不同的架构设计。图像/视频识别网络还需要不同的计算、芯片内通信、芯片内存和芯片外存储的组合。

在训练过程中,这些卷积模型在GPU上的利用率非常低。随着英伟达下一代产品对Transformer模型进行进一步优化,特斯拉对卷积模型的差异化、优化架构的投资有望取得显著进展,这些图像网络必须符合特斯拉推断基础设施的限制。

训练芯片虽然是由台积电制造的,但在特斯拉电动汽车内运行人工智能推理的芯片被称为全自动驾驶(FSD)芯片。特斯拉车辆上的模型非常有限,因为特斯拉坚信他们不需要在车辆中拥有巨大的性能来实现全自动驾驶。此外,与Waymo和Cruise相比,特斯拉的成本限制更加严格,因为他们实际上发货量很大。与此同时,Alphabet Waymo和GM Cruise在开发和早期测试阶段使用的全尺寸GPU成本要高出10倍,他们正在考虑为他们的车辆制造更快(也更昂贵)的SoC。

特斯拉的FSD系列

特斯拉的FSD系列

第二代芯片从2023年2月开始在车辆上进行发货,该芯片的设计与第一代非常相似。第一代芯片基于三星的14nm工艺,采用了三个四核集群的设计,总共有12个Arm Cortex-A72内核,运行频率为2.2 GHz。然而,在第二代设计中,特斯拉将CPU核心数量增加到了五个四核集群,共20个Cortex-A72内核。

第二代FSD芯片最重要的部分是3个NPU核心。这三个核心每个都使用32 MiB的SRAM来存储模型权重和激活数据。每个周期,从SRAM中读取256字节的激活数据和128字节的权重数据传递给乘积累加运算(MAC)。MAC的设计是一个网格,每个NPU核心有一个96x96的网格,每个时钟周期总共有9,216个MAC和18,432个操作。每个芯片上的3个NPU运行频率为2.2 GHz,总计算能力达到121.651万亿次运算每秒(TOPS)。

第二代FSD芯片拥有256GB的NVMe存储和16GB的Micron GDDR6,其速度为14Gbps,并通过128位内存总线提供224GB/s的带宽。后者变化最为显著,因为带宽相比上一代提高了约3.3倍。FLOPs(每秒浮点运算数)相对于带宽的增加表明HW3芯片难以充分得到利用。每个HW 4.0中配备两个FSD芯片。

HW4板性能增加是以额外的功耗为代价的,HW4板的空闲功耗约为HW3的两倍。在峰值时,Semianalysis预计功耗也会更高。外部HW4外壳电压为16V,电流为10A,即使用功率为160W。

尽管HW4性能有所提升,但特斯拉仍希望使HW3也能实现全自动驾驶,这很可能是因为他们不想对已购买全自动驾驶功能的现有HW3用户进行改装。

信息娱乐系统采用了AMD的GPU/APU。与上一代相比,该系统现在与FSD芯片位于同一板上,而不再使用独立的扩展板。

HW4平台支持12个摄像头,其中一个用于冗余备份,因此实际使用的是11个摄像头。在旧的配置中,前置摄像头集线器使用了三个低分辨率的120万像素摄像头。而新平台则使用了两个更高分辨率的500万像素摄像头。

特斯拉目前不使用激光雷达传感器或其他非摄像头的方法。过去,他们确实使用了雷达传感器,但在中期将其移除。这极大地降低了车辆的制造成本,特斯拉致力于优化成本,并相信纯摄像头感知是实现自动驾驶的可能途径。然而,他们也指出,如果有可行的雷达传感器可用,他们将将其与摄像头系统整合。

在HW4平台上,有一个内部设计的雷达,名为Phoenix。Phoenix将雷达系统与摄像头系统结合起来,旨在通过利用更多的数据打造更安全的车辆。Phoenix雷达使用76-77 GHz频谱,峰值等效全向辐射功率(EIPR)为4.16 W,平均等效辐射功率(EIRP)为177.4 mW。它是一种非脉冲式汽车雷达系统,具有三种感知模式。雷达PCB包括一个用于传感器融合的Xilinx Zynq XA7Z020 FPGA芯片。

特斯拉AI模型差异化

特斯拉旨在开发基础的AI模型,以为其自动机器人和汽车提供动力。这两者都需要了解周围环境并在周围导航,因此可以应用相同类型的AI模型。为未来的自动平台创建高效的模型需要大量的研究,具体来说需要大量的数据。此外,这些模型的推理必须以极低的功耗和低延迟进行,由于硬件限制,这极大减少了特斯拉能够提供的最大模型尺寸。

在所有公司中,特斯拉拥有可用于深度学习神经网络训练的最大数据集。每辆上路的特斯拉汽车都使用传感器和图像来捕捉数据,将这个数乘以上路特斯拉电动汽车的数量,将得到一个庞大的数据集。特斯拉将其数据收集部分称为“车队规模自动标注”。每辆特斯拉电动汽车都会拍摄一段45-60秒的密集传感器数据记录,包括视频、惯性测量单元(IMU)数据、GPS、里程计等,并将其发送到特斯拉的训练服务器上。

特斯拉的模型是通过分割、掩膜、深度、点匹配等任务进行训练的。由于在道路上拥有数百万辆电动汽车,特斯拉有大量经过良好标记和记录的数据源供选择,这使得他们能够在公司的Dojo超级计算机上进行持续的训练。

然而,特斯拉在数据使用方面的信念与其建立的可用基础设施相矛盾,特斯拉只使用了收集到的数据中的一小部分。由于其严格的推理限制,特斯拉因过度训练其模型以在给定的模型大小内实现最佳准确性而闻名。

过度训练(over-training)小型模型导致完全自动驾驶的性能出现瓶颈,并且无法利用收集到的所有数据。许多公司选择尽可能进行大规模训练,但他们也使用更强大的汽车推理芯片。例如,英伟达计划在2025年向汽车客户交付具备2000 TeraFLOPS计算能力的DRIVE Thor芯片,这比特斯拉的新HW4芯片要高出15倍以上。此外,英伟达的架构对于其他模型类型来说更加灵活。

,机构:特谢震武 斯拉,“伪装”成车企的AI芯片公司?

相关:

AI热不全是炒作!投行Wedbush:第四次工业革命正在上演财联社6月28日讯(编辑 卞纯)美国知名投行韦德布什(Wedbush Securities)的分析师丹·艾夫斯(Dan Ives)周三表示,生成式人工智能(AI)现在非常流行,但AI热潮并不完全是炒作,第四次工业革命正在上演。“我(将当前的AI热)称之为1995年时刻(当时互联网热潮兴起)。我不认为这是一个炒作周期,” 艾夫斯在一档节目中表示。第四次工业革命指的是人工智能、自动驾驶汽车和物联网等技术进步如何改变人类的生活、工作和相..

世经论坛天津热议:医疗AI的堵点与机会“虽然近三分之二的医疗保健领导者认为AI对实现其组织目标‘非常重要’,但只有不到三分之一的人表示他们的AI计划实现了‘预期价值’。”27-29日,世界经济论坛(WEF)第十四届领军者年会在中国天津举行,会议期间,论坛方揭晓了“十大在未来三到五年内将对世界产生最大影响的新兴技术”,生成式人工智能和人工智能辅助医疗名列其中。但根据WEF本月发布的另一份有关“AI在医疗健康领域应用”的专题报告,却显示了前述不尽如人意..

GitHub CEO:人工智能和软件开发密不可分《科创板日报》28日讯,GitHub首席执行官Thomas Dohmke今日发表演讲时表示:“我们以后的生活里,人工智能和软件开发密不可分。”此外,GitHub 还指出,生成式AI工具有望提高这些开发人员的工作效率。该公司预计,到2030年,全球范围内,由AI驱动的生成式开发工具将为全球GDP增加1.5万亿美元。 (TechCrunch)

甲骨文宣布将在其人力资源软件中添加生成人工智能功能IT之家 6 月 28 日消息,美国商用软件巨头甲骨文正在迎来“高光时刻”。周三,甲骨文公司宣布为其面向企业的人力资源软件添加生成式人工智能功能,旨在帮助起草职位描述和员工绩效目标等任务。图源 Pexels众所周知,像 ChatGPT 这样的能够根据提示生成相关内容的 AI 工具已经在科技行业掀起了一股热潮,包括微软和 Alphabet 公司在内的许多企业都将它们集成到了搜索引擎中。但就目前来看,许多商业用户仍对生成式人工..

困在网页里的ChatGPT 想在移动生态里突围“相信我们当中的很多人都试用过了ChatGPT,也相信很多人试用过之后,已经将它放置一边了,因为目前它和我们的工作基本上还是割裂的,所以用用就放下了。但我依然希望大家不要‘起个大早,赶了晚集’,因为这是一个会带来颠覆性变革的范式革命。”最近,微软中国首席技术官韦青,在一场新书共读会上说了上述一段话。其中的后半句还需时间验证,但是前半句的“割裂”,已然成为普遍的现实。ChatGPT在苹果应用商店上架满一个月,拿..

张雪峰,再不闭嘴危险了这几天,全国各地纷纷出了高考成绩,也划出了分数线。一年一度的“报志愿”季又到了。志愿到底怎么报?报什么专业不后悔?前一阵自媒体博主、考研名师张雪峰的炮轰新闻学,炸出大学教授的怒火,也引来了普通网友的围观。事情是这样的。一名家长来到张雪峰的直播间咨询,说自己的孩子高中理科模拟考了590分,能不能报新闻学专业?张雪峰说,590分报新闻,怎么想的,建议直接把孩子打晕。“别报新闻,从中国本科专业目录里面闭着眼..

到底怎样才能没蚊子啊?蚊子,一种超级烦的生物人类对于它的控诉,可以说上几天几夜啥地方都能被咬一口,脚底心、手指关节、眼皮、嘴唇……好不容易躺下睡个觉,一关灯就开始在耳边「嗡嗡」,一开灯找也找不到……吸血就算了,还肿;肿就算了,还痒;痒也算了,还会留印……是疟疾、登革热、黄热病、寨卡病毒、丝虫病、日本脑炎等传染病的携带者,绝对的人类的第一大杀手……于是就有这么一句话——万物皆有灵,蚊子除外。图片来源:网络深受其扰的人类..

劳荣枝辩护律师称收到死亡威胁电话,警方已立案警方的受案回执。由于吴丹红没有到场,警方受理了“赵德芳被威胁人身安全案”。 本文图片均为受访者提供6月28日,劳荣枝辩护人吴丹红律师告诉澎湃新闻,两天前其助理赵德芳律师收到一个死亡威胁电话。电话称,如果劳荣枝被发回重审或者改判,他将杀死吴丹红全家。当日赵德芳向北京市公安局朝阳分局常营派出所报案,警方已经受理案件。赵德芳提供的录音显示,来自江西鹰潭的号码在确认赵德芳的身份后称,“你别管我是哪位,我跟..

她这性别观,比陈思诚还离谱风波的缘起是一个祝福父亲节的短视频。幼儿园的教室里,老师把男同学和女同学分成两边阵营,视频的左边全是女孩,右边全是男孩。女孩子们问:“你有房吗?”男孩子们答:“我爸有!”“你有车吗?”“我爸有!”“你有存款吗?”“我爸有!”“那你有什么?”“我有我爸!”触目惊心的对话,在网上疯转。图源:新浪微博这个视频集齐了对成年世界里最恶毒、最刻板的想象:女性是只知道要车要房要存款的拜金女,男性是拼爹躺平还洋..

母猪玩命生,猪企玩命亏“一口肉一口蒜,神仙日子都不换。”北京一家大型超市内,一位猪肉商户正卖力地吆喝着。有道是, 民以食为天,猪粮安天下。作为世界上最大的猪肉消费国,中国一年要吃掉近7亿头猪,全球一半的猪是中国人消费的,因此猪肉价格变动与民生问题息息相关。图/图虫创意今年以来,生猪价格持续走低,对于消费者来说,猪价便宜意味着“吃肉自由”,但对于企业而言,低猪价意味着低利润。中国新闻周刊了解到,整个生猪养殖行业已经连续亏..