中国工程院院士高文:没有大算力做大模型就是天方夜谭

2023-07-08 02:53:37 来源:网络

凤凰网科技讯 7月7日消息,中国工程院院士、鹏城实验室主任高文在世界人工智能大会昇腾人工智能产业高峰论坛上演讲时表示,没有大算力做大模型就是天方夜谭,这就和电力是一样的,可以省点电做出什么产品来,别人真正懂行的人听了都不信的, 一定要有算力作为基础。

“美国的算力现在指数是排第一,比我们大概多了 30%的算力,那么也就代表 GDP 也比我们多 30%,什么时候我们的算力超过了美国,咱们的 GDP 就可以超过美国了。”

他表示,从现在开始,算力也是数字经济发展的一个指数,算力够,你的数字经济就能够发展好,不够就发展不好。

以下为高文演讲全文:

各位专家、各位领导,大家下午好!

前面的领导都讲得很好,算力是非常重要的一件事,今天上午陈书记在讲的时候也讲到,上要抓三件大事,人工智能方面其中就有一个是算力建设,算力建设非常重要的一方面,就像电力一样,我们知道原来李克强总理抓经济的时候, 李克强经济中有一个很重要的指数就是“克强指数”,是靠电力的消耗看整个经济的发展顺利不顺利,或者是正常不正常。

从现在开始,算力也是数字经济发展的一个指数,你算力够,你的数字经济就能够发展好,不够就发展不好。所以, 特别是智能算力就非常关键。

所以跟大家分享关于鹏城云脑的智算平台,再就是分享一下在这个平台上面做的鹏城脑海大模型。

首先,我们说算力很重要,重要到什么程度呢?

清华大学的一个 2022 年的咨询报告说到了,经过统计计算力指数和 GDP 是正相关的关系,你算力越强你的 GDP 就越强,最右边的图可以看到,美国的算力现在指数是排第一,比我们大概多了 30%的算力,那么也就代表 GDP 也比我们多 30%,什么时候我们的算力超过了美国,咱们的 GDP 就可以超过美国了。

正是因为算力这么重要,所以发展人工智能和经济没有算力不可能,要有算力要有芯片,芯片做成机器,用这个机器训练这个模型,为了做这件事,我们在 2020 年深圳就做了一台机器,这台 机器叫鹏城云脑II,这台机器的算力在 2020 年的时候是全世界做人工智能训练最强的一台机器,比当时微软、谷歌的机器都要强,相当于是 4000 块卡的机器, 而且这台机器是 4000 块 A100 卡的机器,这台机器是用全光网络把它连起来的, 节点和节点之间的延迟非常低。

因为,有了这台机器可以做很多事,包括我们可以做科学研究,可以做产业应用还有关键技术的研发。

这台机器刚刚我说有 4000 块卡,一个是鲲鹏 CPU, 一个是昇腾 NPU,都是华为的。

有了这台机器以后,那么这台机器的性能行不行呢?就参加世界 TOP500 的超算的打榜,整个超算整个算力的打榜,同时它也有其他的赛道,我们参加的一 个是 IO500 的赛道,你的输出和输入能力的赛道,我们从 2020 年 10 月份这台机 器做出来以后,11 月份就参加打榜,连续 6 次第一,每半年有一次打榜,全节点 连续二次第一。

所以,这台机器在做人工智能训练这件事,别人没办法和它比。 这台机器的 AI 算力,这个是三年一次的,也参加了打榜,连续三次第一。这台 机器不仅硬件强,接口能力和网络非常强,同时上面的软件也是配备得比较完备, 包括怎么样做分布式计算,怎么样做命令调优、自研的调度规划等等。这台机器 这么大规模的机器以前还是第一次,相当于它的四台机器,其实是四台我们的机 器组成这一台了,上面有很多软件的挑战。

可能有的专家也许听到过,有人说全世界能在 1000 块卡上同时选连一个模型的只有几千人,能在 4000 块卡上训练的不超过 100 个人,在 10000 块卡上训练模型的人数更少了,大规模的卡上一起做事,对于软件规划、资源调度挑战非 常大。

我们不仅仅是把鹏城云脑II用好,我们也承担了国家发改委的任务,用鹏城云脑II类似的华为生态的,用在昇腾 AI 集群,不管是 100P 和 900P 的算力结点, 我们用网络把资源连起来,可以给大家提供,告诉你这里有资源可以通过网络去 用。

同时,我们还把华为生态以外的,按照发改委的要求,希望这是异构的算力网的平台,我们也选择了部分其他厂商的算力,在 2022 年 6 月这个项目验收的 时候,已经聚合的智能算力到了 2300P,云脑II只是 1000P,这个系统已经聚集 了 2300P 的智能算力。

我们有了云脑II可以训练大模型了,训练大模型还是很费算力的,但是即使你可以训练大模型,现在的需求根本不够用,我们正在规划做云脑III。

下面我说说大模型,鹏城正在做一个大模型,这个大末是 2000 亿参数,也就是 200B 的参数,为什么做这件事呢?

不用再花时间了,因为有 Chat GPT 和类 Chat GPT 大模型在不停地涌现,同时因为现在很多公司都用这个东西做产业应用,去做服务。所以,现在这个模型变得很重要了,但是现在有钱的公司可以砸几个亿做这样的机器,甚至十几个亿和几十个亿,但是大多数的公司做不了。

这个领域需求这么大,怎么办呢?

我们鹏城实验室可以做一个底座,模型训练完开放出去,大家在这个底座说做垂直应用。按照这样的思路,我们首先有鹏城云脑II的算力,前一阶段我们积累了很多的数据,这一段时间前几个月我们通 过各个渠道,包括购买拿到数据,先下面做清晰,清晰的数据很重,可能我拿到 了 100 个数据,清晰完就剩几个了,因为有很多是重复和不规范的,这些东西拿 掉就变得很小。虽然拿了很多的数据,但是真正用来做训练的数据只有 1%-5%。 有了这个数据我们就可以做大模型底座。

这个大模型底座,我们就是用的生成式预训练模型,就是和 GPT 完全类似的底层的东西,用这个东西训练一个好的模型,希望可以开放出去。

现在这个模型我们想着 2000 亿参数,200B 的参数,这个训出来以后,我们希望把它给到合作伙伴那里,而且提供相应的指令微调和相应的人工增强学习的工具,甚至做一两个垂直领域,做样板作为垂直应用,怎么样用告诉大家,因为 华为在这方面很有经验,我们建议谁想做垂直应用,可以到华为得到一些咨询用 这个模型做他们的应用。

有了这个东西,我们希望能够快速把这个模型做完可以推向社会,让社会在 这个模型上开发中国自己的人工智能大模型应用系统。现在我们正在紧锣密鼓往前推,应该是 8 月底第一次所有的训练就训练完了,9 月份就会把模型开放出去。

现在训练的数据有多大呢?我们说的是喂数据,每天喂 10 个 B,但是最重要喂 一个 T 的数据,一个 T 是由几百个 T 清晰来的,现在数据都是中文和代码数据, 现在 4000 多块卡的机器每天可以吃掉 10 个 B,100 天就能吃掉 1000 个 B,就是 一个 T,我训练 2000 亿参数的模型,需要 4000 块卡训练 100 天。

这就是算力, 你如果不够大的话,做一个模型还是很辛苦的,而且我现在才训练了一个 T 的数 据,训练两到三个 T 的话,还要加两到三个 100 天,没有大算力做大模型就是天方夜谭,当然有很多人说我可以用限速(音)等等这样那样的,但是实际上这就和电力是一样的,可以省点电做出什么产品来,别人真正懂行的人听了都不信的, 一定要有算力作为基础。

我们的算力到现在为止,怎么样把数据做好训练得快,我们有一套体系,有 一个开源社区叫启智开源社区,这里面有很多的工程师做飞轮数据工程,可以使 你清晰数据做得非常快,有很多自动和半自动的清晰数据,都可以帮助你。

模型训练,4000 块卡吃掉 10 个 B 的数据,整个的损失每天都在降一点,我 们看着特别高兴,每天有数据汇报,一天降了 0.2,我们现在大概在 2 的上下浮动,我们希望最终可以降到 1.8 左右。

这是训练的过程,同时我们要考虑应用的 时候有隐私数据有一些数据应用者,希望到你这个模型应用一下,但是不希望自 己的数据被丢掉或者是看到,我们提供了隐私数据保护的模块,我们叫防损包, 有了这样一套体系就可以支持应用了。

我们希望鹏城脑海出来了可以快速向社会赋能,可以让大家做数字政府、“一 带一路”、智能制造、智慧金融、智慧医疗等等各种各样可能的应用,这里有黄颜色和白颜色,黄颜色是现在已经投进人去做了,你做指令微调和正向学习都需 要。后面是放给合作伙伴去做的,而且我们还有一些完整的整个教育计划、人才 计划,人才计划就希望这个模型训练放出来,大量培养人才,通过高校和合作伙伴培养,能让中国的大模型应用快速启动。

小结一下,鹏城实验室在鹏城云脑II硬件平台和鹏城脑海大模型这两件事都 在和华为合作正在往前推进,希望可以对中国人工智能大模型用贡献一点力量,作为一个基石,希望大家多关心、多参与。

谢谢大家。

,中国工程院院士西门子贝得电机 高文:没有大算力做大模型就是天方夜谭

相关:

丁磊:用最快速度探索AI大模型应用是首要任务《科创板日报》7月6日讯(记者 张洋洋)无人装载机器人、AI绘画体验活动、虚拟口语教练、元宇宙活动平台……在2023世界人工智能大会(WAIC)上,记者在网易展台看到,多款人工智能大模型落地产品展出,集中展示了在人工智能基础设施层、引擎层、平台层、模型层、应用层的成果。现场人员告诉《科创板日报》记者,今年以来,网易正快速推进AI大模型在游戏、教育、工业、音乐等关键产业场景的落地。在工业领域,网易伏羲基于AOP理..

机构:ChatGPT取代量化投资仍存在一定难度财联社7月7日电,百亿量化私募启林投资创始合伙人、投资总监王鸿勇表示,当前ChatGPT取代量化投资仍存在很大难度。金融市场是一个低信噪比和非稳态的市场。低信噪比意味着当前金融市场的有效信息非常少,故而投资风险非常高,若使用AI来做投资预测,不仅需要很高的经济成本来开发模型,还需要很长时间训练模型。在王鸿勇看来,未来若ChatGPT取代量化投资真的实现,彼时市场将会变成一个完全有效市场,市场阿尔法收益将会全部消失。

《小时代》被骂10年,现在竟然成了经典?10年前,《小时代》系列的第一部电影上映。它引起的骂战和争议可以用“现象级”来形容。一部精确地满足消费群体的流量电影展现出了强大的票房号召力,撕裂了舆论场的同时,也撕开了“流量经济“的帷幕。它的价值观被人诟病,但是它的片段、台词、图片在10年后随着“发疯文学”不断地被使用。今天,我们试着用抽离的目光,去回看《小时代》的出现,和它带来的一切。作者 | TerrenceLee编辑 | 程迟题图 | 《小时代》距离《小..

黄土高原上,没上过大学的女人们在喂养AI作者 | 南风窗高级记者 朱秋雨发自陕西清涧见到曹亚丽时,她正心无旁骛地紧盯电脑屏幕,左手的三个手指覆盖在A、W、S、D四键上,右手则放在键盘的上下键。她的双手配合娴熟,背挺得很直,仿佛钢琴家灵活地按动琴键。每隔两秒,曹亚丽手指动一下,那是她面对一张图作出判断的时间。曹亚丽从事的职业——AI训练师(人工智能训练师)——在2020年被国家正式列为新兴职业。每天,她和同事们通过贴标签、画框、排序、找不同等方式..

一对被网暴的夫妻决定不死声明自2023年2月14日至今,网络上出现了「结扎后才能在一起」「中国最后一个太监」「结扎后被分手」「结扎哥」等针对我和我妻子的海量造谣诽谤、人格侮辱的网暴言论。本文系对这些违法犯罪行为和网络账号的指认,并对相关谣言与诽谤内容进行积极澄清。现已对相关造谣诽谤内容进行证据收集、固定,报警立案之后,也将委托律师对相关账号及主体进行起诉,包括但不限于:长达半年的部分造谣诽谤、人身攻击信息截图,全网点击率累计..

创文志愿者铲店门红字,律师:涉嫌滥用职权近日,一段有关陕西省汉中市北关街道人民路社区创文志愿者的视频火了,视频显示,该志愿者在7月4日晚,铲掉了一家面店玻璃门上印的“馄饨水饺”“排骨面”“杂酱面”等红字。店主抱怨:“铲了就创文了?”该志愿者并未回应。▲创文志愿者铲除店门上的红字。对于创文志愿者的这种行为,不少网友提出了质疑:“管点正事不好吗”“感觉有点矫枉过正啊”……7月7日,上游新闻(报料邮箱baoliaosy@163.com)记者多次致电遭创文志愿者..

放过李玟,别以爱的名义猎奇不必以多余的好奇心试图去揭开某些谜团。否则,就有可能产生一些干扰甚至冒犯,而这和我们的热爱,是矛盾的李玟的离世,引发了人们极大关切。关于她的死因、她的身后事,网上各种讨论层出不穷,越发喧腾。有归因于婚姻和感情的,也有归因于抑郁症的,还有归因于抢救环节的,甚至有文章充满争议性地披露了其自杀细节和抢救细节。应该提醒的是,过度的关注和喧闹,可能不是李玟所希望的,也与我们对她的爱有所违和。事实上,已经有..

江西部分地区出现旱情,局地达到重度干旱记者从江西省气象局获悉,根据气象干旱监测显示,7月6日,江西省南部的大部分地区达到轻度到中度干旱,局地达到重度干旱。赣北北部局地达到轻度到中度干旱。截至目前,江西省19个站达到轻旱,13个站达到中旱,5个站达到重旱。未来江西省旱情将有持续发展的可能,注意防范。(总台记者 杨萍)

李家超现身贵阳夜市,尝奶茶鸡蛋仔赏水族刺绣【环球网报道】据香港新闻网7日报道,香港特别行政区行政长官李家超日前率团前往贵州省贵阳市,开启为期3天的访问行程。李家超6日晚夜游贵州的“青云市集”,品尝港味特色“丝袜奶茶”,更为太太购买伴手礼。李家超7月6日晚到贵阳“青云市集” 图自香港大公文汇网香港文汇网报道称,7月6日晚20时20分许,出席泛珠三角区域合作行政首长联席会议的李家超,现身号称贵阳潮玩新地标的南明区青云路“青云市集”。一下车,在面对市民..

多部委召开座谈会,部长亲自出马,什么信号?当前,中国正处在经济恢复和产业升级的关键期,中国政府正在加强与民企、外企等各类企业的沟通交流,以进一步提振信心、稳定预期。多位部长亲自召开相关企业座谈会,释放重要信号。建立健全常态化沟通交流机制中共中央政治局常委、国务院总理李强7月6日下午主持召开经济形势专家座谈会,提出要通过增强工作的互动性来增强决策的科学性,建立健全政府与民营企业、外资企业等各类企业的常态化沟通交流机制。中新财经注意到,近日,..