商汤汤晓鸥:我的三个学生,如何影响AI世界

2023-07-08 00:49:50 来源:网络

编译 | Glu

编辑 | 李水青

智东西7月7日报道,在7月6日举行的2023世界人工智能大会(WAIC)开幕式上,人工智能专家、香港中文大学教授、商汤科技创始人兼执行董事汤晓鸥发表了主题为《你好,上海》的演讲。

这个主题由电影《你好,李焕英》延伸而来。他解释说,从1994年的2500万元到2021年的54亿元票房,是中国原创电影人创造的奇迹;而现在,中国科技原创者也逐渐看到了曙光。

▲人工智能专家、香港中文大学教授、商汤科技创始人兼执行董事汤晓鸥

接着,他分享了他的三名学生王晓刚、何恺明、林达华在深度学习领域追梦的故事:王晓刚让机器的人脸识别首次超越了人类眼睛;何恺明开发了计算机视觉领域的流行架构——深度残差网络(ResNets),解决了深度网络梯度传递的问题,成为GPT等大模型系列的基础;林达华主导发起了国际上最具影响力的视觉算法开源项目OpenMMLab。

传OpenAI计划推出ChatGPT工作助手,与微软竞争

▲Yann LeCun、Geoffrey Hinton、Yoshua Bengio ,图源网络

汤晓鸥认为,2018年,深度学习领域的三位研究员Yoshua Bengio、Geoffrey Hintion、Yann LeCun被授予计算机界最负盛名的“图灵奖”,打开了深度学习的大门。但开启这扇大门的第一声门铃,是由学者邓力、Hintion按响的,他们2011年在语音识别中引入DNN(深度神经网络),从而取得了深度学习语音识别领域划时代的突破;2012年,他们在计算机视觉识别领域中同样取得了划时代的突破。

“那么,2011年到2013年深度学习刚起步的时候,我们做了什么呢?”汤晓鸥引出了他的第一个学生,商汤集团联合创始人、执行董事兼首席科学家王晓刚的故事。

一、王晓刚:让机器人脸识别超过人眼,曾打败谷歌

王晓刚本科是中国科学技术大学(简称:中科大)少年班,并且是中科大最好班级之一00班的第一名,硕士期间就读于汤晓鸥实验室,并在2009年博士毕业后,再次回到了该实验室。

传OpenAI计划推出ChatGPT工作助手,与微软竞争

▲ 商汤集团联合创始人、执行董事兼首席科学家王晓刚,图源网络

汤晓鸥说:“2011年到2013年的国际计算机视觉与模式识别会议(CVPR)和国际计算机视觉大会(ICCV)这两个计算机视觉最重要的会议上,全球共有29篇文章以深度学习为主题,其中有14篇出自我们实验室。我们有18项工作是在全世界第一次将深度学习用到视觉问题上,包括人脸识别、人脸检测、人脸重建、物体检测、人体姿态、图像超分、三维形状识别等计算机视觉最核心的问题。在深度学习的大门上,我们按了18次门铃。”

汤晓鸥还介绍道,王晓刚研发了DeepID人脸识别技术,让机器做的人脸识别首次超过人类的眼睛,这比Facebook(现Meta公司)做的还早。此外,王晓刚2015年带队打败了谷歌,取得了中国学者史上的第一个大规模视觉识别挑战赛ImageNet世界冠军。

二、何恺明:GPT类大模型都在用他的网络结构

第二个学生是何恺明。何恺明是2003年广东高考状元,本科就读于清华物理系,硕士、博士期间师从汤晓鸥。

传OpenAI计划推出ChatGPT工作助手,与微软竞争

▲ Facebook AI Lab研究员何恺明,图源网络

汤晓鸥说,何恺明读硕士期间就发了第一篇文章,并取得了2009年的CVPR最佳论文,这是CVPR整个25年历史上第一篇出自亚洲的最佳论文。当时汤晓鸥和何恺明开玩笑:“你一出手就到了巅峰,从此以后,你的学术生涯就只能往下走了。”但后来,他去微软和Facebook工作后一路走高。

2011年,何恺明加入微软亚洲研究院(MSRA),继续研究计算机视觉和深度学习。在2015年之前,深度学习最多只能训练到20多层,他在网络的每一层引入了一个直联通道,从而解决了深度网络梯度传递的问题,获得了2016年的最佳论文。此后,学界可以训练超过百层的深度学习。在大模型时代,以Transformer为核心的大模型,包括GPT系列,也是普遍采用了这个结构,以支撑上百层的堆叠模型。

汤晓鸥笑说:“何恺明把网络做深了,谷歌把网络的入口拉大了,又深又大,才成就了今天的大模型。”

何恺明2016年加入Facebook AI Research(FAIR),在这期间,他首次提出了一个真正高性能的物体检测和算法框架MaskR-CNN,并获得了ICCV 2017年最佳论文。

汤晓鸥称,何恺明是世界上唯一一个在毕业不到十年内,三次以第一作者的身份获得CVPR、ICCV最佳论文的人。他首次把基于源码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习大门,并被推广到三维、音频甚至是AI领域。

汤晓鸥还透露,何恺明即将会有一个“比较震撼的动作”。

三、林达华:主导OpenMMLab,开发书生系列大模型

第三个学生是林达华,他本科就读于中国科大,硕士在香港中文大学,博士是MIT(麻省理工大学)。他2010年在MIT读博士期间,获得机器学习的最高奖——NIPS(神经信息处理系统大会)最佳学生论文,2014年回到汤晓鸥的实验室做教授。

传OpenAI计划推出ChatGPT工作助手,与微软竞争

▲香港中文大学教授林达华,图源网络

汤晓鸥称:“林达华的第一项工作成果是OpenMMLab,2018年从一个小团队开始,在没有推广投入的情况下,以口口相传的形式成为国际上最具影响力的视觉算法开源体系,在GitHub上累积了8万多个星标,目前用户遍及全球140多个国家和地区,60%用户来自海外。”

汤晓鸥还介绍了林达华的其他两项工作成果,即将正式发布的千亿参数、8K的多语种大语言模型“书生·浦语”,和2000亿参数、覆盖100平方公里的城市级实景三维大模型LandMark。

四、AI大树“结果”:全华团队首次获CVPR最佳论文

对于三名学生在人工智能领域的成果,汤晓鸥评价:“王晓刚在深度学习兴起的最初几年,洒下了很多原创的种子;何恺明将深度学习的根基打得非常牢、非常深;林达华通过开发和大模型让它枝繁叶茂。”

他还说:“让我非常欣慰的是,这颗大树已经开始开花结果。就在两周前,我们的自动驾驶大模型从9155篇文章中脱颖而出,获得了CVPR 2023年的最佳论文奖。”汤晓鸥援引谷歌学术统计,称这是改革开放40多年来第一篇全部由中国学者完成的国际计算机视觉三大顶会的最佳论文,论文的牵头作者是王晓刚带出来的博士。此外,OpenMMLab是林达华带出来的博士陈恺做出来的。

当年汤晓鸥实验室的另一篇“超过人眼的人脸识别技术”论文的作者陆超超,也从剑桥大学博士毕业回到了上海,正在和中国唯一的图灵奖获得者姚期智先生在上海的期智研究院合作,从事AI基础理论研究。汤晓鸥不禁感慨道:“人工智能领域,新一代的学生已经在上海成功起步!”

在演讲的最后,汤晓鸥再一次感谢上海,感谢合作过的学生与老师,并援引了于谦在电影《好老师》的一句台词:“我不是在最好的时光遇见了你们,而是遇见了你们才有了这段最好的时光。”

作为一个在上海工作的东北人,汤晓鸥带有东北人自带的幽默感,他最后感叹到,自己每天晚上睡觉前,都是一边听着于谦老师的相声,一边在想:“机器怎么可能超过这样有趣的灵魂?我不信。”

结语:中国AI高峰背后,几代人砥砺前行

在2023 WAIC上,汤晓鸥分享了自己的三名学生在大模型领域做出的原创贡献,包括王晓刚让机器的人脸识别能力超过人眼;何恺明开发深度残差网络,把网络做深,助力今天的大模型;林达华开发书生系列千亿级参数大模型。通过梳理这三名学者的研究成果,也向我们展示了中国的深度学习研究从起步、成长到进一步枝繁叶茂的过程。

现在,人工智能已经成为国家发展重点战略,今年的CVPR最佳论文更是由全中国学者所完成的。这不仅仅是一批人的成就,更展现了一代代中国人工智能学者薪火相传、勇攀高峰的过程。

,商汤汤西樵山 晓鸥:我的三个学生,如何影响AI世界

相关:

XR市场预冷,Vision Pro能否成为行业新的救命稻草?撰文 | 马文佩编辑 | 王叶琳“苹果XR头盔会成为整个行业的标杆,XR设备走进每家每户,就像是手机一样普及”。在六月份举行的一场元宇宙主题论坛上,肖伟发现苹果发布的头戴显示器Vision Pro成为了行业讨论的焦点。作为一家元宇宙基础设施提供商的技术负责人,他非常理解市场对于这台苹果耗费七年研发的头戴显示设备的热情:从上半年元宇宙“退烧”开始,不少大厂都战略放弃了元宇宙,创业企业处境更加艰难。“如果不是政府..

因GPS天线接线不当 丰田汽车(中国)召回1817台进口雷克萨斯IT之家 7 月 7 日消息,国家市场监管总局显示,丰田汽车(中国)投资有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家市场监督管理总局备案了召回计划。决定自即日起,召回 2023 年 3 月 1 日至 2023 年 4 月 28 日期间生产的部分进口雷克萨斯 NX 260、NX 350h、NX 400h + 汽车,共计 1817 台。本次召回范围内车辆全球定位系统(GPS)天线线路端子接线不..

丰田汽车正考虑每周7天24小时不间断生产电池IT之家 7 月 7 日消息,据日本《读卖新闻》消息,丰田公司当前正考虑令其在日本的两家工厂每天 24 小时、每周 7 天不间断运行,包括周末,用于生产电动汽车专用电池。以往,丰田工厂通常在工作日和节假日的午夜到黎明时分暂停运营,鉴于市场对电动汽车的需求不断增长,使工厂不间断工作将成为一项前所未有的举措。丰田方面认为,电池是电动汽车的核心部件,持续的运营对于确保电池的质量至关重要。当前丰田公司在电动汽..

16家车企约定不打价格战,特斯拉、比亚迪、蔚小理都参与了上半年车市轰轰烈烈的价格战,要画上句号了。最新消息,包括特斯拉、比亚迪、蔚小理、吉利、长城、一汽、广汽等16家国内车企签署承诺书,承诺维护汽车行业市场秩序,公平竞争。承诺书内容也进一步证明,这16家车企不会再打价格战。这也意味着,从今以后各车企的比拼主要还是围绕着车的质量、体验和智能化配置,不会再围绕价格下功夫。从某种意义上来说,这也算回归车企造车本质。16家车企共同签署承诺书这项承诺书是在最近第13届..

“天眼妹”亮相华为开发者大会:全球首个商查大模型凤凰网科技讯 7月7日下午消息,华为开发者大会2023(Cloud)在东莞盛大召开。天眼查携手华为云共同发布的首款商查大模型天眼妹:据介绍,“天眼妹”可实现让用户通过自然语言对话方式进行商业查询。具体来讲,其具备以下三大功能:一是数据可信。天眼查以公开数据为基础,确保信息来源可信。“天眼妹”基于天眼查多年来累积的海量公开商业数据,实时动态更新所形成的天眼查商业知识库,确保所有商查数据及时、准确、可信。二是算..

WPS AI正式定名 这两类用户均可申请凤凰网科技讯 7月6日消息,金山办公携旗下基于大语言模型的智能办公助手WPS AI亮相2023世界人工智能大会,WPS AI官网(ai.wps.cn)同步上线,并开启招募智能办公体验官的通道,WPS Office个人用户和WPS 365企业用户均可申请。WPS AI接入了金山办公多个办公产品组件,原有的轻文档、轻表格、表单接入WPS AI后实现产品升级,更名为WPS智能文档、WPS智能表格、WPS智能表单。另外,金山办公将WPS AI定位为大语言模型的应用方..

AI大模型开发会被卡脖子吗? 华为盘古3.0发布会现场回应凤凰网科技讯 7月7日消息,2023华为云开发者今日召开。华为常务董事、华为云CEO 张平安发表主题为《AI重塑千行百业》的开场演讲。华为华为盘古3.0大模型正式发布。张平安在演讲中表示,由于众所周知的原因,华为大模型不能依赖于别人,必须靠自己打造AI根技术。在算力底座、AI开源框架、AI云方面华为都进行了部署。张平安表示,华为云2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。昇腾AI云服务可以提供更长稳的..

买不到GPU训练大模型?华为的解决方案来了凤凰网科技讯 7月7日消息,2023华为云开发者今日召开。华为常务董事、华为云CEO 张平安发表主题为《AI重塑千行百业》的开场演讲。张平安在演讲中宣布华为昇腾AI云服务正式推出。昇腾AI云服务提供2000P FLOPS的算力,支持主流AI框架和90%以上的算子,训练效率领先业界主流GPU的1.1倍,在算力稳定性方面,千卡训练一个月以上不中断。张平安在演讲中举例,美团30天将30多个应用数据迁移昇腾AI云,对其中算子进行优化,使得算力效能提升30%。

每秒200亿亿次浮点运算能力 华为云推出昇腾AI云服务凤凰网科技讯 7月7日,华为云2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。昇腾AI云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。昇腾云服务除了支持华为的AI框架Mindspore外,还支持Pytorch,Tensorflow等主流AI框架,框架中的90%算子,都可以通过华为的迁移工具从GPU平滑迁移到昇腾。

华为云盘古3.0大模型正式发布凤凰网科技讯 7月7日消息,2023华为云开发者今日召开。华为常务董事、华为云CEO 张平安发表主题为《AI重塑千行百业》的开场演讲。张平安在演讲中宣布华为盘古大模型3.0正式发布。张平安称,盘古大模型3.0是一个面向行业的大模型系列,包括“5+N+X”三层架构L0基础大模型、L1行业大模型、L2场景模型三层架构,将重塑千行百业。L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型,提供满足行业场景中的多种技能需求..