中国人工智能语言新算法悄然击败微软谷歌,引美媒关注

2020-01-03 19:29:57 来源:网络

据《麻省理工学院科技评论》网站(www.technologyreview.com)2019年12月26日消息,本月初,中国科技巨头百度在一场人工智能领域的竞争中悄然击败了微软和谷歌。百度 AI算法ERNIE在通用语言理解评估测试(General Language Understanding Evaluation,GLUE)上领先其竞争对手。

GLUE是人工智能(AI)系统理解人类语言的一个被广泛接受的标准。它由九种不同的测试组成,这些测试包括在句子中挑选人名和组织名以及当有多个潜在先行词时,找出像“It”这样的代词指的是什么。因此,在GLUE上得分很高的语言模型可以胜任处理不同的阅读理解任务。在满分100分中,此前 GLUE 测试的平均分为 87。百度现在是第一个凭借其模型ERNIE获得超过90分的团队。

中国人工智能语言新算法悄然击败微软谷歌,引美媒关注

百度AI算法ERNIE在GLUE评估测试中击败了微软和谷歌

GLUE在公开排行榜上的排名正在不断变化,虽然另外一支团队很可能很快就会超越百度。但值得注意的是,百度的成就展示了AI研究如何从众多贡献者中受益。百度的研究人员不得不针对中文开发一种专门技术来构建ERNIE知识增强语义表达模型。碰巧的是,该的技术也能使人工智能更好地理解英语。

在双向预训练转换器(BERT)于2018年末创建之前,自然语言模型并不是那么好。之前的自然语言模型擅长预测句子中的下一个单词,因此非常适用于自动完成功能。只是即使是一小段文字,他们也无法训练具有任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。但是BERT改变了这一点。先前的模型学会了仅通过考虑单词之前或之后出现的上下文来预测和解释单词的含义,而不能同时考虑两者。换句话说,它们是单向工作的。

相比之下,BERT模型一次可以同时考虑单词前后的上下文,使其双向。它使用称为“掩码”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它具有两倍的线索可以利用。例如,在“男子去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。 ___是您可以去的地方,也是可以购买牛奶的地方。

使用掩码是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI GPT-2之类的模型能够在不偏离中心主题的情况下写出极具说服力的散文的部分原因。

当百度研究人员开始开发自己的语言模型时,他们希望以掩码技术为基础。但是他们意识到他们需要进行调整以适应中文。在英语中,单词充当语义单元,这意味着完全脱离上下文的单词仍然包含语义。然而中文汉字却不一样。虽然某些汉字确实具有内在含义,例如火、水或木,但大多数汉字只有与其他汉字组合在一起才可以更明确含义。例如,汉字灵可以表示聪明(机灵)或灵魂(灵魂)。专有名词中的汉字,例如,波士顿或美国,一旦分开讲就不是同一件事了。

因此,研究人员在新版本的掩码上对ERNIE进行了训练,该掩码可隐藏多个字符串而不是单个字符。他们还训练它区分有意义的和随机的字符串,这样可以相应地做出正确的字符组合。结果,ERNIE更好地掌握了汉字是如何编码信息的,也更准确地预测了缺失的部分。事实证明,这对于翻译和从文本文档中进行信息检索等应用非常有用。

研究人员很快发现这种方法实际上也适用于英语。尽管英语不如中文会出现频繁的组合表达意义,但英语具有类似的单词字符串,这些单个单词表示的含义与它们组合在一起表达的截然不同。像“哈利·波特”这样的专有名词和像“相貌品行酷似父母”这样的表达就不能通过将它们分离成单独的单词来进行有意义的解析。

最新版本的ERNIE还使用了其他几种训练技术。例如它能考虑句子的顺序和它们之间的间隔距离,来理解一个段落的逻辑发展。然而,最重要的是,它使用了一种叫做持续训练的方法,这种方法可以让它在不忘记以前学到的东西的情况下,对新数据和新任务进行训练。这使得它能够在尽可能减少人为干扰的情况下更好地执行各种任务。

百度正在积极使用ERNIE模型为用户提供更适用的搜索结果,删除新闻源中的重复报道,提高人工智能助理小度准确响应请求的能力。百度还在一篇论文中描述了ERNIE的最新架构,该论文将在明年的人工智能促发展协会会议上发表。就像他们的团队的创新建立在谷歌的BERT模型上一样,研究人员希望其他团队也能从他们研发改进ERNIE的模型中受益。

中国人工智能语言新算法悄然击败微软谷歌,引美媒关注

AI新技术将催生出更多像百度这样的高科技公司

百度研究的首席架构师田浩说:“当我们第一次开始这项工作的时候,我们就特别考虑中文的某些特点,但我们很快发现,它的适用范围远不止这些。

ERNIE世界性成果引发的国际媒体关注,是中国自研技术领先业界的一个缩影。未来,将有越来越多ERNIE这样的中国科技、百度这样的中国企业,持续输出中国AI的战斗力。

(作者:宁浦 版权作品 未经许可 禁止转载)

,中国人工智能语peakfit 言新算法悄然击败微软谷歌,引美媒关注

相关:

北京工商大学与腾讯达成战略合作,共建智慧校园1月3日消息,北京工商大学与腾讯签订战略合作协议,双方将共同发力智慧校园生态建设,全面整合学校资源,创新教学培养模式。首先,双方将共建北京工商大学智慧校园,联合打造网络化、数字化、个性化、泛在化的智慧校园环境,实现信息技术与人才培养、科学研究等领域的深度融合。其次,双方将共同探索创新人才培养的新模式。同时,双方将针对产学研创新达成合作,除此之外,腾讯将助力北京工商大学构建“智慧校园融合应用示范基地..

央视开年大戏《破局1950》热播  中新网北京1月3日电 (记者 马海燕)由郑晓龙担任艺术总监,苏霆编剧,何涛导演,苗圃、何明翰领衔主演的反特悬疑年代剧《破局1950》,正在中央电视台电视剧频道黄金强档热播。作为央八开年大戏,该剧首播即以其快节奏、强剧情吸引观众注意。   在前几集的剧情中,朝鲜战争爆发,沈安铁路系统作为重要枢纽,成为敌特分子破坏的重要目标。苗圃饰演的刘玉娥与何明翰饰演得韩立冬加入特别行动小组,目标就是揪出隐藏的特务。..

为救白血病新生 湖南一高校近300师生报名“接力”献血  为救白血病新生,湖南一高校近300名师生报名“接力”献血   新华社长沙1月3日电(记者袁汝婷)19岁的刘迪佳没有想到,当罹患白血病的厄运降临,学校近300名师生自愿报名“接力”献血,带给了他生的希望。目前,已有数十位师生为刘迪佳捐献了血小板。   2019年12月25日,湖南信息职业技术学院大一学生刘迪佳确诊身患急性髓性白血病,因化疗急需大量血小板,学校师生们第一时间自发组织前往血液中心捐献。   2019年的最..

“1.1”重庆渝北加州花园小区火灾后续:起火部位已确认  记者从应急管理部消防救援局了解到,赴渝工作组指导地方消防部门通过现场勘验、调查询问、视频侦查等,认定“1.1”重庆渝北加州花园小区火灾的起火部位位于起火建筑二楼5号房阳台,起火原因正在进一步调查中。   1月3日,应急管理部消防救援局工作组对重庆市主城区部分高层住宅小区、大型商业综合体冬春火灾防控工作和消防车通道集中治理情况进行了随机抽查、走访。   工作组在督导中发现,重庆市主城区一些老旧小区..

福建检察机关批准逮捕性侵未成年人案件670件740人  “一号检察建议”发出后 福建检察机关批准逮捕性侵未成年人案件670件740人   中新网福州1月3日电 (郑江洛)福建省人民检察院3日举行新闻发布会,通报全省检察机关贯彻落实最高人民检察院“一号检察建议”相关情况。   针对近年来幼儿园和中小学教职员工性侵害幼儿园儿童、中小学学生犯罪案件呈上升趋势这一情况,2018年10月,最高人民检察院就加强校园安全建设,预防教职员工性侵未成年学生,向教育部发出的首份关于..

高科技刑侦技术助力警力 湖北2019年侦破命案271起  中新网武汉1月3日电 (武一力 李宗吾 杨保华)湖北省公安厅3日召开新闻发布会通报:2019年湖北共发命案271起,侦破命案271起,再次实现全年命案全破。其中,通过各类技术手段侦破疑难命案积案39起。   湖北省公安厅相关部门负责人介绍,如今,高科技助力警力,不少命案积案的成功侦破都离不开刑侦新技术的进步。如,多手段攻坚侦破“1999.11.5”持枪抢劫杀人案,湖北警方抓获公安部A级通缉在逃人员张勇军;通过技术比对..

湖南台又一部剧爆火了,播放量已破4亿,强推大家看看当下有很多古装热播剧,比如《鹤唳华亭》、《庆余年》等,当然一些古装甜宠剧也是备受关注,比如之前的《明月照我心》、《双世宠妃》等,不管是收视率还是口碑都是很不错的。这的题材,芒果台又怎么会错过呢,于是芒果台也推出了一部甜宠剧《一夜新娘》,到目前为止播放量已经超过4亿了。 虽然只是一部网剧,但是口碑却是非常不错的,虽然已经更新了12集,但网友们还是表示不过瘾,看不够。从这些反馈也能看出这部剧还是挺受大..

男人帮是真的,跨年夜罗志祥后台看张艺兴表演一到年末男人帮就各种发糖,这不跨年演唱会上,张艺兴在舞台上表演《霸王别姬》,小猪哥在后台反送电视机前看弟弟表演,是超级骄傲的哥哥没错啦!!两人表演完还能去聚个餐,这已经是两人在一起跨的第五个年,猪羊是真的!!不知道明年又会在哪儿一起跨年?不过接下来有今日头条的头条盛典活动,黄磊、罗志祥、张艺兴都会参加,又可以叫见男人帮撒糖啦!!!

甘肃研发“农村净水机”:让贫困山区农民喝上干净水  中新网兰州1月3日电 (记者 魏建军)“要让偏远山区的农民喝上干净的水。”甘肃省膜科学技术研究院有限公司党委书记、董事长张鹏云说,甘肃很多农村在深山,居住都特别分散,通过大型水厂解决净水问题,成本很高,而通过一家一户安装小净水机,便可解决。   甘肃省膜科学技术研究院,前身是中科院沙漠研究所苦咸水淡化室,是中国最早从事膜科学技术研究的专门机构。多年来,该院一直致力于膜分离技术的研究开发,在反渗透..

多位演艺明星乘客个人信息疑被泄露 国航介入调查1月3日,微博网友“超侧卫”举报称,有人在微博上发布了包含大量演艺明星个人信息的乘机记录,包括井柏然、邓伦、白敬亭、周笔畅等著名演艺明星的生日、国籍、行程、常旅客状态等个人信息。上游新闻记者(报料微信号:shangyounews)注意到,中国国际航空有限公司通过微博表示,已经关注到了相关情况,将会把情况反馈给相关部门尽快解决。1月3日12点22分,知名航空博主、微博认证为“航空媒体人”的网友“超侧卫”发微博称,一名..