首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

2019-12-29 17:02:52 来源:网络

中国科技巨头百度在一项旨在测试机器能够理解人类语言的人工智能竞赛中已经超越了谷歌和微软。

正如《麻省理工学院技术评论》12月26日所指出的那样。中国公司百度建立的计算机模型领先于其它所有通用语言理解模型。本月初百度公司在一场持续的人工智能竞争中悄然击败了微软和谷歌,但我们国内关于此次竞赛的报道似乎并不多。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

事实上百度公司不仅仅是一家搜索网站,它还是中国人工智能技术的领先者。这次百度参与的竞争是通用语言理解评估,英文简称为GLUE。百度公司利用Ernie模型成为在GLUE测试中首只超过90分的团队,在由美国科技公司和大学占主导的排行榜中名列榜首。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

这一优异测试结果也使其成为GLUE基准测试中超过平均得分87.1的仅有的10个AI系统之一。微软的D365 AI团队和谷歌的T5团队分列第二三名。百度公司的算法最初设计是用于学习理解中文的,现在它却成为了理解英文语义最好的算法。

GLUE是一个被普遍接受的基准,用于评估人工智能系统理解人类语言。它由九种不同的测试组成,比如在句子中挑选人名和组织名,以及当有多个潜在先行词时,找出像“It”这样的代词指的是什么。因此一个在GLUE上得分很高的语言模型可以胜任处理不同的阅读理解任务。满分为100分,平均分是87分。ERNIE是百度创建的知识增强的语义表达模型,而对手谷歌则有一个名为BERT的预训练模型。

GLUE在公开排行榜上的排名在不断变化,虽然还有另外一支团队很可能很快会超越百度。但是百度的成就让人值得注意的是,它展示了AI研究如何从众多贡献者中受益。百度的研究人员不得不针对中文开发一种专门技术来构建ERNIE知识增强语义表达模型。然而让研究人员欣喜的是,该技术也能使人工智能更好地理解英语。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

在谷歌的BERT预训练模型于2018年末创建之前,自然语言模型并不是那么好。之前的自然语言模型擅长预测句子中的下一个单词,因此非常适用于自动完成功能。只是即使是一小段文字,它们也无法训练具有任何思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。先前的模型学会了预测和解释单词的含义,可以仅通过考虑单词之前或之后出现的上下文来理解单词含义,但是它不能同时考虑两者。换句话说它是单向工作的。

相比之下BERT模型有所改进,BERT模型可以同时考虑单词前后的上下文,使其双向。它使用一种称为“遮罩”的技术来执行此操作。在给定的文本段落中,BERT随机隐藏15%的单词,然后尝试从其余单词中进行预测。这使得它可以做出更准确的预测,因为它可以有两倍的线索可以利用。例如,在“男人去___购买牛奶”一句中,句子的开头和结尾都提示了缺失的单词。 ___是您可以去的地方,也是可以购买牛奶的地方。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

使用遮罩技术是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI GPT-2之类的模型能够在不偏离中心主题的情况下写出极具说服力的散文的部分原因。

从英文到中文再回到英文。当百度研究人员开始开发自己的语言模型时,他们希望以遮罩技术为基础,但是他们意识到他们需要进行调整以适应中文。

在英语中,单词充当语义单位,这意味着完全脱离上下文的单词仍然包含语义。然而中文汉字却不一样了。虽然某些汉字确实具有内在含义,例如火,水或木。但还有许多汉字只有与其他汉字组合在一起才可以更明确意思。例如汉字灵可以既表示聪明也可以表示灵魂。专有名词中的汉字,例如波士顿或美国,一旦分开讲就不是同一件事了。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

因此研究人员对ERNIE进行了一种新版本的遮罩技术训练,这种遮罩技术可以隐藏多个字符串而不是单个字符串。他们还训练它区分有意义的和随机的字符串,这样它就可以相应地做出正确的字符组合。因此ERNIE更好地掌握了汉字是如何编码信息的,也更准确地预测了缺失的部分。事实证明,这对于翻译和从文本文档中检索信息等应用非常有用。

研究人员很快发现这种方法实际上对英语也更好。尽管英语不如中文会出现频繁的组合表达意义,但英语具有类似的单词字符串,这些单个单词表示的含义与它们组合在一起截然不同。像“哈利·波特”这样的专有名词和像“切下旧木块”这样的表达就不能通过将它们分离成单独的单词来进行有意义的解析。

最新版本的ERNIE还使用了其他一些培训技术。比如它能考虑句子的顺序和它们之间的间隔距离,来理解一个段落的逻辑发展。然而最重要的是,它使用了一种称为持续训练的方法,这种方法可以让它在不忘记以前学到的东西的情况下,对新数据和新任务进行训练。这使得它能够越来越好地在尽可能少的人为干扰下执行范围广泛的任务。

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠

百度正积极利用ERNIE模型为用户提供更多适用的搜索结果,删除新闻源中的重复报道,提高人工智能助手小度准确响应请求的能力。

他们还将在在一篇论文中详细描述ERNIE的最新架构,该论文将在明年的人工智能发展协会会议上发表。就像百度团队的创新建立在谷歌的BERT模型上一样,研究人员希望其他团队也能从他们研发改进ERNIE的模型中受益。

百度搜索的首席架构师田浩说:“当我们最初开始这项工作时,就特别考虑了汉语的某些特点,但我们很快发现,它的适用范围远不止这些。”

首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠首次突破90分!中国百度力压谷歌和微软,获AI语言技术王冠,首次突破90分!中国百t-72主战坦克 度力压谷歌和微软,获AI语言技术王冠

相关:

宁夏结束没有高速铁路历史  新华社银川12月29日电(记者何晨阳)宁夏人民盼望已久的高铁梦终成现实!29日,随着C8201次列车从银川火车站驶出,银川至中卫段高铁正式开通运营,宁夏由此结束没有高铁的历史。作为目前全国为数不多的高铁“盲区”,宁夏首条高铁的开通,标志着我国高铁覆盖面进一步扩大。   29日开通的银中高铁连接银川市、吴忠市和中卫市共三座宁夏城市,由银(银川)西(西安)高铁中的银川至吴忠段和京(北京)呼(呼和浩特)银(银川)兰(兰州)..

西藏阿里:易地扶贫搬迁 记者实地探访  央视网消息:西藏脱贫攻坚以来,政府实行的易地扶贫搬迁成为西藏贫困农牧民从根本上摆脱贫困、改变命运的开始,越来越多贫困群众通过“易地扶贫搬迁”项目搬离了“贫穷”,走向了新生活。平均海拔4500米的西藏阿里地区,冬季漫长寒冷,最低气温达到零下三十摄氏度。眼下,已经进入一年中最冷的时候,搬迁到阿里地区噶尔县康乐新居易地扶贫搬迁点的居民们家里的情况怎么样呢?记者进行了实地探访。   今年51岁的曲达来自..

我国172项节水供水重大水利工程 在建投资规模超过1万亿元  央视网消息:截至目前,我国172项节水供水重大水利工程,已经累计开工建设142项,在建投资规模超过1万亿元。   其中,南水北调东中线一期、牛栏江滇池补水、河南河口村水库等30项全局性、战略性水利工程基本建成。 【编辑:苑菁菁】

惠及近2万名学生!贵州教育扶贫精准施策 提高师资水平  央视网消息:对贫困地区来说,教育扶贫是脱贫攻坚工作中的一项长远之计。贵州省独山县是个只有38万人口的国家级贫困县,教育基础弱、师资水平低,曾经超过80%的优秀生源跑到外地上高中。近年来,贵州省贵阳市对独山县进行精准帮扶,探索出一条教育扶贫的新路子。   这是贵州省独山县兴农中学高三数学组老师们的一次集体备课。备课教案成型后,他们会把教案发到工作群,远在150公里外贵阳市白云兴农中学的老师,会进行点..

根治“垃圾围城”,2020年可能要出这些大招  新华社北京12月29日电 题:根治“垃圾围城”,2020年可能要出这些大招——从固体废物污染环境防治法修订透视垃圾治理   新华社记者高敬   2017年,我国202个大、中城市生活垃圾产生量2亿吨且同比仍在增长;一般工业固体废物产生量达13.1亿吨;工业危险废物产生量达4010.1万吨……近年来我国已成为全球垃圾治理压力最大的国家之一。   旅游、餐饮等行业应当逐步推行不主动提供一次性用品;对危险废物经营活动违反法..

中国东极故事:蔓越莓为什么这样红?  中国东极故事之五:蔓越莓为什么这样红?   新华社哈尔滨12月29日电(记者邹大鹏、杨喆、谢建飞)北国风光,千里冰封。冬日斜阳如画,垂落在皑皑积雪上,深藏于冰雪中的蔓越莓枝条,顽强地伸展腰身,为迎接春天的到来蓄积着力量。   “中国东极”黑龙江省抚远市黑瞎子岛镇东安村附近,中俄界江乌苏里江畔的一片黑土地里,积雪已深及膝盖。抚远红海植业有限公司总经理李峰清开一片空地,下面却不见黑土,只有平整的冰面。..

到了中年不油腻不行么?杨烁放过霸道总裁吧杨烁又上了热搜。与前几天引发广泛争议的#杨烁教育方式#相比,#沈腾刘涛吐槽杨烁#看上去又是不一样的角度。果不其然,中心关键词——“油腻”,而这个油腻形容的便是杨烁。起因是沈腾刘涛杨烁三人在参加综艺《跨界歌王》时闲聊,沈腾刘涛便谈到对杨烁在欢乐颂中一段表演的感想:沈腾(大胆试探):被油溅到了的感觉。刘涛(无所畏惧):不是溅到了是被煎了。究竟是什么样的表演可以让沈腾刘涛如此“念念不忘”,吃瓜群众自然不会..

当把张若昀和唐艺昕的照片重叠后,见证奇迹的时刻到了当把张若昀和唐艺昕的照片重叠后,见证奇迹的时刻到了![哈哈]这也太美了吧!好有夫妻相![允悲]要是庆余年由唐艺昕演林婉儿,真正的夫妻档会不会画风会更美呢?#张若昀唐艺昕合体# ​

萨顶顶卸妆之后,神婆变玉女,网友:早这样早就红了萨顶顶这个歌手,相信我们很多人都知道。她是一个非常具有特色的民族歌手,因其独特的歌唱风格吸引了一大批粉丝的喜爱。她的《自己美》和《万物生》这两首歌曲传唱度很高,并且很具有异域歌唱特色,很多歌手翻唱萨顶顶的歌,虽然也挺好听的,但就是缺少了一种韵味在里面。在电视剧《香蜜沉沉烬如霜》里,她饰演了缘机仙子,让很多人对她有了一个全新的认识,原来萨顶顶不仅唱歌好,演戏还意外的很不错呢!而在剧中的《左手指月》..

搬得出稳得住能致富——探访湖北南水北调移民的新生活  新华社武汉12月29日电 题:搬得出稳得住能致富——探访湖北南水北调移民的新生活   新华社记者李伟   “以前没这个条件,现在天天没事干,画着玩。”年逾七旬的陈良佩在家门口晒着太阳,正有模有样地绘画。原来,从小爱好舞文弄墨的他,这几年跟着电视学起了绘画,还把小孙女用剩的画笔,利用了起来。   陈良佩是湖北省十堰市郧阳区柳陂镇卧龙岗社区的一名普通移民,前几年因心脏疾病致贫,被纳入建档立卡贫困户之..