专访NLP前辈黄昌宁先生,每一阶段都是常人难以企及的辉煌

2018-04-01 11:06:30 来源:网络

原标题:专访NLP前辈黄昌宁先生,每一阶段都是常人难以企及的辉煌

黄昌宁先生,作为我国自然语言处理领域的先行者之一,在过去近四十年的时间里为我国自然语言处理的发展做出了杰出的贡献。2017 年 11 月,中国计算机学会(CCF)在第六届自然语言处理及中文计算会议(NLPCC 2017)上将首届「杰出贡献奖」授予黄昌宁先生。

近日,雷锋网有幸去黄昌宁先生家中拜访。黄先生今年已 81 岁高龄,但仍然精神抖擞,思维十分敏捷;言谈平和近人,处处透出大师风范。在雷锋网拜访黄先生的两个多小时里,黄先生非常和蔼、健谈,提出了许多极有价值的观点和建议。

粗略来说,黄昌宁先生的人生大致可以分为两段:45 岁前和 45 岁后。

1937 年出生于广东的黄昌宁,在 1955 年以优异的成绩考入清华大学电机系。1961 年毕业后留校任教。

文革期间,在大学里无论是教学还是科研工作都无法正常地进行下去。随着「四人帮」的倒台,国内研究百废待兴。在 70 年代,黄昌宁主编了大学教材《晶体管电路》,一跃成为清华极为知名的教授,该书在国内发行量逾百万册。

1977 年清华大学设立计算机系,为了弥补与国际研究的差距,学校组织多名教授在全国范围内进行学科调查。黄昌宁当时根据调查结果认为,一定要跟踪世界科学研究的先进方向,设立人工智能专业。随后他参与了《人工智能原理》及《LISP 语言》的翻译并开设了相关课程,填补了当时国内的空白,引起了很大的反响。黄昌宁也由此开始接触自然语言处理。

上世纪 80 年代世界银行给中国政府提供了一批贷款,资助一部分研究学者出国进修,1982 年 45 岁的黄昌宁由此得以走出国门。

黄昌宁在耶鲁大学进行为期一年的访问。在此期间黄昌宁对当时的学界巨擘美国人工智能学会会长、耶鲁大学计算机系系主任罗杰·尚克的工作比较感兴趣,罗杰·尚克是「故事脚本多语言机器翻译系统」的创始人,他主张跳过句法分析直接进入文本的语义理解和处理,这对句法比较松散的汉语 NLP 似乎更有吸引力。但是黄昌宁很快就发现了尚克的问题,跳过句法直接理解语义相当于舍去形式而直抵内容,他认为这在实践中很难实现。这一观察后来也被证实是正确的,尚克本人不久也离开耶鲁去了美国西北大学从事学习研究。

1983 年学习结束后,黄昌宁按时返回国内,从此就再也没有闲下来。这可以分为两个阶段:清华执教阶段和受聘微软阶段。

80 年代初,在国内自然语言处理的研究还几乎是个空白,黄昌宁不仅把这门学科的思想带进了中国,还极大地促进了 NLP 在国内的发展。这方面的工作以 1993 年发表的论文「关于处理大规模真实文本的谈话」为代表。这是国内首篇公开主张大数据真实文本处理的一次宣言。

其次,黄昌宁还同时挑起"七五」国家攻关项目「自然语言理解和人机接口」、国防预研项目「军事文本理解技术」等。

1998 年秋,黄昌宁应香港大学之邀,进行了为期半年的讲学。当时微软中国研究院刚刚成立,院长李开复博士在香港约见了黄昌宁,动员他加盟微软中国研究院。

1999 年 4 月,62 岁的黄昌宁先生在清华执教近 40 年荣誉退休,但却愈发地老当益壮,开启了另一段辉煌。退休后的他随即接受了微软中国研究院的聘请,成为当时研究院中年龄最大的研究员(当时李开复院长年龄最大,还不到 40 岁)。在黄昌宁的带领下微软中国研究院成立了自然语言计算组,其研究则几乎涉及当时 NLP 的方方面面,如中文分词、句法分析、机器翻译、问答系统等等,在国内外很快就达到了顶尖水平。

在论文方面,黄昌宁所带领的团队可谓是中国 NLP 研究走向国际的先锋。2000 年 ACL 在中国香港举办,当时大会总共接收 70 篇论文,微软亚洲研究院有 6 篇论文入选,其中 4 篇出自黄昌宁所带领的团队。这也是国内较早几篇发表在国际顶会中的论文。当然这些只是他们工作的冰山一角,其他例如随后的 2001 年他们在影响因子不下于 ACL 的《Computational Linguistics & Chinese Language Processing》期刊上又连续发表了 5 篇论文。

随着年龄的增长,黄昌宁先生因眼疾及高度近视视力严重衰退,随后渐渐退出微软的管理工作,交由周明博士主管,他担任顾问。

黄昌宁先生对在微软期间的工作总结道:「从成果上来讲,在微软的几年时间里,比我在清华 40 年做的成果还要大得多。」

「赋闲」在家的黄先生并没有过一种遛鸟养花的闲逸生活,他仍然在时刻关注着前沿的研究,并思考如何才能使我国 NLP 的研究水平更上一层楼。

通过与黄昌宁先生的对话,雷锋网得以了解其中的两个侧面:一,他高度肯定评测对 NLP 发展的重要性,认为评测之于NLP正如显微镜之于生物医学;二,中国 NLP 研究若想进入世界先进水平,需要做好顶层设计的工作。

细看黄昌宁先生近六十年的研究生涯,从风华年少到耄耋之年,每一阶段都是一次常人难以企及的辉煌。2017 年 11 月 10 日,基于黄昌宁先生为我国自然语言处理的研究做出的贡献,中国计算机学会在第六届自然语言处理及中文计算会议(NLPCC 2017)上将首届「杰出贡献奖」授予黄昌宁先生。

黄昌宁教授(中)获杰出贡献奖

以下为雷锋网与黄先生部分对话精简。

一、观点

问:从整个科学领域的角度来考虑,您觉得自然语言研究的意义是什么?

黄昌宁:有人说自然语言处理是人工智能皇冠上的明珠,大概是因为语言是人类区别于其他高等动物的重要标志,是人类智能的集中体现,既然是这样,把 NLP 的研究看成是科学上的重要问题也就不奇怪了。自然语言研究的意义就是让计算机能理解或处理自然语言,也就是让计算机明白无误的掌握人类的最高智慧。

问:近几年,中国在NLP领域有了快速的发展,已经达到世界前列的水平。而您经历了中国 NLP 近四十年从无到有,从落后到前列的变化,您如何看待这个发展呢?

黄昌宁:我觉得国内自然语言处理和人工智能研究的现状,是随着改革开放的进展而得到逐步改善的,是一个渐进的过程。

特别是最近几年,有很大的变化,这主要是取决于两个方面:一个是政府给的科研资助有了很大的提高;另外一个是研究人员的数量大幅度的增加。现在国内从事自然语言处理的研究者要比日本、韩国等国家多得多。所以文章的数量超过了别人也是理所当然的。但是我一直觉得,虽然文章的数量是多了,但我们引领研究导向的论文和成果依然很少。

问:在 NLP 的研究和应用领域,您觉得从国家层次上,我国需要如何进一步布局以达到国际顶尖水平(甚?至引领世界 NLP 研究的发展)?

黄昌宁:政府干预科学研究的计划是一柄双刃剑,做得好有可能在一个时期内提高国家的科学研究水平,做得不好也可能是瞎指挥,不是帮忙而是添乱。

这样的例子在国内也不是没有的,虽然规划制定者咨询过一线研究人员,但毕竟他本人不是一线科研人员,所以他不可能全程跟踪某一个项目的研究活动。从国际上看,人工智能领域出现过几次令世人惊诧的成果,比如 1997 年 IBM 深蓝战胜世界国际象棋冠军卡斯帕罗夫;2011 年 2 月 IBM 的深度问答系统「沃森」,在美国 Jeopardy 电视竞答节目上一举打败该节目的两位前冠军;2016 年 3 月 Google 的 Alpha GO 战胜人类九段围棋选手等。这些人工智能的项目都不是政府规划出来的,而是世界顶尖研究团队创造出来的。

问:阅读您之前发表的文章发现,您特别强调在 NLP 发展中评测的重要性。那么您是如何看待评测的呢?

黄昌宁:我一直认为,计算语言学是一门实证科学,公开和可重复的评测,决定了这门学科的健康发展。评测对于 NLP 研究人员来说,就像生物医学的显微镜、天文学的望远镜一样,这些观察工具的优劣,直接决定了科学研究成果的深浅。

举例来说 2003 年到 2006 年间,中文自动分词技术经历了一次重大突破,突破的原因在于对中文分词评测观念的重大创新。以往国内认为中文分词是没有标准答案的,比如「北京西站」可以切分成一个词,也可以切分成「北京 西站」两个词,甚至可以切分成「北京 西 站」三个词,评测时如果评委中的多数认为这三种切法都是合理的,那么这三种切法都是对的。但 ACL SIGHAN 专业委员会组织的中文分词评测 Bakeoff-2003,认为上述三种切分结果应视作三种不同的分词规范。不同的分词规范应提供不同的训练和测试语料,这样分词结果就有了唯一的标准答案,即所谓的「金本位」(gold stand),因此评测标准有了含金量的意味。

在此基础上 Bakeoff-2003 采用了召回率 R、精确率 P 和两者的调和平均值 F 等三项指标,而不像国内只有分词正确率一项指标。何况由于国内原来的分词测试语料没有标准答案,所以这个正确率的定义是含糊不清的。进而 Bakeoff-2003 还分别设立了表内词和未登录词的两个召回率指标,在这两项指标的指引下我得出未登录词对分词精度失落的影响比表内词的歧义切分所引起的精度失落高 5 到 10 倍。这个结论回答了分词界一个长期悬而未决的难题,根据这个认识不难得出以下的推论:能使未登录词的召回率显著提升的模型和算法一定是最佳的分词方法。果然,到了 Bakeoff-2005 分词技术就发生了巨大的变化,推翻了以前以词为基础的主流的分词方法,出现了以字为基础的全新的分词方法。到了 Bakeoff-2006 年就没有人再做基于词的分词系统了。

问:测试方法如此重要,是否可以说这是科学研究的顶层设计呢?

黄昌宁:您提的这个问题很好,科学研究的顶层设计确实包含了评测方法,但还包括其他的重要问题:如项目的宗旨和定义、基础理论和方法、项目推进的路线图和最终成果的鉴定等等。

这些顶层设计美国做的最好,而国内却很少。因为这些工作不是个别团队的经费和人力能轻易做到的。周明说我们的 NLP 研究要在 2020 年达到世界先进水平,那么顶层设计就一定要做。你想,如果我们没有顶层设计的话,论文数量再多,原创性和引用率也赶不上人家。

美国国防部 DARPA 设立项目经理人的做法值得我们学习。他们通常会设定一些项目,如信息检索、问答系统、话题识别和追踪等,并为每个项目设立一个项目经理,其人选不是来自政府机关,而是从大学或科研院所中聘请的领域专家。项目经理负责完成项目的顶层设计,包括项目宗旨、资料制备、评测方法、项目推进路线图、评测会议和学术交流等。我希望中国政府也可以参照这个经验来推进我国科研项目的顶层设计。

二、研究

问:您怎么来看待您过去从事过的研究呢?

黄昌宁:我觉得,在自己的研究领域,一个人一辈子未必能参与一次技术上的重大突破。如前所述,我很幸运有机会参与了 2003-2006 年中文自动分词的那次大突破。不过我认为,无论您是否能亲历科研上的重大突破,只要恪守正确的科学方法一步一步往前探索,不急不燥,就一定可以积小步而成大步。即使您的心得微不足道,那也是对科学研究的一份贡献。

问:那么,老师您对??做出的哪项工作最为满意?

黄昌宁:我想最让我满意的是 1993 年在《语言文字应用》杂志第 2 期上发表「关于处理大规模真实文本的谈话」的论文。我的这篇文章是国内第一篇公开主张大数据真实文本处理的宣言,这也是我本人终身坚持的学术主张和方法论。自然语言处理在这之前也有一些著名的演示系统,但这些系统都只能在有限的情景下进行简单的人机对话,不能适应社会和企业界对自然语言处理技术的大规模需求。这就是第一代人工智能技术的困境,要突破这个困境就要从第一代走向第二代。

其次是 1999 年我到微软以后从事中文分词的研究,包括编写分词规范、标注分词语料和研制高精度的分词系统。在此期间我发现中文分词的可计算定义既不是单纯的标注规范也不是分词规范+词表,而应该是大规模的分词标注语料,从中也认识到计算机使用的语言知识在形式上和颗粒度上都不同于传统的人类语言知识。这个认识在最近两年的大数据、深度学习的计算模型上再次得到验证。

三、经验

问:老师您在研究和教育上已经耕耘了六?多年,见证了中国学术界半个多世纪的变迁,您在研究和生活中?定有很多的?生经验。您能否分享一些这方面的经验呢?

黄昌宁:我对这个问题有两个看法:

第一,一个学者应该对自己的研究领域有深刻的洞察力。这也是我对自己指导的博士生提出的一个基本要求。洞察力的养成非常重要,首先要时刻关注该领域最前沿的少数几篇论文,务求融会贯通,要做到有洞察力还需要有多视角的思维。人们常说视野决定事业,也可以说视野决定洞察力,有了洞察力才会有创新。

第二,要创造机会访问最著名的研究团队,和最著名的研究者在一起讨论问题。这样的接触常常会令您脑洞大开。我在微软工作 14 年,接触过大量的年轻实习生和博士后,我发现他们在微软的这段研究生涯对他们日后的研究都有深刻的影响。

,专访NLP前辈黄昌宁伪原创工具 先生,每一阶段都是常人难以企及的辉煌

相关:

为博“抖友”点赞 男子开车兜风连抠10余个奔驰车标奔驰车标能用来干嘛?最近网上有个视频火了……装饭菜、水果、坚果……你以为只是个段子,可没想到现实生活中真的有人这么干了……3月28日中午,浙江永康西城派出所的民警们开始在朋友圈寻找丢失奔驰车标的车主,这些奔驰车标都是早上刚刚从犯罪嫌疑人小郭家中搜出来的。得知车标在西城派出所后,永康市民舒某匆匆前来认领,舒某说自己奔驰车的车标什么时候不见了,还真没留意……还有几位车主也是闻讯赶到派出所来认领车标的那..

英拉兄妹日本樱花树下开心自拍 称没想好是否回国泰国前总理英拉及其兄长他信日前被指现身日本。(图源:NHK)原标题:英拉兄妹日本樱花树下开心自拍 称没想好是否回国海外网4月1日电 泰国前总理英拉去年8月因“大米收购案”逃亡国外,此后陆续有媒体曝光她“飘忽不定的”行踪。有媒体日前又爆料,英拉及其兄长他信3月29日现身日本,兄妹两人在东京出席了日本前自治大臣石井一的新书发布会。据日本NHK报道,英拉及其兄长他信于3月29日下午乘坐私人飞机抵达日本东京,并于当晚..

美韩今日启动“鹞鹰”军演 美军减少向半岛出动战略武器美军“黄蜂”号两栖攻击舰。原标题:美韩今日启动“鹞鹰”军演,美军减少向半岛出动战略武器在朝鲜半岛局势正在发生变化之际,新一轮美韩军演今日悄然开启。据韩联社报道,韩美两国1日启动代号为“鹞鹰”(FE)的联合军演。“鹞鹰”为野战训练演习,美方出动1.15万人参演,韩方出动30万人。此次演习的亮点是1至8日进行的“双龙”联合登陆演习。韩美每逢双数年进行双龙演习。美军首次为参加双龙演习向半岛海域同时出动两栖攻击舰“..

泰姬陵开始限时游览:购票最多逗留3小时原标题:游客参观泰姬陵时间不得超3小时据俄罗斯卫星网31日消息,为避免出现大批游客聚集现象,印度政府计划将游客参观泰姬陵的时间限制在3小时内。美国有线电视新闻网(CNN)援引印度考古管理部门代表迪姆利的话报道称,此举旨在调节客流,“为了避免发生不幸事件。”报道称,参观时间受限的举措将于4月1日正式生效,该举措不仅针对外国游客,也针对本地人。迪姆利还透露,印度政府目前不会限制参观泰姬陵的人数,但已对未来限制..

西安明城墙内不新增居住用地,历史文化区疏散3万人原标题:西安明城墙以内不再新增居住用地,重点历史文化区疏散3万人新华社西安4月1日电,为进一步疏解西安市中心城区过密的建筑和人口,延续城市文脉、保护文化遗产,西安市政府近日出台一项规划管理意见,明城墙以内严格按照规划的居住用地建设住宅,不再新增居住用地。根据新印发的《西安市进一步加强重点历史文化区域管控疏解人口降低密度的规划管理意见》, 西安市重点历史文化区域管控范围划分明清历史文化区、隋唐历史文..

欧足联又来中国拉赞助商,然而看球的人变少了原标题:欧足联又来中国拉赞助商,然而看球的人变少了━━━━━━我们和欧足联市场总监爱泼斯坦聊了聊。文| 韩洪刚欧足联又来中国兜售他们的新产品。近日,欧足联在北京专门召开发布会,推介新赛事“欧洲国家联赛”。赛事将于今年9 月开始,一直持续到明年6 月。欧足联市场总监爱泼斯坦表示,在世界杯和欧洲杯的空档期里,他们希望球迷能欣赏更多精彩的国家队赛事。“我们这儿还有两个赞助商名额。”爱泼斯坦也向中国公司喊..

终于等到你!微信放大招,以后生活和工作可以分开了!周末踏青?别忘转发赚奖金【转发挣20元】周末玩嗨了,千万不要忘了分享赚奖金!终于等到你!微信放大招,以后生活和工作可以分开了!从企业微信发出去的消息,微信好友居然也能收到?跨越两个产品的消息互通会是什么样?3月30日,企业微信—微信消息互通功能正式开放内测,企业员工可以通过企业微信与客户微信添加好友,并发送单聊消息。大家期盼已久的企业专属内外部连接器,终于来了。员工再也不用通过个人微信处理工作对于服..

易到调整业务模式:对司机免佣金并阶梯返利凤凰网科技讯 (作者/二维马)4月1日消息,易到宣布将对公司现有业务模式进行一系列调整,包括免除车主佣金、改善出行体验、实行阶梯返利、下调乘车资费等,打破网约车传统的佣金模式。易到母公司韬蕴资本CEO温晓东表示,随着人们收入水平的提升,越来越多个性化的出行需求将会产生,此次业务模式的调整正是为了适应这样的行业发展趋势。温晓东表示,网约车发展8年来,一直以收取佣金为主要盈利模式,目前全行业过多注重了价格..

如果一生只读一本村上春树,那就是《刺杀骑士团长》原标题:如果一生只读一本村上春树,那就是《刺杀骑士团长》 | 36氪领读周末早,不知不觉,2018已经过去了四分之一,相信很多小伙伴在年初都立下了读书的flag,现在你的读书计划进行的怎么样了呢?新的一年,每个人都希望自己能有所进步,为了这个小目标,36氪为大家开设了一个新的栏目【36氪领读】。未来每周日的早上,我们都会你推荐一本值得读的书,并提供一些书摘,希望我们都能坚持下去,让自己在今年有所收获。内容简介历..

揭秘:电动牙刷到底清洁神器还是装逼神器原标题:揭秘:电动牙刷到底清洁神器还是装逼神器   【PConline 杂谈】口腔疾病是影响人体健康的常见病、多发病。据调查资料显示,我国儿童乳牙患龋率高达67%,中年人群恒牙患龋率达59.9%,老年人群中全口无牙者达6.9%,人群牙龈炎、牙石检出率也较高,口腔健康状况普遍较差。口腔疾病给病人、家庭、社会造成很大的经济负担,给社会经济发展带来不容忽视的影响,是我国现阶段最为突出的健康问题。 我国口腔卫生现状..