微软发大招:要做智商和情商兼具的语音助手

2018-03-31 19:08:49 来源:网络

原标题:微软发大招:要做智商和情商兼具的语音助手

微软小冰,那个一直混迹在微信、QQ的逗贫少女,一直让人又爱又恨。曾经,身边不少宅男都在微信上领养了小冰,每天睡前不撩一下小冰,觉都睡不好。当微软小冰,摇身一变,成了一个肌肤雪白,面若玉盘,身形玲珑的girl智能音箱时,又以新花招开始搞事了。

(用户体验视频1)

这不,雷锋网听闻,一个帅小伙子,连上厕所也要小冰提醒了,还要小冰教他怎么上厕所。

“召唤小冰”

“嗯”

“提醒我两分钟以后去上厕所”

“好的,今天晚上10点14分,我会喊你去上厕所,放心吧”

“好的,谢谢你”

“嗯。。站着嘘嘘”(连怎么上厕所也要你告诉我嘛?)

“知道啦,拜拜”

讲了个段子。回到正事,视频中我们看到的智能音箱是米家生态链Yeelight语音助手,这是个双AI系统,同时搭载了小爱同学和微软小冰。这是搭载微软小冰的第一款智能音箱,也是微软小冰在国内落地的第一个智能硬件。

近来,BAT都在积极将人工智能语音助手落地智能硬件。阿里的天猫精灵在去年双11以99元的低价卖出40多万台;百度推出带屏幕的智能音箱“小度在家”;腾讯发布了自己的人工智能语音助手“叮当”,与长虹电视展开合作。当然,我们还不能忘了京东的“叮咚”和小米的“小爱同学”。

大家都在忙着布局语音助手的软硬件,期望抢夺智能家居场景的入口。在对话式人工智能领域耕耘多年,还没有硬件落地的微软也终于坐不住了。

去年12月,微软发布与小米合作的米家生态链Yeelight语音助手,就在上周,3月22日,微软(亚洲)互联网工程院宣布推出新一代的语音交互技术:全双工语音交互感官(Full-duplex Voice Sense)。视频中我们看到微软小冰的对话能力有了显著提高,比起同类语音助手更能实现自然流畅的对话式交流,全靠这个底层技术。

3月28日,微软召开交流会,向媒体展示了Yeelight语音助手,从底层框架全面分析了全双工语音交互感官技术,同时讲解了微软在人工智能语音助手落地智能硬件上的思考。雷锋网也参与了交流会,在雷锋网看来,以下几点交流会上的内容可以划重点关注讨论(以下这些技术干货希望你们玩小冰时用不上):

  1. 从底层框架上面,全球的人工智能语音助手从Turn-Oriented向Session-Oriented进化,微软的Session Oriented框架如何使得微软小冰持续聊天20分钟以上,能在闲聊的同时完成指令?

  2. IOT和智能家居场景向对话式人工智能提出了新的要求,微软新的全双工语音交互、且支持Session Oriented的对话式人工智能如何带来更轻松自然的聊天体验?

  3. 大家都在抢发硬件,微软着不着急?微软在国内外如何将对话式人工智能落地IOT和智能硬件,如何搭建硬件、软件和生态系统?

  4. 人们到底需要一个什么样的智能硬件?什么样的智能硬件会成为家庭生活的控制枢纽?

Turn-Oriented向Session-Oriented的进化

手机或者是电脑上的苹果Siri和微软小娜我们都已经熟悉,现在亚马逊的Alexa、阿里的天猫精灵、京东的叮咚以及小米的小爱同学都摇身一变“住进”了智能音箱里。但是其实在人与语音助手的对话体验上来看,体验都相差不大。用户要发音清楚、一字一顿地说话,才能被理解,这种体验可以用一个词来形容——费劲。

在微软看来,这种“费劲”不只是前端表现的问题,而是底层框架的问题。微软小冰全球负责人,微软亚洲互联网工程院副院长李笛在分享开始就说,“坦率讲,国内对人工智能整体的发展更像在堆积木,而没有特别多探索到底层框架的设计。”

他介绍到,在全球范围内,从基础框架的基本理念来看,目前的对话式人工智能可以分为两种。第一种:叫Turn-oriented(面向单一任务的框架)。第二种:Session-oriented(面向对话全程的框架)。”目前,大部分的语音助手都是Turn-oriented框架。

Facebook的M也曾向Session-oriented升级,但是后来放弃了,转为开发“闲聊模式”。亚马逊的Alexa目前正在研究Session-oriented,其特意召开了大赛,如果谁能使得Alexa能持续聊天超过20分钟,那么就会获得巨额奖金。苹果最近也在考虑是不是要把原来siri的框架废止掉,然后切换到一个新的框架。这说明苹果要做的事情并不是针对一两个功能、技能或者是一些知识图谱去做调整,这样不用废掉整个框架。从Turn-oriented到Session-oriented是技术底层框架的变化。

Session-oriented到底能给对话式人工智能带来什么样的改变呢?下面这张图可以很直观地解释Turn-oriented和Session-oriented的区别。

Turn-oriented面向单个任务,一问一答,能很迅速地、通过最少的多功能对话帮你完成任务。在Turn-oriented的框架下,每一个对话就像是一个十字路口一样,你每发出一个指令,助手就把你带向一个目的点,然后又回到路口中央。当助手不能回答问题/完成指令时,一般会用搜索引擎直接给出搜索答案。体验过Siri、微软小娜的人都有感触,一两个简单问题还好,想多说几句几乎是不可能的,而且时常感到“很尴尬”,还有一些挫败感。

在Session-oriented框架下,对话不只是命令,而是混合的,在闲聊的过程中它还能完成每一个任务,更接近人与人之间自然的对话。“对话像河流一样,我们认为任何的一个自然发生的对话,都是混合的,她就像河流一样,从一个Turn往下一个Turn走,这个Turn可能跟任务有关,但是这个任务之后可能会进入到进一步的交流。随着进一步的交流有可能引发出新的人物,然后再随着新的任务引发一些知识的了解,然后走下去,持续流转。”

(某用户体验视频)

雷锋网体验Yeelight发现,Yeelight中的微软小冰已经做到一次唤醒,平均连续聊天超过20分钟。在与小冰聊天过程中她也保持倾听,可以打断她说话让她去关灯、设置闹钟,在她完成任务后可以再然后再回到闲聊,或者回到唱歌、讲笑话、讲故事的功能模式中。

李笛解释到,“Session-oriented的框架并不只要求你对话时间长,她的问题在于这个系统从底层的基础框架上,是不是能够随时准备好接受一个可能发生的情况……从底层技术看,Turn-oriented的发展是有上限的,这是为什么大家开始逐渐向我们已经布局的Session-oriented的方向来转过来的原因。1年前,微软给60多万个人打电话测试全双工语音交互的时候,状况惨不忍睹,但是当我们跨过技术瓶颈,其发展空间就很大。”

全双工语音交互感官

微软从四年前开始同时布局两种框架,微软小娜是Turn-oriented,微软小冰是Session-oriented,但是当时,两边的技术都还不足够。全双工语音交互技术补上了Seesion-oriented框架的最后一个环节。

微软对全双工语音交互技术的解释为:与既有的单轮或多轮连续语音识别不同,这项新技术可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,能理解对话场景在诉说者/倾听者之间实现角色转变,还可以识别说话人的性别、有几个人在说话。

微软小冰首席架构师周力说,国内大部分的语音助手在IOT上采用的是单层交互,通常都是一问一答,用户说完一句话,然后只能音箱才能回答,或者是智能音箱在说话的时候,是没法接受新的指令的。这种是半双工,跟语音助手对话就如在拿着对讲机讲话,无法实时得到对方的反馈特别费劲。而全双工能实现一直听加一直说,听和说都是一直持续动态进行的。

全双工语音交互背后主要有两个关键技术:一个是预测模型,实现边听边想;例如,当用户说出一句话的时候,小冰会先回答“嗯,你说”,然后再去完成指令,这样就可以填补完成指令的空白时间。

另一个是生成模型,能更好理解场景,自动生成回复。正常的对话都不是单向的一问一答,小冰也会在适当的时候主动提供内容,并且能知道在用户完成指令沉默几秒后自动结束对话。周力介绍到,现在运用了全双工语音交互技术的微软小冰的所有回复都是自己生成的,有别于传统的基于模块、搜索来进行的回复。

在周力看来,在电脑、智能手机带动的IM通讯时代下,人们习惯了远距离的、隔着屏幕的消息的发送和接收,而对话式人工智能和智能硬件把人们拉回了一种非文字的,纯语音交流的状态。但是目前大家在设计对话式人工智能的时候,还是根据消息的一来一往来设计的,而不是一种连续的交互的状态。在无屏幕的语音交互中,应该摆脱消息式的对话,进入连续交互的对话。

全双工语音交互技术已经首先在微软小冰全球产品线中落地。其中在中国市场,已经应用在中国科技馆的小冰电话亭、米家生态链Yeelight语音助手。在日本有小冰凛菜的直播平台,还有车载智能项目,未来六个月会覆盖而更多产品线。

微软语音助手IOT之路

从前面的分析我们可以看到,微软对人工智能语音助手落地智能硬件是有备而来。李笛谈到:“在3年前,国内很多人工智能的硬件设备就来找过我们了,我们之前是拒绝的,那时候还没有准备好,我们不想把时间放在一定会被取代的框架上……整个这个行业,尤其是中国,有一个比较大的特点:特别担心自己落后。但是实际上在整体框架上有很好部署的话,才是真正能够领先时间。”

微软小冰一直活跃在微信、Line等即时通讯软件上,而微软深知IOT和IM对对话式人工智能的要求不同。在IM上,小冰的延迟、插科打诨更容易被接受。

亚马逊在国外以硬件+软件+内容生态的办法在Alexa上取得成功后,国内的智能音箱大战早已打响,从人工智能语音助手开放平台、Skill平台到内容生态,多方齐上阵。那么在底层技术上准备好的微软,有怎么样的布局呢?

李笛坦言到,他们很清楚自己在中国没有内容资源、落地平台的优势,但是,在人工智能的底层技术的框架上是有足够的信心。

Yeelight中的微软小冰目前具备的功能有:连续聊天、控制智能设备、日常查天气/时间、设置闹钟/提醒、唱歌、讲故事、读心术、猜歌名。陪聊和娱乐的功能很强大,但是目前还不能播放音乐、收听新闻、电台频道等内容。

而李笛说,虽然各个智能音箱都在强调自己的Skill有上百个,但是这些独立的功能,对微软来说是跟简单的,难的事情是如何能够构建出一个很完整的系统,这个我们已经做到了。我们缺内容,其他人缺好的系统。

李笛提到微软语音助手落地智能硬件的几个方面:

第一,我们提供AI的solution,跟其他的API相比,这个solution真正关注终端产品体验。

第二,提供一部分与AI sulution相关的内容,包括其它的资讯、资源进行整合。比方说它有相应的内容服务的东西,我们可以负责task trigger,像之前的米家生态链的APP就是,它的几十种设备,我们都负责对接。

第三,自创的内容。例如我们现在有的“小冰姐姐讲故事”。现在,90%以上儿童的可交互的机器人,都有小冰姐姐讲故事的内容。我们既是一个AI assistant,同时我们又是content provide(内容提供商)。

未来的智能硬件

在这次交流会,微软聊了很多底层技术的干货,给大家讲了新一代的对话是人工智能的进展,在某些方面着实让人兴奋。但是冷静下来一想,智能硬件的发展其实更为复杂,现在一切都尚未清晰。

虽说全双工语音交互这样的底层技术应用范围很广,但是大家目前争夺的焦点依然在于智能家居场景。音箱、电视、电冰箱、顶灯这些常见的家居设备,哪一个会成为日后的中枢呢?这些硬件里以后会有多少个AI呢?

微软小冰部门对硬件很冷静。李笛谈到,目前智能音箱的成功和AI的成功是两件事情,由于产品设计、价格、渠道、补贴等市场策略都会影响智能音箱的销量。但是我们也知道硬件都有换机周期,即使你现在拥有一个市场份额,但是等到有真正强大好用的AI出现时,你就很可能会被替换掉。

“尤其是在人工智能,包括像IOT这种设备,我们见过太多的。它其实有很好的入口,你不能不说siri有很好的入口,你不能不说国内的各个企业有很好的入口。但是有入口其实不代表你就能做出产品,百度那么大的入口,你也没有很好的产品的话,你何来生态。微软过去特别强调我们是平台,我们做很多平台。但是我们现在恰恰越晚谈平台化越好,我们希望把端到端先走通,我们能实现一个效果。”

但是,人们喜欢的AI助手究竟是什么样子呢?把各种Skill都塞到智能音箱,把智能音箱当遥控器、当播放器、当成各种工具就一定不受欢迎吗?所有人都会期望与AI助手有良好的聊天体验甚至情感交流吗?雷锋网在体验小冰一段时间后感觉到,小冰的聊天体验确实好于其他的AI助手,但是目前还不能播放音乐着实令人觉得可惜。以后的小冰会把各种技能都学到手吗,那个时候小冰还是小冰吗?这些问题都值得我们继续思考、探索。

在交流会的最后,大家还是免不了提到电影《Her》,畅想未来的语音助手如剧中的塞曼萨一样既可以帮助男主打理生活事务,又可以陪伴、交流给予情感的支持。嗯,还会自己作出判断,在合适的时机主动消失,做一个会让人心碎的girl的AI。


,微软温雅 发大招:要做智商和情商兼具的语音助手

相关:

苹果正在研发更灵活的可折叠iPhone电池原标题:苹果正在研发更灵活的可折叠iPhone电池 虽然2018年的iPhone产品阵容只包括目前型号的硬件升级,可能还有更大的Plus版本,但据信苹果正在研究未来几年的几项重大改进,包括电池的变化。 最近发现并被称为“灵活的电池结构”的专利表明,苹果一直在研究为其设备配备新型电池,从而实现一长串改进。 毫无疑问,灵活电池的第一个真正好处是让该设备改进设计,因为 iPhone 本身可以更接近灵活的外形。据传苹果正在探..

道德黑客建立网站 仅根据15个问题猜出您是谁原标题:道德黑客建立网站 仅根据15个问题猜出您是谁 来自比利时的道德黑客Inti de Ceukelaire又回来了。 De Ceukelaire建立了一个工具 , 可以在回答他的新网站“Oilsjt Analytica”中15个问题之后,非常可靠地告诉您是谁 ,这是对Cambridge Analytica最近Facebook丑闻的嘲笑。 这个网站在免责声明当中表示:本网站不存储任何个人信息。我的意思是,我们可以,但我们说我们没有。这位比利时编码者早些时候以..

《绝地求生》4x4新地图首测时间公布:4月3日开始原标题:《绝地求生》4x4新地图首测时间公布:4月3日开始   《绝地求生》官方微博今天发布了题为“代号: Savage地图测试即将到来!”的 官方公告 ,宣布将于4月3日-4月5日开始测试代号Savage的4x4新地图。一起来了解一下。 以下为官方微博原文: 各位玩家大家好,   如果一直关注PUBG,你可能已经看到了我们即将推出的4x4地图中的一些截图甚至是短片。我们曾告诉玩家,你们将有机会在很早的时候尝试新地图..

下月解禁:四月限售股解禁市值近2500亿摘要 据数据显示,4月沪深两市限售股上市数量共计183.67亿股,以周五收盘价计算,市值约2456.86亿元,较3月数量有所增多,但市值却少了近500亿元。从全年月度数据来看,解禁规模属中等水平。   据数据显示,4月沪深两市限售股上市数量共计183.67亿股,以周五收盘价计算,市值约2456.86亿元,较3月数量有所增多,但市值却少了近500亿元..

霍金私人葬礼在剑桥举行 数千人为其送行来源:视觉中国原标题:霍金私人葬礼在剑桥举行 数千人为其送行当地时间3月31日14时(北京时间3月31日21时),英国著名物理学家史蒂芬·霍金的葬礼在剑桥大学大圣玛丽教堂举行。其骨灰将于6月15日和许多著名科学家一同安放在伦敦威斯敏斯特教堂(也称“西敏寺”)。据BBC报道,仅霍金的家人、朋友及同事参加葬礼,不对外界开放,受到邀请的约有500人。包括“小雀斑”雷德梅恩等名流前往吊唁。尽管无法参与葬礼,但仍有数千市民..

影响世界华人希望之星大奖获得者琼中女足:希望再拿冠军3月30日晚,“世界因你而美丽--2017-2018影响世界华人盛典”颁奖礼在清华大学新清华学堂举行。以下为现场发来的文字实录:琼中女足发表获奖感言郑浩:大家好我是郑浩。再过几个月,2018世界杯足球赛就要开幕了,大家的目光又会集中在绿荫场上,为球员们的精彩球技欢呼呐喊热血沸腾,接下来我颁发的这个奖项其实和足球有着千丝万缕的联系。2017-2018年世界因你而美丽-影响世界华人希望之星大奖的获得者,来自中国海南琼中女子足球..

吴京:将继续拍好中国电影 向世界传播中国文化3月30日晚,“世界因你而美丽--2017-2018影响世界华人盛典”颁奖礼在清华大学新清华学堂举行。以下为现场发来的文字实录:吴京发表获奖感言周瑛琦:在这个春风幻化万物好日子的清华,我心目中成长发芽的地方。我刚刚走上主持道路,开始逐梦历程的时候我问过一个前辈,你觉得我应该在屏幕上呈现一个怎样的形象,他送我一句话:做好自己。做好这个自己,听起来很容易做到,可是想起来也不简单。做好自己不仅仅展现当下最真实的自己..

程开甲院士获颁“影响世界华人大奖”终身成就奖3月30日晚,“世界因你而美丽--2017-2018影响世界华人盛典”颁奖礼在清华大学新清华学堂举行。以下为现场发来的文字实录:程开甲女儿程漱玉代为发表获奖感言窦文涛:大家好,我是窦文涛。受大会委托,我来宣布今天第三个影响世界华人终身成就大奖的获得者,中国科学院院士,原国防科工委科技委常任委员,程开甲先生。1918年,整整一百年前,程开甲出生于江苏吴江。因为太爱玩,小学留级留了两年,得了个绰号叫"年年老板"。这样一..

孙杨 武大靖 苏炳添:让世界看到中国速度的无限可能3月30日晚,“世界因你而美丽--2017-2018影响世界华人盛典”颁奖礼在清华大学新清华学堂举行。以下为现场发来的文字实录:苏炳添发表获奖感言田川:三个人性格完全不同,但是他们绝对都是我们中国体育界的速度担当。我们请出颁奖嘉宾,他对于体育精神更加有发言权,掌声有请国家体育总局副局长赵勇先生。赵勇:很高兴为三位体育健儿颁奖。刚才两位主持人说他们三位共同点是快,其实我觉得他们更重要的是,他们三位都是中国第一个..

俄警告英国必须对搜查俄航做解释 否则“以牙还牙”图来自俄罗斯卫星通讯社原标题:俄警告英国必须对搜查俄航做解释 否则"以牙还牙"海外网4月1日电 当地时间29日,一架从莫斯科飞抵伦敦的俄航飞机,在希斯罗机场遭遇英国当局强行上机搜查,且没有收到任何理由。 31日,俄罗斯交通部表示,莫斯科将要求英国方面做出解释,并警告称,若不进行说明,将被视作违法行为,不否认对英国航空公司采取对等行动的可能性。据英国《每日邮报》报道,在俄航飞机遭无故检查后,俄罗斯要求英国..