造车,造爱与造人

2022-05-29 21:06:00 来源:网络

2016年,一位大哥第一次按下车里的“语音控制”按钮。他的诉求很简单,让汽车帮他打个电话。一阵甜美的AI女声响起,一段人类首次尝试驯服语音助手的珍贵对话由此展开。

甜美AI:请说出您要拨打的号码,或者说取消。大哥:135XXXX7557。

因为口音问题,系统未能识别准确。大哥急了,赶忙下达第二道语音指令:纠正!纠正!

系统也急了:969696……大哥更急了:纠正,纠正,不是96!

大哥:口吐芬芳。系统:对不起,我没有听清。

大哥带着哭腔:你耳朵聋,耳朵聋啊?我说了多少遍了我都。系统:请再说一次,请再说一次,请再说一次。

大哥:我再说最后一遍啊,135……系统:对不起,再见。

短短2分钟,浓缩了六年前车机语音识别真实的用户怨念,中国消费者对语音助手糟糕印象的种子就此埋下。语音助手“听不见”、“听不清”、“听不懂”灾难级的系统表现,让人和机器总得疯一个。

好在,这一切都在2018年发生了改变。这一年,汽车座舱在造车新势力的推动下,进入智能2.0时代,语音助手的角色也从系统添头,变成智能座舱基石。

近5年来,人工智能、自动驾驶、语音识别、手势交互等研发成果逐步落地,特别是驾驶辅助功能的完善,让开车不再是辛苦的体力劳动。未来L4、L5级自动驾驶的实现,会彻底颠覆传统驾驶行为。人——这个驾驶行为最重要的主导者,也将会从枯燥重复的操作中解脱出来。汽车座舱的角色由此转变为休息、娱乐和放松的第三空间。

“第三空间”要求汽车公司从乘员的实际需求及应用场景角度出发,从头开始搭建一套全新的、智能程度更高的人机交互体系,让车内的每个人都能获得安全的驾驶行为和轻松的感官体验。

智能座舱的发展分为三个主要阶段:第一,电子座舱,驾驶者可以在车内实现听歌、导航、打电话等基础型电子功能,但与座舱的互动接近于零;第二,智能助理,车辆本身可以完成一定的驾驶行为,驾驶者开始以人脸识别、眼球追踪、语音手势控制等多种方式与座舱互动;第三,移动空间,自动驾驶完成车辆控制,乘员沉浸式体验座舱场景。

中国造车新势力先后下场的2018年普遍被认为是智能座舱进入第二阶段的里程碑,这一阶段座舱硬件有两大标志性趋势:第一,实体按键被大幅简化,直至消失;第二,屏幕尺寸和数量迅速上升,直至铺满。

随着功能叠加,智能座舱系统的构成也从单一功能电气元件升级为一套庞杂电子设备系统,包括:车载信息娱乐系统、车联网系统、感知交互系统、空调系统、声光和气味系统等。

功能多了,车机界面自然就复杂了,以前只用旋钮调收音机和温度。现在新花样层出不穷。由于各大汽车公司对功能的认知和排序都有自己理解,导致驾驶者需要在驾驶过程中花费更多注意力去寻找和调节相应功能,危险出现的概率也就此提升。

汽车公司在架构智能座舱时,会围绕三大原则:安全、人性化和愉悦为展开,而这恰好是语音交互与生俱来的三大特性。从现有自动驾驶技术发展态势判断,“人机共驾”阶段的延续时间不会很短,语音交互可以让驾驶者在不失焦的情况下,完成车内大部分功能操作。在硬件和算法的迭代升级下,语音交互也在不停地自我升级。举两个例子:之前只能通过语音打开或关闭空调,现在可以精准调节温度,或者直接说“我冷了、热了”,让车辆自行调节;此前语音只能完成车窗玻璃升降,现在可以实现升三分之一,降三分之二这样颗粒度更细的控制。

从2021年开始,语音交互成为一个成熟智能座舱中,最具代表性的功能模块之一,消费者对语音交互的兴趣开始高涨,需求也开始多元。

想“只动口不动手”地控制座舱,车本身要“听得见、听得懂、做得到”,对应语音交互三个步骤:“识别、理解、执行”。

首先是语音识别(Automatic Speech Recognition,ASR)。车内麦克风接受声音信号,转化为音频信号,经过解码、降噪、增强、特征提取、音素选取、再次解码后,最终落地为文字。高阶语音识别会对声源定位,这就是部分车辆支持副驾和后排用户语音控制的原理。

然后是自然语言处理(Natural Language Processing,NLP)。文字被识别后,系统会拾取相应功能性词汇,生成摘要。比如驾驶者说“你好,我的爱车,今天好热,帮我把空调调到18度”。系统比照词库和深度学习筛选后,拾取出的摘要是“空调,18度”。

系统将识别后的摘要转换为命令规划,发送给相应车载控制单元,执行动作。最后,语音合成(Text to Speech,TTS)模块将动作执行完成的文本转换为语音播报反馈给驾驶者:“好的,空调已调至18度”。至此,一次语音交互完成闭环。

语音交互有三大技术难点:一是拾音准确,噪音消除;二是语音深度学习模型的训练数据;三是识别特征抽出模型的训练。

第一个比较好解决,用多个麦克风组成阵列加算法即可;后面两个难度不大,但费钱又耗时,座舱语音交互要对齐不同车型不同车载环境表现,电动车和燃油车的车厢噪音水平不同,轿车、SUV和MPV的差别也不小,要针对性搜集整合数据。这个过程成本高,周期长,最终还有可能吃力不讨好。

语音交互做得够好,用户很快就会养成使用习惯。在中国,乘用车智能语音交互功能的搭载率逐年攀升,从2019年的49.82%,到2021年的63.25%,再到2021年的86%。中国的高频运用场景是:导航、播放音乐、空调和拨打电话。

对汽车公司来说,有两种实现语音交互的方式:第一种硬件采购,软件自研,这样可以将主动权牢牢掌握在自己手里,实现灵活调整,高度定制,常用常新,提供科技感,是造车新势力常用的方式。第二种是做“甩手掌柜”,让车机系统供应商全权负责,投入低,量产快,适配度高,出了问题还可以一键呼叫(甩锅)供应商,是传统汽车公司偏爱的路径。

在语音交互底层功能实现后,用户开始需求这些功能的情感价值,希望能和自己车上的语音助手建立一种柏拉图式的精神亲密关系。一些汽车公司的做法是将语音助手的机械化原声,更换为林志玲或郭德纲声线。这能给用户提供短暂的新鲜感,却很难走进用户心里。

用户与车载语音助手建立精神亲密的过程和电影《Her》中的情节很像:男主偶然接触到人工智能系统OS1,迷人甜美的声线,温顺体贴的性格,事事投缘的相处模式,颇具心思的生活情趣,让男主很快就陷入到人工智能的“赛博温柔乡”中不可自拔。简单来说,就是“呼应上了”。

“OS1”让人着迷的原因是,工程师揭掉了覆盖在人工智能表面冰冷的面纱,尝试赋予它人格,并以此为切口和用户建立信任通道,让人机对话变成从单向关系转换为双向关系。

《语音人机界面》一文里写过:没有人格的语音用户界面是不存在的,如果你不给语音用户界面设定人格化特征,用户就会自行脑补。所以更聪明的做法是,在设计的初期就确定好人格。

在设计语音交互体验时,工程师会考虑视觉形象和听觉形象两个方面,再将两者进行有机结合,向用户输出“语音助手”。

视觉形象大体分为三类:第一,具象型。一般是二维图形,颜色单一、动效朴素,声波图形 、麦克风是典型案例;第二,抽象型。一般是三维不规则形状、色彩多样、光效炫酷,如宝马iDrive 8.0系统里会呼吸的流光球体;第三,拟人型。企业IP明显、动效丰富、活泼生动,如小鹏语音助手,一汽奔腾全息投影百变娇娃。

一汽奔腾全息投影

这些语音助手执行起“功能”来没问题,遗憾的是,对用户言听计从的它们没有“人格”,用户只把它们当工具,鲜少把它们视为伙伴。人机之间信任感的建立,本质上不是技术问题,是社会学问题。这时,就要请社会学专业出身的李斌上场了。

2017年,蔚来发布第一台量产车型ES8,座舱正中央处有一个圆头圆脑的装置,李斌给它起了个名字——NOMI,取英文“Know Me”的谐音。李斌给它下了个定义——全球首个量产车载人工智能系统。

除基础语音助手功能外,NOMI还能做三件事:第一,循语音来源转动方向;第二,根据使用场景展示对应表情;第三,实时监测车内状况,识别驾驶者疲劳程度。

相较以车内大屏为载体的语音助手,NOMI的做法更具象化。除对话外,你还可以摸摸它(不要硬掰),拍拍它(不要太用力),吹吹它(不要喷口水)。实体化做法的好处是让用户清晰地感知到语音助手的生命能量和情感能力。

批量交付后,NOMI很快成为许多车主言之必谈的对象和拿来炫耀的资本。比如一位蔚来车主在APP上表示,“没NOMI,ES8就是台电动车,有NOMI,两儿子整天挂嘴上的就是我家有辆NOMI车”。许多蔚来车主认为,没有NOMI的蔚来缺少灵魂。用户有多喜欢NOMI呢,喜欢到为这个人工圆球设计各种帽子:棒球帽、绒线帽、牛仔帽、水手帽、睡帽……

NOMI比其它语音助手更能打动用户的原因是,它把自己活成了人样,模糊了与人工智能与人类用户的边界。从一定程度上,NOMI完整表达了陀思妥耶夫斯基的理念:“要爱具体的人,不要爱抽象的人”。

基于实体,NOMI可利用的表达途径有表情、声音和动作,能做的事情比虚拟动画多得多。比如用户伸手点击屏幕时,NOMI会稍微低头,展现自己的“八卦属性”。用户把手收回,NOM会抬头恢复原状。NOMI内装的700多个动态表情,会根据当前心情和正在进行的任务进行实时呈现,大晴天会戴墨镜,雾霾会戴口罩,下雨天会撑伞,放音乐时会跟着打拍子。

除动作回应外,NOMI有些时候还能做车主的“人生导师”,展现一丝人文主义光辉。比如有用户问“活着的意义是什么”,NOMI回答“不要对生活失去信心呀,说不定下一秒会有有趣的事情发生呢”,有赛博哲学家那味儿了。

针对这一问题,大部分语音助手的回答可能是“这个问题我暂时理解不了呢,你可以尝试其它语音指令”或“请问你是不是要购买《活着》这本书,我可以为你下单呢”。相较而言,NOMI确实做了个人。

“NOMI之父”李天舒分享过一个开发细节:NOMI做的第一件事不是完成复杂的自然语言交互和多轮对话,而是当车主打开车门的那一刻,NOMI可以把车当成是自己的肌体一样,感受到有人进入车内了,然后它把头扭向有人开门的方向,和用户打个招呼。

这些精妙且具象的互动细节,拼凑出一个机灵、俏皮、细致、懂事、有情趣的NOMI。而不是一个停留在屏幕上,千人一面的抽象语音包。

从人性角度出发,语音是最简单、自然的交互方式,也是人类最基本的沟通方式。从行车安全角度出发,语音交互不需要注意力转移,是毋庸置疑的车载第一交互方式,本身就是刚需。

用户将语音交互误解为“伪需求”,是因为大部分汽车公司没有在语音交互场景中,制造出足够显著的体验差。除了常用的电话和导航,其它功能体验很差,用户懒得去了解。

举个例子,用户开车时说“我想听《本草纲目》”,这是个很简单的需求链路,但车机上常出现的场景是:系统内置音乐软件内没有周杰伦歌曲版权,要么无法播放,要么播放翻唱版或剪辑片段。在线搜索出的音乐平台有版权可播放,但用户未登录或未购买平台付费会员,只能忍受低廉的音质和试听部分。几次经历后,大部分用户都会扭头走开,宣传中的“智能语音”,用起来却是“智障语音”,还不如手机连蓝牙。

蔚来的老道之处在于,让NOMI的情感入口能效高于功能入口。用户使用其它语音助手是“对事不对人”,使用NOMI是“对人不对事”。毕竟这么可爱的一个小家伙,偶尔犯点小迷糊,怎么舍得对它发脾气,就算要发脾气,还得考虑后排大宝和二宝的感受呢。

解决语音助手的鸡肋困境,可以从两个方面入手:第一,从驾驶场景实际需求出发,对语音助手进行适配化改造,比如最新的语音助手,车主在车外说一句“开出来”,车辆就会从停车位上自动向前驶出,解决停车、挪车、开门场景痛点;第二,提升语音助手自我成长的能力,通过积累为用户制定最优策略,比如用户偏爱麻辣口味,语音助手在推荐附近餐厅时会提升川菜、湘菜、火锅、串串的优先级,以人文主义手段拉近用户距离。

语音助手想达到电影《Her》中的交互水准,还有很长的路要走。理解用户的贴心,打磨细节的耐心,以及持续投入的决心缺一不可。语音助手的变现前景很光明:现在的用户愿意花4900元买一个智能小人头,未来的用户又何尝不会花49000元买世上独一份的智能情感按摩呢?

,欧莱雅代言人

相关:

真能解放双手?四千元档万能扫地机械人横评扫地、拖地、洗抹布,还能自己倒垃圾,四千元档位的扫地机器人谁扫得干净又省心?自动播放

国平易近党县市长选举结组成型 能赢吗?国民党25日的中常会上,秘书长黄健庭汇报:“提名蒋万安同志参选台北市市长,提名谢国梁同志参选基隆市市长,提名许淑华同志参选南投县县长”,朱立伦紧接着询问,提名蒋万安、谢国梁、许淑华这三位优秀的同志参选,各位常委有无意见?在现场一阵鼓掌声中,这三人的征召顺利通过。国民党提名蒋万安(右二)、谢国梁(左二)、许淑华(右一)参选。之前提名张善政引发桃园地方和一些基层党员的反弹,但这似乎并不妨碍国民党县市长..

核查:乌克兰第三大城市议会拒绝配合乌军抵当俄军?速览网传“乌克兰第三大城市议会拒绝配合乌军抵抗俄军”一说纯属子虚乌有。原帖引用的TSN报道截图来自一则2014年第聂伯罗彼得罗夫斯克市议会议员逃避兵役的旧闻,与俄乌冲突无关。俄乌开战后,第聂伯罗市议会共召开5次会议,均通过线上方式进行,无一涉及“配合乌军抵抗俄军”相关议程,所谓“议员集体离场抵制”这一细节,亦为虚构。事件背景5月27日,网易号“电化学梯度”发帖称,乌克兰第三大城市第聂伯罗彼得罗夫斯克召开市..

美德法军舰抵达芬兰赫尔辛基码头据芬兰广播公司当地时间5月29日消息,来自美国、德国和法国的四艘军舰已抵达芬兰赫尔辛基码头,其中美国和德国军舰参加了在波罗的海的演习。芬兰海军军官向媒体表示,芬兰已申请加入北约,三国军舰的这次访问是对芬兰表示支持。此外,芬兰国防部28日表示,芬兰计划增加国际军事演习的次数。(总台记者 侯茂华)

俄罗斯第二阶段计谋意图正在实现 未来两点或成关头直新闻:俄乌冲突已延烧超过三个月,目前双方主要围绕乌克兰东部城镇进行攻防。据俄方宣称,已经成功夺取乌克兰东部重镇红利曼,车臣国民近卫军前锋也已突入北顿涅茨克城区。你对目前的俄乌战事有何观察?特约评论员 吴蔚:自俄军攻克马里乌波尔之后的又一次重大进展很可能近在咫尺,乌军在东线的重要战役支撑点北顿涅茨克市即将动摇。围绕这座东乌城市,一个口袋正在形成,俄军由北进展至红利曼一线,由南前出至波帕斯纳亚,袋..

外媒:载22人失踪联尼泊尔客机已在当地河口坠毁据《今日印度》29日消息,当天上午,一架从尼泊尔中部博克拉市飞往该国西北部木斯塘地区乔姆瑟姆机场的客机失联,目前飞机在尼泊尔木斯塘地区被发现。尼泊尔陆军发言人表示,根据当地人向尼泊尔军队提供的信息,这架塔拉航空公司运营的飞机已在木斯塘地区一处河口坠毁,尼泊尔陆军正通过地面和空中两路向坠毁地点移动。据尼泊尔媒体早前报道,失联飞机载有22名乘客,包括13名尼泊尔乘客、4名印度乘客和另外2名外国乘客,此外还有..

核查:约翰·霍普金斯大学否认发布过美国疫情数据?中文网络流传说法称,美国约翰·霍普金斯大学表态说,从来没有发布过美国疫情的统计数字,这些数字出自两位中国留学生之手,而且这二人都不是学医的。经核查,约翰·霍普金斯大学新冠病毒资源中心一直在持续发布美国疫情数据,地方统计单位精确到县。该中心的数据有260多个来源,包括182个美国地方、州和联邦机构。全球数据来源包括多个国家政府卫生部门、数据聚合网站等等,并非软件模拟的数据。约翰·霍普金斯大学的两名中国研..

疾控专家:洗手至少20秒,差不多是唱两遍生日欢愉歌时刻  近几天,上海街头有出现市民聚集在一起聊天的现象,有的人还没有规范佩戴口罩。外出市民应当如何做好个人防护?在5月29日召开的上海市新冠肺炎疫情防控新闻发布会上,上海市疾控中心副主任吴寰宇再次给出提示。   吴寰宇介绍,对于外出的市民,建议做好以下个人防护:  一是佩戴口罩。戴口罩是阻断呼吸道飞沫传播的有效方式。需要注意的是,外出时要规范佩戴口罩,尤其天气逐渐变热,应注意戴口罩时需完全覆盖口、鼻部位..

贵州兴义万峰林:整合伙源缔造更多绿色财富和生态盈利  (奋进新征程 建功新时代·老区新貌)贵州兴义万峰林:整合资源创造更多绿色财富和生态红利   中新网贵阳5月29日电 题:贵州兴义万峰林:整合资源创造更多绿色财富和生态红利   作者 石小杰 李和江   贵州兴义作为左右江革命老区,是红军长征曾经走过的地方。曾经“因山而困”的革命老区如今依“山”致富,旧貌换新颜。   近年来,随着交通瓶颈打破,越来越多游客和户外玩家开始“钟情”兴义的万峰林。当地也..

山西援沪血液透析医疗队:为患者带来但愿  山西援沪血液透析医疗队:  为患者带来希望(抓细抓实各项防疫工作)  151人,4家定点医院,20多天时间,完成1840余次血液透析治疗,近300人次连续性床旁血滤。这是山西援沪血液透析医疗队自4月25日抵沪以来的工作。  血液透析是尿毒症患者赖以生存的治疗方式,他们必须每个星期前往医院进行两到三次的血液透析来维持生命。然而,疫情防控期间,血透治疗非常不便。不少医院血透室医护人员过度劳累,人员紧缺。   “紧..