新的车载语音,真的很神奇
2017-08-05
语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态。
越来越多的人开始确信,语音的彻底主流化已经不是一个需要讨论的问题,只是一个时间和习惯转移的问题。
语音交互的价值,在过去几年的发展中,逐步走出单纯“控制方式”的狭隘理解,并成为业内人眼中的“新入口”,有机会 连接全新的产业生态。
作为被连接的核心硬件之一,汽车领域语音交互平台的争夺战也已进入白热化状态。车载环境,极有可能优先成为用户固化语音交互操作习惯最典型场景。
竞争仍在继续。然而,随着核心技术的产业环境的推进,关于车载语音交互平台的竞争,已经从自然语言处理(NLP)+自然语言理解(NLU)引擎能力的竞争,衍生向数据和计算能力+资源整合能力的下一步竞争。
在这个过程中,谁将胜出?
语音平台有望成为“新操作系统”
2014年11月6日,亚马逊第一款智能音箱Echo在官网悄然上线。借助产品本身的软硬件实力,智能家居配套设备的逐渐成熟,以及开发者针对Alexa平台开发的数千种服务,Echo短期内名声大噪,在不到两年的时间内实现了超过千万台的销量。
今年6月,苹果开发者大会期间,苹果公司CEO蒂姆·库克正式揭开了HomePod的面纱,这款姗姗来迟的语音智能音箱,承载了苹果对抗亚马逊Echo的期望。
蒂姆·库克很清楚,表面看起来一场智能音箱“卡位战”的背后有着更深层的竞争:在人工智能(AI)迅速发展的大背景下,语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态,包括各类服务应用、各类硬件。
各类硬件中,除了智能家居设备外,汽车产品对语音平台的需求最显而易见。并且,由于目前用户所习惯的点击、滑动等触摸型交互方式在车载环境下存在潜在安全隐患且并不完全好用,因此语音这一天然适应车载环境的交互方式,成为车内固定操作习惯的可能性非常之大。
目前,包括美国语音技术巨头Nuance、国内相关公司科大讯飞、云之声、思必驰、出门问问等等,均在车载语音交互领域进行探索和布局。例如,在去年阿里上汽的首款产品荣威RX5上,Nuance的车载语音交互系统得到搭载、科大讯飞与奇瑞自2015年起始终在密切合作、出门问问与大众汽车集团(中国)成立合资公司。一时间,车载语音交互站上了时代的风口。
亚马逊第一款智能音箱Echo
车联网支撑车载语音交互发展
事实上,车载语音交互的发展,与车联网近些年的快速发展密不可分。
在业内常用的定义中,中国车联网如今走过了三个典型发展历程:
第一阶段:以最初的Onstar、Gbook为代表,核心是围绕呼叫心中的导航等功能。
第二阶段:前装+后装的“乱战阶段”,前装浅尝辄止,后装见缝插针,一时间车联网概念开始广泛传播,但真正好用的产品不多。
第三阶段:以阿里上汽合资为代表,车厂合资模式下的资源产品深度开发和资源强强整合,开始在实际使用层面落地一些好用的前装车联网产品和服务。
对应来看,车载语音交互也经历过三个发展阶段,如果用体验层面的关键词来描述:
第一阶段好像“吐字”:例如当时出租车报价器中一个字一个字的播报,是固定程序的单向输出,并不是真正意义上的车在语音交互。
第二阶段在于“识别”:用户在这一阶段可以进行语音输入,但总被一件事情困扰,系统常常“听不太清、听不太懂”。
第三阶段则是“可用”:语音系统开始听得清也听得懂,并且用户能够通过该系统体验一些服务。
不难看出,车载语音交互目前的发展阶段与车联网整体的发展阶段处于平行位置,位于起步初期,从“可用”到“好用”的过程中。值得注意的是,和以往任何时间节点都不同,随着人工智能相关技术的迅速发展、产业链资源的整合意愿增强、用户行为习惯的逐步养成,车载语音交互体验正在进入提升快车道。
量产车搭载语音交互产品的比例逐年提升
优质车载语音交互体验是怎样的?
云之声CEO黄伟曾和车云谈起苹果Siri,过去大家都把Siri想象语音助理,助理应该什么都会做,什么都能做,但实际上它做的并不好,“希望用一个相对来说有限的人工智能解决非常开放的需求,这本身很难做到”。
但是,随着时间的推移和技术的发展,用户在车内这一“相对比较封闭的开放环境中的开放需求”,将很快被满足。在研发层面,各方考虑的早已不是如何让系统更清晰的识别用户的语音指令,而是如何更好的接受指令、更细的理解指令、更快的做出反馈。
更重要的是,越来越多的相关开发者意识到,语音只是工具,需要连接相应的服务和应用。这些服务和应用为语音而生,目的不是推给用户一堆信息,让用户自己寻找答案,而是直接帮助用户把事情办成。
车内语音系统,正在成为一位真正的“助理”。一些实际的成果也正在落地。
去年底,科大讯飞发布智能车机系统——飞鱼助理。该系统搭载的语音交互支持多轮对话和中途打断,不用多次唤醒就能调用导航、音乐、拨打电话等功能。科大讯飞智能汽车事业部负责人刘俊峰向车云展示了两个场景。
场景一、联系上下文对话。
用户:“我想听甜蜜蜜”
系统:请欣赏邓丽君演唱的《甜蜜蜜》
用户:“试一试鹿晗唱的”
系统:请欣赏鹿晗演唱的《甜蜜蜜》
用户:“我想听他和陶喆合唱的”
系统:“请欣赏鹿晗陶喆的合唱歌曲《请到长城来滑雪》”
场景二、语音纠错和随时打断。
用户:打电话给黄老师
系统:好的,即将为您接通……(数秒等待后接通“讯飞黄老师”)
用户:(打断)不对,是黄昕黄老师
系统:好的,即将为您接通黄昕(数秒等待后接通“黄昕”)
用户:确定
在车云看来,上述场景相比现有车载语音产品而言,主要优化点在于“接收信息+反馈信息”层面,这属于产品优化的第一层。
在进一步的发展中,随着基础能力的提升,服务的整合能力将成为关键能力,车载语音系统不仅可以听懂、反馈,更可以“预判+执行”。 语音交互只是手段,不是目的,交互的目的是为了让机器更好地完成任务。
目前,在博泰集团最新一代的车机产品中,基于周边服务的整合,语音系统已经可以开始预判用户的需求,并帮助用户实现需求。具体而言,例如用户语音搜索目的地电影院,那么系统除了快速弹出电影院推荐、结合导航时间进行场次推荐外,还能直接帮助订票、选位。
再以一个场景举例:
用户:“帮我找个新街口附近看电影的地方”
系统:“为你找到如下影院……请问要选哪一个?”
用户:“万达那个”
系统:“即将导航至南京万达国际电影院……为你推荐近期的高分影片,《战狼2》9.5分,万达国际电影院最近的场次17:10开始,票价35元,根据当前路况正好可以赶到,是否需要提前订票选座?”
用户:“好的,我要最后一排中间的2个位置”
系统:“该场次最后一排中间区域已满,更换为倒数第二排中间2个位置可以吗?”
用户:“也行”
系统:“支付成功,万达国际电影院4号厅9排6号与7号,订票信息与取票二维码已发送至手机,到达影院后可以用二维码在自动取票机上快速取票,祝你观影愉快”
这当然还不是全部。当语音系统与汽车本身结合更紧密时,还会带来其他层面的想象力。例如用户直接通过语音控制车辆,设定车内空调的温度、开关天窗、启动汽车、开关车门等等。当然,这需要车企层面更高的开放度。目前,大众、福特、现代、宝马等公司均已不同深度的尝试引用亚马逊Alexa语音服务运用。
核心竞争点在于数据和计算能力
上文提到了车载语音系统在未来不久能听懂,反馈,亦可以“预判+执行”。那么一个问题随之而来,想要做好这些,车载语音系统需要提升哪些核心能力?
车云将该问题抛给了多位语音行业的专家,各方给出的结论比较一致——前期在于自然语言处理(NLP)+自然语言理解(NLU)引擎的能力,后期在于数据和计算能力+资源整合能力的提升。
更具体的说,NLP+ NLU引擎的搭建,能够帮助系统听清并听懂大部分的语音,但语音太过复杂,同样的句子甚至在不同的情景下都可以表达不同的意思,这就需要系统不断的录入数据,自学习,并拥有极强的计算能力以处理大数据。此外,就好像上文提及,语音交互只是手段,不是目的,交互的目的是为了机器更好地完成任务,因此与亚马逊Alexa平台一样,车载语音交互平台同样需要整合各种为语音而生的原生服务及应用。
这让车云想起阿里上汽打造荣威RX5的例子。阿里巴巴技术委员会主席王坚曾告诉车云,实际上YunOS操作系统做的最成功的事情,是作为重要的载体和介质,把阿里云的计算能力带上了车,包括CPU的运算能力,还包括存储能力、传感能力等等。这是最底层的能力,也是最重要的能力。
上汽与阿里的合作从效果上看非常成功。图为:阿里巴巴董事局主席马云(右)、上汽集团董事长陈虹(左)
事实上,王坚在车载系统上的思考,和业内现阶段业内在车载语音交互上的思考,异曲同工。
以博泰的思考为例。7月6日,博泰与百度达成合作,将在DuerOS开放平台、百度云,以及阿波罗计划方面建立深度合作关系。博泰集团创始人及董事长应宜伦明确表示,此次合作的一个关键点,就在车载语音交互层面。
一方面,基于百度云的强计算能力,车载语音交互产品可以实现实时更改与聆听,速度提升多倍。打个比方,如果此前是一台计算机包办“输入、理解、输出”工作,那么计算能力提升后,则是三台计算机,一台“输入”,一台“理解”,一台“输出”,三台平行处理。
另一方面,百度最宝贵的资源就是数据,其中一些对于出行而言有很大价值,包括个人习惯和生活经验等,如果将这些数据进行结构化,缓存到可以被快速调用的云端区域。假设用户在车内通过语音提出相关问题,则这些数据便可实时发挥价值。这可以被定义为车载语音平台听清、听懂后,直接解决问题的能力。
过去常有人说,车载语音交互技术发展将会是一个缓慢发展过程。现在看来,至少这一进程比预期来得要快。并且,随着核心竞争点的逐步转移,聚焦在车载语音交互的领域,大玩家之间联盟只会越来越紧密。