光学传感器无视噪音,实现精准语音识别
2016-12-21
据麦姆斯咨询报道,VocalZoom是一家以色列初创企业,他们发明了一种光学传感解决方案,可以在噪杂环境中将人们的语音更精准地转换为数字信号。这项发明非常适用于紧急状况下的通讯服务,除了最初面向的车载语音识别应用,还可用于头戴耳机、智能手机、安保等一切跟语音识别相关的应用。
目前基于语音的人机交互系统(human-to-machine communication,简称HMC)的问题在于它们只针对人类进行了优化,而没有考虑机器。这些人机交互系统利用声学麦克风探测所有的声音信息,然后耗费大量宝贵的能源和时间运用降噪算法过滤背景噪音,再经过优化获得自然、悦耳、清晰的声音再现。
当人们在开车的时候,无论是人类还是语音识别系统,随着背景噪音的增加,可理解性和识别率都随即下降,这带来了糟糕的通话质量和错误的声控命令。
图1 行驶的车辆,随着车窗打开幅度和车内喇叭音量的提高,声控识别率通常逐渐降为0%。VocalZoom宣称他们的HMC传感器在相同的环境下,声控识别率可以保持在90%以上。
为了将人类的声音从环境噪音中完全分离,VocalZoom为其HMC传感器运用了一种低成本、低功耗的干涉测量原理。该传感器使用一个激光器来测量人们说话时脸部或者耳后皮肤的低频震动。为了降低干涉测量的成本,VocalZoom选择了牺牲测量距离,使用一款一级安全等级的垂直腔面发射体激光器(VCSEL),该激光器测量距离为1米,可以直接正对脸部进行皮肤震动探测。
图2 VocalZoom的HMC传感器应用了一项简单但专利保护的干涉测量技术,使用一款可以正对脸部测量的一级安全等级的垂直腔面发射体激光器(VCSEL)。面部震动改变了反射光束的相位,通过定制ASIC中嵌入的算法获得最终输出信号,信号再通过I2S接口输出。
该系统不仅可以改善手机通话质量、更精准更持久的接收语音命令进行声控操作,还可以用于近距离探测和测量心率。而且,每个人说话的嗓音和相应的面部震动都是独特的,所以该传感器还可以用于生物安全识别。
图3 VocalZoom技术的应用
“这一技术将改变人类与机器的交互方式。”VocalZoom销售和商业发展部副总裁Rammy Bahalul突出了该项技术的主要应用。但是,他还指出该传感器可以替换掉占智能手机成本10~20美元的传感器组件,包括近距探测、语音识别、生物识别(自带“存活证明”特性)等功能组件,同时还能提供更好的降噪效果,还能通过语音控制降低系统功耗。
为此,摩托罗拉选择该系统进行了试验,最后,摩托罗拉还成为了该公司的投资方。今年初,VocalZoom与科大讯飞签署了一项协议,将VocalZoom的人机交流(HMC)光学传感器与科大讯飞的“语音云”智能语音技术平台相结合。
“该传感器自身功耗在毫瓦范围内,” Bahalul说道,“成本大约1美元。”激光器的成本在1美元左右,ASIC的成本低于1美元。首批原型系统应该在今年第三季度准备就绪,Behalul预计第一批产品将于2017年年初上市。