物联网音视频应用快车道
2016-06-28
作者:钟贵锋
来源:智慧产品圈
引言: 苹果、Google、亚马逊等科技巨头一致看好的智能音箱市场,国内厂商应该如何布局呢?Mediawin一站式音视频解决方案,让国内客户快速跟上国际大厂的脚步。
最近,智能音箱确实“火”了。在今年的Google I/O大会上,内置Google Assistant语音助手的智能音箱Google Home让人印象深刻;在2016 Code conference上,亚马逊的Echo智能音箱也被“摆上”台面;据悉苹果也将推出集成摄像头、SIri语音助手的智能音箱。各大巨头纷纷登场,Facebook、百度、腾讯…相信也已经不远了!
实际上,智能音箱也仅是音视频应用于物联网领域的冰山一角,还有大量的新兴应用,比如智能机器人、智能门铃、VR/AR、智能电烤炉、智能冰箱、车载后视镜等,都需要视频技术的支撑。由此可见,在物联网时期,音视频应用正迎来“爆发式”的增加,眼睛和耳朵将无处不在。
“戴上”耳朵和眼睛,智能硬件世界将会怎样
智慧教育
传统的课堂教育都是老师在上面讲,而学生在下面听;在线教育灵活方便,在任何地方、任何时间都能进行学习,并且自由控制学习进度。
智慧监控
传统的监控方式只是将视频存储在服务器,发生案件之后才去翻看视频内容;智慧监控不仅能在线警示,还能进行人脸识别、移动监测、实时通讯等功能。
智能儿童陪伴机器人
一般的玩具缺乏趣味,没有任何互动的功能;智能儿童陪伴机器人能够讲故事、播放歌曲、实时拍照、语音交互等功能。
智慧汽车
功能型汽车的驾驶情况完全依赖于司机的状态,疲劳驾驶、分心、操作不当都可能导致意外事故;无人驾驶汽车是计算机系统,能360度全方位的看到路况,减少事故和人员伤亡,同时缓解交通压力。
智慧音响
一般的音箱只能播放音乐,没有连接互联网上海量的资源;智能音箱不仅能联网,还可以进行语音交互,作为家庭控制中心,从而通过语音控制家庭中的其他智能设备。
不过,现在的产业面临着融合发展的趋势,没有一家公司能面面具到,也很难从技术、市场到产品都自己搞定。经过《智慧产品圈》的调研发现,深圳有一家公司迪韵科技,可以在物联网音视频领域提供一站式解决方案,其Mediawin平台为传统行业以及硬件企业提供“耳朵”和“眼镜”方案,仅需3个月就能让客户的产品完成智能化升级。
云+管+端一站式解决方案,轻松帮助客户“戴上”眼睛和耳朵
为了帮助客户更快实现音视频应用,Mediawin方案平台整合了多方面的资源,比如与多家声学器件厂商合作定制了麦克风、喇叭等声学器件;与专业芯片厂商合作开发了深度优化的音频处理算法;与语音识别方案商合作提升语音识别的准确率;接入第三方的平台提供更多的音视频应用功能等。
图:迪韵科技市场总监孙强
基于此,迪韵科技营销总监孙强表示:“Mediawin专注于为客户提供“云+管+端一站式音视频解决方案”,也可以根据客户的不同需求,比如白牌企业可能需要完整的音视频解决方案、大企业可能仅需要底层处理算法支持、方案商需要整合专业的处理算法+云平台资源等,提供定制化的软硬件方案服务。”
Mediawin云+管+端一站式解决方案
在设备端,Mediawin平台针对各种嵌入式产品,拥有完善的硬件解决方案,比如专业的音腔设计、音视频器件选型、声学场景优化、音视频模组等,能帮助企业简化6大音视频开发难题。另外,在云平台方面,不同市场对音视频云平台的需求会有所差别,比如在线教育需要一对多实时在线高并发的模式,监控需要声源定位、人脸识别、语音激活等功能,音乐需要海量在线资源与点播功能等。为此,在深入了解不同市场需求的基础上, Mediawin进行了深度优化和定制化。孙强继续向《智慧产品圈》记者表示:“Mediawin平台内部集成了监控云、教育云、音乐云、实时通讯云等子云平台系统,根据应用行业的需求优化子云平台的功能和架构,以满足不同行业的需求。”
Mediawin的6大解决方案
就拿常用的智能机器人多媒体部分为例,Mediawin平台不仅能在设备端提供MIC阵列模组、摄像模组、机器人声学结构设计、声学器件选型等硬件方案和服务,也提供回声消除、噪声抑制、语音打断、声源定位、人脸识别、美颜、移动侦测、人脸识别等软件音视频处理算法,以及网络传输协议、音视频编解码、传输延时监测等多媒体传输技术,云端还有设备注册管理、多方视频会议、PSTN落地、云监控、云录像、云直播等功能,从设备端、传输管道、再到云平台的一站式设计服务。
因此,在智能监控、机器人等物联网市场,Mediawin平台已经拥有了成熟的合作案例,比如奇虎360的智能摄像机,北京智能管家的布丁机器人,深圳市蓝机器人科技的IONE机器人等智能产品。
“千里眼”“顺风耳”没那么简单,Mediawin背后解决了哪些技术难题
音视频传输延迟严重不同步:迪韵科技首席技术官彭远疆说道:“由于网络环境的影响,音视频数据包在网络上传输会面临各种挑战。首先,一般实时音视频流采用UDP传输协议,容易发生丢包的情况,导致接收端花屏和语音失真。其次,每一个数据包从发出到被接收的时间都是不一样的,所以需要在接收端引入缓存机制。不过缓存越长,抗网络抖动的效果自然越好,但是附加延时也会越大,采集端和接收端的时间差越明显,在需要音视频互动的场景中体验效果非常差。最后,由于网络带宽的限制,丢包率和卡顿概率都会急剧提高。”
图:迪韵科技首席技术官彭远疆
网络传输算法是“杀手锏”:Mediawin平台在RTP/RTCP传输协议的基础上,建立了适合智能设备的流媒体网络传输算法模型,通过对每一帧的发射/接收时间进行统计分析,实时估算出当前网络的延时、丢包、带宽等数据,并通过实时调整编码码率、缓冲长度、重传策略等,确保在各种复杂网络环境下的均能保持良好的音视频传输质量。另外,由于采用了国际标准的SIP/ONVIF接入协议和TLS/SRTP安全协议,Mediawin平台不仅能接入各类音视频硬件,同时也为最终用户提供了金融级的安全保障。
音视频处理效果差,产品体验不佳:由于受到周围自然环境的影响,比如强光背景、低亮度环境、汽车噪声、声音反射等,硬件设备端采集到音视频流需要经过复杂的算法处理,才可能拥有较好的画质和音效。彭远疆表示:“音频前端如回声和混响消除、噪声抑制、拾音音量自动调节等算法均是难点。如若涉及多人视频,还需要解决多人语音的混音、视频混屏和切换的问题,并且需要保障音频和视频的时间差低于300ms,否则就会出现唇音不同步的现象。”
设备+云联动音视频算法“杀手锏”:深度优化了底层的音视频算法,比如音频回声消除、噪声抑制、视频降噪、白平衡控制、曝光控制等,在提升效果的同时还能够适应各种不同的软硬件平台。
不过,在音视频处理的过程中,不可能将所有的算法都放在设备端,而应该根据实际应用情况,合理的分布在设备端和云端。彭远疆表示:“Mediawin的音视频云平台采用了大规模的分布式网络技术,可支持多人实时在线的大容量并发和拓展,集成降噪、混音、混屏、转码、人脸识别等各种音视频处理算法,同时接入第三方功能,扩充语音识别、语义理解、人工智能等服务。”
未来展望
彭远疆表示,基于在音视频方案和技术上的积累,Mediawin平台不断拓展垂直生态的第三方合作伙伴,开放API接口接入更多的应用算法(如摔倒检测、手势识别等),打造更加庞大的物联网音视频应用平台。同时“眼睛”和“耳朵”作为物联网的一部分,需要融合到其他行业生态中,Mediawin平台希望横向对接其他的专业领域云平台,如智慧家庭、智能家居、智能医疗等。