苹果收购的这家情绪识别公司到底是什么来头
2016-01-11
苹果收购了一家可读解人们的面部表情并预测其情绪的公司,Emotient。
据华尔街日报昨日消息,苹果收购了一家可读解人们的面部表情并预测其情绪的公司,Emotient。该产品甚至可将满屋子人的面部表情进行分类,应用范围比如可以用来测量消费者对广告的反应。Emotient称,医生也对他们的技术进行了测试,以解读那些无法进行自我表达的病人的痛苦表情,零售商也用它监测购物者在商店走道里的面部表情或是的销售人员通过佩戴 Google Glass 对顾客的表情进行实时解读。
苹果公司发言人也证实了这项收购交易,并表示苹果“时常都会收购小型技术公司,一般来说我们都不会讨论收购意图或计划”。该发言人拒绝透露这项交易的具体财务条款。
实际上,从20 世纪 90 年代以来,一批研究人员开始试图让机器读能懂人类情绪,并可以像人类一样作出正确回应。一些智能系统已经可以对音高、音色和响度进行分析,识别出深层次语义,比如根据一位女性和孩子的对话,可以辨别出这位女性是否一位妈妈,她是否在盯着孩子的眼睛看,以及她是失落还是高兴。另外一些机器则可以分析人类遣词造句的方式,或者是解读肢体语言,然后判断用户的情绪。此外还有一些人选择从面部表情入手,因为在很多时候,面部承担着情绪沟通的功能,而我们通过面部表情传达的信息可能要远远多于语言本身。这其中又诞生了一些公司,如 Affectiva 、Emotient、Realeyes 和 Sension。
Emotient 总部位于圣地亚哥,此前已经融资800万美元,投资者包括英特尔资本。知情人士称,Emotient在被苹果收购前一直在寻求启动新一轮风险投资融资活动,但根据提供的融资条款并未找到适合的投资方。 Emotient 在本周对网站进行了改版,移除了公司所销售服务的细节信息。
Emotient 官网上是这么介绍自己的:
Emotient是情绪检测和情绪分析的领导者,我们的服务是量化情感反应,提升你对产品和市场的洞察力和行动的有效性。
猜想苹果收购后可能用到的地方,将该技术置于 iPhone 的前置摄像头中,来检测用户情绪状态,从而让Siri 更加智能,与你对话可以考虑你的情绪变化;甚至可以利用这项技术来了解用户对 iAds 平台上投放的广告的反应。
实际上在2014年提交的一项专利申请中,苹果就已经描述了一种根据多种线索,分析和确认人类情绪的软件系统,这其中就包括面部识别。去年10月,苹果证实已收购人工智能创业公司 Perceptio 和 VocalIQ,后者旨在提升计算机理解人类自然对话的能力。而去年5月,Emotient 宣布已获得了一项技术专利,可在一天内收集并标记多达10万张面部图像。这样一来,计算机就能够更好地识别不同的面部表情。
综合这些线索来看,这些技术很有可能用于提升 Siri 与人进行对话时的真实感,增加互动性。
我这里整理了一份和Affectiva 和 Emotient 相关的科学家小故事,补充介绍情绪识别与这两家公司的由来:
有一位埃及科学家 Rana el Kaliouby,和她的导师 Rosalind Picard 一起成立了 Affectiva,一家开发情感分析软件的公司。
Rosalind Picard 早些时候在 M.I.T 的 Media Lab 做一些图像压缩方面的技术开发,但很快她就遇到了瓶颈,因为她开发的方法(尽管后来流行一时)与被处理的对象是完全独立的:比如说压缩大运河和总统肖像的图片用的都是一样的方法。她觉得,如果计算机可以知道自己正在处理什么就能改善这个过程。直到读了一本关于联觉的书《The Man Who Tasted Shapes》她才豁然开朗,意识到了情感与理性之间的联系。与我们传统认为的 “无情却又睿智” 不同,过少的情感,其实和过度丰富的情感一样都会对我们的理性思考产生不好的影响,事实上一些影响情感的脑损伤也会剥夺人判断和决策的能力,而判断和决策正是我们希望电脑做的事情。
回到电脑的情绪识别,其实做法就是在面部提取一些关键的点,将那些相对不变的 “锚点”,比如鼻尖,最为一些参考的固定点,然后用像嘴角这样的点来判断你做出的表情。但是在九十年代,想要制造一个可以准确长出这些离散的面部动作单元的系统实在是太难了,单是数字化一个视频就要 25 秒。一个早期的研究人员说:无论怎么做总是有一点偏差,而且随着结构的不断扩大,错误也越来越多,每十秒就要重新启动一次。
研究陷入了瓶颈, Kaliouby 只好去剑桥继续读她的博士学位了。但是有一次演讲后,有一个听众告诉她,Kaliouby 训练电脑读人脸和他自闭症的弟弟遇到的问题很像。当时,剑桥的自闭症研究中心正在做一个面部表情目录的大工程,和 Ekman 将表情分成一小块一小块动作单元,再通过动作单元的组合判断情绪的做法不同,他们对表情的分类更加自然,简单易懂,将表情进行更细致的分类,然后从某一种特定的表情整体学习其中的特征。
Ekman 是一位心理学家,他的研究始于上世纪六十年代,并构建了一套纯熟的理论体系,证明了人类的面部至少可以表达六种情绪,分别是高兴、悲伤、惊讶、恐惧、愤怒和厌恶,与性别、年龄、种族或者是文化背景无关。他将这些面部表情进一步分解,系统化为 46 种“动作单元”的排列组合,最终写入了《面部动作编码系统》(Facial Action Coding System,也称FACS)。这部著作有 500 多页之厚,全面而又细致地讲述了面部的动作。数十年来,他的理论大范围应用在学术研究、电脑动画制作、测谎和案件侦破等诸多领域。
就这样他们有了足够的资料开发 MindReader,一个可以在几乎各种环境下检测出复杂情绪的软件,也是 Affdex (日后Affectiva 旗舰产品)的原型。Ekman,那个提出 FACS 的心理学家则和别人合作创立了 Emotient(上文提到被苹果收购的那家公司),也是一款情绪识别的软件,同样是利用机器学习的方法通过海量的数据学习构建一个准确的表情识别框架。
至此两家公司的原型初步显现。