AI系统真能生成图像,通过算法实现“造梦”?
2019-05-12
还记得电影《盗梦空间》中的“造梦师”吗?
他们可以制造出多层梦境,把某种意念植入人的大脑,还能从人的梦中窃取情报。
前不久,就有人发明出了一个名叫“XDREAM”的算法,可以通过图像刺激大脑神经活动,从而控制某些特定神经元。这一次他们的对象,只是猴子。
AI造梦:还原猴子眼中的世界
5月2日,顶级学术期刊《CELL》(《细胞》)发表了一篇论文,哈佛大学的科学家把猴子的大脑与传感器和神经网络连接起来,向猴子播放AI系统生成的图像,采集并分析猴子看到不同图像时的神经元活动,并根据猴子的反应强度来实时调整和生成新的图像。
最终的实验成果显示,AI系统已经能够自动生成激活单个脑区的图像,刺激到猴子大脑的特定神经元(实验中是识别面部)。
这项研究的特别之处在于,算法生成的图像,比起对照组中的自然图像,对脑补神经元的刺激程序更好。换句话说,这些看起来像是真实世界扭曲版本的图片,可能才是猴子最兴奋的画面。
论文的第一作者卡洛斯·庞斯,在项目中时是哈佛医学院玛格丽特·利文斯通实验室的博士后研究员,现在则是圣路易斯华盛顿大学的一名教师。他表示,使用这个算法工具生成的图片时,“(猴子大脑的)细胞活跃度提高到了我们前所未见的水平。”
这个图显示了自然图像(右)和猴子神经元进化的图像(左)
被命名为XDREAM的算法,是由威尔·肖在儿童医院加布里埃尔·克赖曼实验室开发的,并得到了美国国立卫生研究院和国家科学基金会的资助,这是第一次在真实的神经元上进行测试。
它对一系列图像进行变异与重新组合,变成了一堆奇怪的东西,比如穿着外科手术服的熟人、动物房间里的漏斗……和人类梦境中奇怪的事物有点异曲同工之妙。
XDREAM生成的图片更像是神经元之间相互沟通所使用的语言,有的东西甚至根本不存在。难怪作者庞斯说,“如果细胞会做梦,那么这些可能就是细胞梦见的景象。”
GAN再立新功,
绘制梦境有何难?
系统生成的图像比真实的事物更让猴子感到兴奋,这项发现能够带来哪些想象空间?
想要回答这个问题,我们可能需要再往前一步,先探寻视觉神经元的底层机理。
脑科学领域的研究者们已经通过无数神经元测试实验证明了,大脑视觉神经元会对某些图像反应更强烈,这种“不均衡响应”使我们能够在茫茫人海中被某些特定形状、颜色或轮廓所吸引,从而快速识别出那些特别的事物,比如在火车站找到熟人,高速路旁的广告牌文字等等。
但是,视觉神经元究竟是如何对这些特定事物产生反应的,至今仍然是一个谜。
以往,在研究视觉神经元偏好的研究中,人们往往会使用真实存在的图像。这就带来了两个问题:
一是只能研究那些现实世界中存在的刺激源。但实际上,人在快速眼动(REM)睡眠期间还保持着高频的脑部活动。美国威斯康辛大学麦迪逊分校的Giulio Tononi及同事记录了32个被试对象睡着时的脑电图,证明参与真实感官刺激(比如面部和语言)处理的脑区的高频活动增加了,而且只在梦境中出现这些元素时增加。但做过梦的人都知道,梦境是很难完整回忆和复现的,也并不与现实世界完全一致。无法得知梦境的样子,就使得脑神经研究丢失了一块重要阵地。
二是令脑神经研究带有上了研究人员的主观选择,有一定的片面性。举个例子,大家都知道卷积神经网络的发展从大脑神经中得到了很多启发,也因此产生了很多模拟人类脑活动的算法,比如基于注意力的标注模型,它会关注图片中的一些重点并对其进行文字描述,比如对下面这张图片:
对图案中的特征进行有选择的提取,于是我们得到了一个带有“海上冲浪者”标签的图片。
在模型预训练时,设计人员都会根据自己的理解和大多数人类的偏好,对图片特征赋予一定的权重进行预训练,让系统优先注意到那些希望它注意到的地方。但这种选择真的万无一失吗?从科学的角度讲,我们无法肯定地回答这个问题,但以前我们也没有证据能够证明,有的大脑可能不是这么想的,有的大脑比起面孔就是更容易对文字产生兴奋。