张钹院士:人工智能将走上知识驱动与数据驱动的结合
2019-09-16
近两年,区块链概念成为全社会的热点话题,但大部分人更多关注的是比特币、以太坊等加密数字货币,忽视了区块链技术本身。而区块链技术,离不开数学。
12月17日-18日,区块链数学科学会议在北京召开。本次会议为数学家、密码学家、计算机学家、经济学家等各领域专家提供一个学术交流平台,希望在初期阶段,专注于探索拆解现有的区块链数学的范式,组合区块链技术的数学工具,并且通过类比、分析、归纳等方式,提出“区块链数学猜想”。
计算科学家、中科院院士张钹在题为“走向可解释与鲁棒的人工智能”的演讲中表示:
“当前人工智能方法存在局限性,只能在具有充分知识或数据、稳定性、完全信息、静态、特定领域与单任务的场景下适用。数据驱动的本质缺陷在于只能学习重复出现的片段,不能学习具有语义的特征。因此,后深度学习时代将知识驱动与数据驱动结合,走向真正的人工智能。”
大家好,我今天演讲的主题是“走向可解释与鲁棒的人工智能”。我非常的赞成需要不同学科的碰撞,才能产生新的成果。1956年,人工智能(Artificial Intelligence)诞生于美国,被定义为“研究与设计智能体(Intelligent Agents)”。
这个定义中,用了研究和设计两个词来形容这个领域,就说明这个领域既是科学也是工程。所以,人工智能不仅要关注科学的部分,也要关注技术和应用的部分。另外就是智能体,或被称为“智能机器”,智能机器指的是能够感知环境,经思考后采取行动使成功机会最大化的系统。但是人工智能很难说是一个机器,也很难说它是一个系统,所以特别发明了一个词叫Agent,我这里的翻译是叫做智能体。
人工智能就做三件事:感知、思考决策和动作。第一件事儿就是要模拟人类的理性行为,就是中间那部分,内容理性行为,我们要用计算机来模拟它。另外就是感性、感知,听觉、视觉等等,最后是动作。
人工智能的现状和符号模型
我们可以把人工智能分成两个阶段:1956年至2000年,传统AI的阶段;2000年至2015年,深度学习的阶段。
首先在人工智能建立初始,就对人类的智能行为提出一个模型,这个模型叫做基于知识和经验的物理符号推理模型。也就是说,当时认为人类的说话认知包括了感性和理性都可以用这个模型来模拟,目前看来事实证明,这种模拟只能模拟理性行为,理性行为就利用基于知识和经验的推理模型来构造。
人的理性行为基础是两个:知识、经验和推理能力。如果能够把人类的知识和经验放在计算机的知识库里面,我们能把推理能力表现在它的推理机制里面,我们就可以做出来模仿人类理性行为的系统或者是人工智能系统。
大家看起来很简单,如果我们能够把医生看病的知识和临床经验放在知识库里面,把诊断的过程变成一个推理过程,放在机制里面,这个系统就能看病,确实在70、80年代的时候,美国、中国都做过类似的医疗诊断系统,用的就是它。
但是,这里要说一点,这些知识和经验都是通过人工编制,输入到计算机里面去,这是它严重的问题。
另外也是当时提出来的另外一个模型,所谓大家现在讲的人工神经网络、机器学习也好,就是这个模型。这个模型是用来模仿人的感知的。大家想想,感性的知识来自何处?不是来自于知识,不是人家教你的,来自于观察。所以,把人类通过观察学习的这种过程用一个神经网络的机器学习来模仿,现在所有的图象识别、语音识别都是用的这个模型。
传统模型的优缺点
这里的问题在于,特征的输入是人工输入的,人工选择的特征输入,这个是传统人工智能的一个最大的缺陷,所以后来为什么会出现人工智能的冬天。就是因为用人工的方法来输入特征来讲这是很困难的,有的时候还做不到。比如说人类的知识和经验你无法描述,所以这就使得人工智能很难做出来一个实用的系统,后来就变成大家对它不寄予很大的希望,只能在玩具世界或者是在实验室里做一点儿系统,做出来的实用系统是很难的。
当时美国为了做一个医疗诊断系统,结果花了六年的时间才把专家的知识放到计算机里面去,而且这个系统后来还没有用上。
这个系统的优点就是说它跟人类的系统是一样的,所以可理解、可解释,而且鲁棒性也比较强。缺点就是刚才说的手边知识,需要来自专家的知识,是昂贵的、难以推广的。
深度学习时代
这个事情有重要的变化,就是深度学习。这个深度学习大家知道,实际上只是把神经网络这个层次增加了,原来只有1层,变成2层以上,把机器学习起了一个根本性的改变,这个是大家没想到的、出乎大家意料的。这个根本性的改变在于输入不需要人工选择特征,而是原始数据。
这是什么意思呢?你用这个工具的时候,不需要专业知识,过去要搞人脸识别,你必须要搞清楚人脸识别是根据什么特征来识别的。因此,做过十年人脸识别的人跟刚刚进入做人脸识别的人,他的经验要多得多,你没有这方面的经验,你要从头做起。
但是现在不一样了,你做了十年的人脸识别跟刚刚进去的人脸识别,大家是一个起跑线上的,因为只要你有数据,我就不知道他是什么特征,机器自动学习。所以,这个问题就变成了深度学习完全改变原来模型的性质,变成了一个通用的工具,它通用,就等于说人脸识别学人脸识别,你做大数据的学金融,只要把原始数据输进去就可以了,不需要太多金融的知识。
所以,人工神经网络的性质发生了变化,从单纯的函数映射到表示学习,就自动学习表示方法。这就是我们现在深度学习广泛传播大量应用的一个重要原因,谁拿去都可以用。但是这个问题大概三、四年前大家也发现了,大家以为是很完美的工具,其实现在发现这是一个非常不完美的工具。
自然语音识别模型
深度学习的影响有大?我们原来搞语音识别的时候,必须人工选择特征,这个特征一经过处理以后非常复杂,用的模型是这个模型,用的特征是倒拼图推进,一会儿要把语音变成拼图,拼图又返回去积分,后来都不知道变成什么样子了。现在不一样了,有了深度学习,原始的拼图、原始的波形,输进去就可以了。
这个改变是非常本质的,就是说2001年用这种模型,以前用这种模型,基本上只能达到80%,几乎不能用,现在已经变成了商品,所有的商品都是用的深度模型,识别率是一般的95%或者是更高,有的还可以新增,比人类的还好一点儿。这个问题就是一步的变化,从原来的模型变成一个深度模型,把层数增加。
当前人工智能方法的局限性
当前人工智能方法的局限性在于只适用于以下场景:
具有充分知识(能清楚表述的问题)或数据 ·确定性 ·完全信息 ·静态(按确定规则演化) ·特定领域(领域边界清晰)与单任务
这些不用解释了,大家一看就明白,我只解释一个完全信息。大家看一下,现在AlphaGo,过去的深蓝,为什么做得这么成功?就是因为这个棋是完全信息博弈,如果是完全信息的话,对于计算机来讲是极为容易的,绝对是会超过人类的。所以,围棋、象棋最终机器是会超过人类的,只是时间问题。
但是如果你这个变成不完全信息,比如说像牌类,现在不管是四人桥牌也好,四人麻将也好,计算机根本不是人类的对手,原因就在于不完全信息。对决策也是一样,如果你的决策是完全信息决策,是完全信息决策,机器绝对会超过人。但是如果你是不完全信息决策,那计算机跟人类相比还差得远。但是很不幸,所有的决策场景都是不完全信息,实际的决策场景都是人的。
这里还有确定性、静态演化、特定领域、限定领域,如果领域不限定,那这个是不行的。
基于深度学习的识别系统与人类感知
还应该看到应用深度学习或者是大数据建立系统,有非常大的缺点,跟人类的认知完全不是一码事。
这里面的例子很多,就是我题目里面讲的两个缺点:不可解释性(最大的缺点)和鲁棒性很差,非常脆弱。
犯大错与不可解释性
我举一个很简单的例子。物体识别系统,你可以做得识别率甚至超过人,计算机目前来讲在给定的图像架构下,它的识别率是可以超过人的。就是这样的系统,你给它一个噪声,可以识别成为知更鸟。你再随便给它一个噪声,你可以制造一个噪声,让它识别为猎豹。
换句话说,这个系统我们所谓的模式识别系统,不是人类的感知,只是一个机械的分类器,它能够把知更鸟和猎豹区分开来,但是它绝对不认识什么是猎豹,什么是知更鸟。也就是说它只达到了低等动物的水平,而不是人类的水平。
鲁棒性差
这个是我们的博士生做的,这个是阿尔卑斯山,计算机看起来是阿尔卑斯山,人看起来也是阿尔卑斯山。
我们只要给它一点点噪声,这张图的阿尔卑斯山和这张图的唯一区别,就是噪声多一点儿,人类看起来当然是阿尔卑斯山,计算机看起来是一条狗,而且我们可以让它的自信度达到99.99%,它99.99%的把握认为它是一条狗。
数据驱动的本质缺陷是只能学习重复出现的片段,不能学习具有语义的特征。这就是今天大家在大量讨论的人工智能的安全性问题,联合国也要讨论这个问题,这个是由这个引起的,不是说要做出来人工智能超过人,这是有危险的。不是,这个危险在于系统极端的脆弱性。
所以,你无论说什么样的系统,用这种办法做出来,就非常容易被攻击。正是大家利用这个攻击的手段,现在造成了各种各样的很多人工智能系统瘫痪。不仅仅使你瘫痪,现在还有一种攻击方法,能让你去干别的事。所以,这就是人工智能的危险性,是在这里。
这个问题的严重性还在于,实际上这个是它的本质引起的,不是因为我们编程没编好或者是我们没考虑到,不是的,是完全由本质引起的,就是深度学习、大数据。
我们要知道,我们现在讲的大数据和以前说的大数据不是一码事,我们现在指的大数据是网络上那些低质量的大量数据,这叫做深数据,这才是我们关注的。网络上的数据尽管非常多,但是大量是低质量的,造谣、造假,有很多的。你用一个质量很低的数据,用概率统计方法来学习,能学出什么东西来呢?只能学出那些重复出现的片断,不可能学出来有语义特征的部分。
这是跟人类完全不一样的结果。人类怎么认识牛和马呢?他能够看到它的马头、马尾巴、躯干,计算机看不到,只能看到那些非常低层次的纹理、线条,用这个来区别普通物体。
我们看一下这个,深度学习学出来的都是这个,利用这个来区别什么是牛、什么是马。这种情况如果用到决策是绝对不允许的,我们用到模式识别还马马虎虎。也就是说它跟人类的不同在什么地方呢?人类也许把骡看成驴,但是计算机完全可以把看成一头驴,也就是它会犯原则性的语义上的大错,人类不会。
所以,这个对于决策来讲是不可以用的,但是模式识别是可以用的,你把模式识别也是一个错,看骡看成驴也是一个错,不分错的大小。
这个问题怎么办?这个现在实际上有很多的问题:
医学图像识别:现在大家做医疗诊断,做了很多的图像识别,而且识别率可以达到医生的水平,这确实如此但是医生不敢用,你说他有癌症,你搞不清楚它根据什么说他是癌症这叫不可解释性,你做得再好他也没法用。
语音识别:我们现在说是超过人,那是在非常限制的条件下,你的语音必须没有任何的噪声,所有的语音识别你必须对着话筒讲,如果我离远一点讲,识别率就非常低,不允许有任何的干扰,也就是说它非常的脆弱。 我们现在先看一下,数据驱动非常大的好处,他是用的向量,所有的数学工具都可以用上,过去的人工智能为什么不行呢?数学用不上,是用符合来表示,你用逻辑推理这套东西,你的数学工具非常有限。
两个基本模型
大家看到的深度学习全是数学,所以大家的办法很简单,这个就是很大的问题了,我们如何解决一个可解释性,就是要把这两个结合起来,知识驱动和数据驱动结合起来。
文本语言是这么处理的,图像语音是那样处理的,现在的办法很简单,语义的向量空间,把符号变成向量,把特征变成语义。所有的数学工具全能用上,怎么办呢?如何把符号变成向量。
后深度学习时代
这样,我们就可以建立一个统一的理论用数学来处理它,所以我觉得现在人工智能才有资格说你是一门科学,我过去一致认为,人工智能不是一个科学。我图像跟语言文在一个空间里面了,这也符合人类。
就全变成数学问题了,因为这个没有解释,现在就搞了各种各样的优化方法来做,我们说机器翻译也完全可以利用这个做,过去的机器翻译全是不用数学的,现在全是数学,全是优化方法来做,这也是我们研究院里面做的工作。
但是大家也看到了,总体来讲,效果有提高,提高不多全世界都是这样,也就是说这个工作有大量的工作需要做,另外一个办法就是符号。但是,我们需要把大量的数据换进去,沃森就是做的这个工作。
最关键的问题是两条,如果可以解决的话我们也可以用这个模型来解决,就是要向数学学习的方法。
我认为从人工智能的角度来讲,这个系统做得最好,大家看到好的AlphaGo什么的,其实AlphaGo并没有它好。它用了资源就这些,非常多,有原始感,文学作品都是没有经过加工的,这是他的系统。
从特征空间往一个空间去这个要学习人类,人类同样用神经网络做出来能学到语义,计算机学不到语义,原因是缺少这些,因为人工神经网络太简单了,所以这里面必须把神经网络的东西加进去,这个是我们也做的一些工作,加上去以后就可以学到含有语义的东西。
我们可以看一下,最终走向真正的人工智能必须得有尝试,没有尝试这个系统实际上都是你告诉他的,对一个对话系统来讲,对机器来讲,它只能回答你告诉他的,现在好一点,你没有直接告诉他,他利用推理可以由原来的知识里面推出新的结论,这个沃森能做到,但是做到的很有限,比人类还差得很多。
我们刚刚讲过,人类理性智能一个最重要的表现就是你的推理能力,你的判断能力,除掉你的知识和经验之外。美国人花了很大的功夫去做这个事儿,我们国家上次在知识图谱会上就强调,我们也必须做,你想中国人工智能要走到世界的前面,或者说跟上人家,你不做这些工作可能是不行的。
我们利用尝试进行对话等等,就可以解决词汇里面没有的词,计算机可以通过里面的知识来判断这个词大概是什么意思。