被成为“围棋上帝”的AlphaGo,真的在机器学习领域无敌?
2017-06-05
这几日,只要提起AlphaGo,相信大家想起的一定是在前几日的围棋大赛中,无论是单人战,双人战,还是群殴战,AlphaGo都无一例外的身居“常胜将军”位,而AlphaGo的创作团队公司Deep mind在官网宣布这次的围棋峰会将是AlphaGo的最后一次比赛。那么,不进行围棋赛的AlphaGo还可以做什么呢?OpenAI研究科学家,斯坦福大学的CS博士生Andrej Karpathy就AlphaGo在机器人领域的应用发表了一些他的看法,机器人圈整理编译如下:
我有机会和几个人聊了一聊近期与AlphaGo柯洁等人的比赛。尤其是,媒体报道内容大部分是大众科学+PR的混合体,所以我看到的最常见的问题是“AlphaGo的突破性表现在哪里”,“AI的研究人员如何看待它的胜利?”和“胜利将取得什么样的影响”。我把我的一些想法写成文章与大家分享。
很酷的部分
AlphaGo由许多相对标准的技术组成:行为克隆(对人类展示的数据进行监督学习)、强化学习(REINFORCE)、价值函数和蒙特卡洛树搜索(MCTS)。然而,这些组件的组合方式是极具创新,并不是完全标准的。特别是,AlphaGo使用SL(监督学习)策略来初始化RL(强化学习)策略得到完善自我发挥,然后他们预估价值函数,然后将其插入到MCTS中使用(更糟糕但更多样化的)SL策略展示出来。另外,策略/价值网是深度神经网络,所以使一切正常工作都能呈现自己独特的挑战(例如,价值功能以一种棘手的方式进行培训以防止过度拟合)。在所有这些方面,DeepMind都执行得很好。话虽如此,AlphaGo本身并没有使用任何基本的算法突破来解决强化学习的难题。
狭义范畴
AlphaGo还是一个狭义的AI系统,会下围棋,但也仅此而已。来自DeepMind的ATARI玩家不会使用AlphaGo所采取的方法,神经图灵机(Neural Turing Machines)与AlphaGo无关,Google数据中心的改进也绝对不会使用AlphaGo,同时,Google搜索引擎也不会使用AlphaGo。因此,AlphaGo不会推广到围棋以外的任何地方,但是人们和潜在的神经网络组件做的比这些过去的人工智能要好得多,每个演示都需要专门的显式代码的存储库。
围棋的便利属性
我想通过明确地列出围棋所具有的特定属性来扩展AlphaGo的狭义性,AlphaGo从中受益匪浅。这可以帮助我们考虑是否推广AlphaGo。围棋是:
1、完全确定性。游戏规则中没有噪音;如果两位玩家采取相同的动作顺序,那么后面的状态将永远是一样的。
2、充分观察。每个玩家都有完整的信息,没有隐藏的变量。例如,德州扑克(Texas hold’em)对该属性不满意,因为看不到其他玩家的牌。
3、动作空间是离散的。一些独特的棋子移动是很有效的。相比之下,在机器人技术中,你可能希望在每个节点都需要具有连续性的控制。
4、我们有一个完美的模拟器(游戏本身),所以任何动作的效果都是公开透明的。这是一个强有力的假设,AlphaGo依然非常强大,但这种情形在现实世界中也是相当罕见的。
5、每一盘棋时间相对较短,约200手。相对于强化学习阶段,与其他可能涉及每局的数千(或更多)手相比,这是一个相对较短的时间范围。
6、评估清晰、快速,允许大量的试错体验。换句话说,玩家可以体验数百万次的胜利/失败,这样就可以慢慢而可靠地深入学习,就像深度神经网络优化一样。
7、有大量的人类玩游戏棋谱数据可用于引导学习,所以AlphaGo不必从头开始。
AlphaGo应用于机器人技术?
以上列举了围棋的一些吸引人的属性,让我们来看一下机器人问题,看看我们如何将AlphaGo应用到机器人中,例如亚马逊拣选机器人中。这个问题只是想想就觉得有点滑稽。
·首先,你的动作(高维度、连续)由机器人的电机笨拙/嘈杂地执行。(违反1、3)
·机器人可能必须环顾要移动的物品,因此并不总是能感知所有相关信息,并且有时需要根据需要收集。(违反2)
·我们可能有一个物理模拟器,但是这些模拟器是非常不完美的(尤其是模拟接触力的东西);这带来了自己的一些挑战(违反4)。
·取决于你的行动空间抽象程度(原始扭矩 - >夹子的位置),一个成功的动作片段可能比200个动作长得多(即5取决于设置)。更长的动作片段增加了信用分配问题,学习算法难以在任何结果的行动中分配责任。
·由于我们在现实世界中运作,机器人在数百万次的时间内(成功/失败)会变得更加困难。方法之一是并联机器人,但这可能非常昂贵。此外,机器人失败可能涉及机器人本身的损害。另一种方法是使用模拟器,然后转移到现实世界中,但这会在域名转移中带来自己的一套新的、不平凡的挑战。(违反6)
·最后,很少有数百万可以展示的人类数据源。(违反7)
简而言之,基本上每个单一的假设,即围棋的便利属性都被AlphaGo违背了,任何成功的方法都将看起来都不一样了。更普遍的是,上面围棋的一些属性与当前的算法(例如1、2、3)并不是不可克服的,有些是存在问题(5、7),但是有些对于AlphaGo的训练是非常关键的,但是很少存在于其他真实世界的应用(4、6)。
结论
虽然AlphaGo并没有在AI算法中并没有实现根本性的突破,虽然它仍然是狭隘人工智能的一个例子,但AlphaGo也象征着Alphabet的AI能力:公司的人才数量/质量、他们掌握的计算资源,以及公司高层对AI的关注。
AlphaGo是Alphabet在人工智能领域设置的一场赌局,但AlphaGo是安全的,毋庸置疑。