复盘 | 离AI取代人类还有多远？

发布时间：2020年09月29日 06:14:56 来源：点击量：724

【摘要】3月9日下午，经过3个半小时的激战，李世石九段投子认输，Alpha Go再次战胜人类。根据日程安排，5局棋将分别于3月9日、10日、12日、13日和1

3月9日下午，经过3个半小时的激战，李世石九段投子认输，Alpha Go再次战胜人类。

根据日程安排，5局棋将分别于3月9日、10日、12日、13日和15日举行，即使一方率先取得3胜，也会下满5局。比赛采用中国规则，执黑一方贴7目半，各方用时为2小时，3次60秒的读秒。

与战前李世石预言5:0全胜的成绩相比，今天的结果有些出乎意料，也让未来几天的比赛更加充满悬念。

然而，仅这一局的结果就已经能说明一些问题。

AlphaGo获胜意味着什么？
李世石战绩

1995年入段，1998年二段，1999年三段，2003年因获LG杯冠军直接升为六段。

2003年4月获得韩国最大棋战KT杯亚军，升为七段。

2003年7月获第16届富士通杯冠军后直接升为九段。

2006、2007、2008韩国围棋大奖——最优秀棋手大奖(MVP)。

2009年，李世石连续19个月高居韩国棋手等级分排行榜首位，并保有国内国际各两项棋战的冠军头衔，取代“石佛”李昌镐成为韩国围棋第一人。

近10年来获得世界第一头衔最多的棋手，共获得14个个人赛世界冠军。

AlphaGo战绩

2015年10月阿尔法围棋以5：0完胜欧洲围棋冠军、职业二段选手樊麾。

别看只有一枚军功章，这在人工智能领域却是了不起的进步。

很多人都知道，1997年的「深蓝」计算机战胜了人类的国际象棋冠军卡斯帕罗夫，但是那时候大家不会认为“深蓝”真正拥有了人工智能。原因在于：国际象棋就64格，最大只有2^155种局面，称为香农数，大致是10^47。虽然没法全部去遍历，只要把开局库和残局库多输一些进去，结合一些中盘的策略选择和部分遍历就很牛了。

对棋局进行预测，遍历每一种走法直到一方胜出，然后回退计算每一个可能赢的概率，最后使用概率最高的作为最优的走法。「深蓝」就做了这么件事，暴力穷举所有的步子，然后找最优。所以虽然「深蓝」胜了，但并不意味着「智能」。

但对围棋来说，千古无同局，没有残局的概念。围棋每回合有 250 种可能，一盘棋可以长达 150 回合。所以最大有3^361 种局面，大致的体量是10^170，而已经观测到的宇宙中，原子的数量才10^80而已。

围棋复杂度示意图（只看图C君已经晕了）

围棋需要的并不仅仅是计算的能力，还有图形处理的能力，后者是计算机的弱项。

局部的死活就是一个例子，计算机的一个总体目标，就是赢棋，它很难像人一样灵活构建不同的局部目标。围棋高手对棋形的判断近似于对人脸的判断，这更接近人工智能的本质。这也就是为什么在今天直播解棋时古力九段评价：电脑虽然在局部战斗表现出色，但在大局上似乎不如人类高瞻远瞩。

AlphaGo是如何战胜李世石的？
AlphaGo实际上是搜索算法和深度学习的结合。

深度学习是人工智能（AI）领域当下最为热门的研究领域。具体到 AlphaGo 上，「深度学习」的能力利用「价值网络（ value network ）」去计算局面，然后再用「策略网络（ policy network ）」去选择下子。「价值网络」和「策略网络」是两种不同的深度神经网络，并且共同构成了 AlphaGo 的「大脑」。

AlphaGo的”大脑“实际上分成了四大部分：

Rollout Policy 快速感知”脑“：用于快速的感知围棋的盘面，获取较优的下棋选择，类似于人观察盘面获得的第一反应，准确度不高

SL Policy Network 深度模仿”脑“：通过人类6-9段高手的棋局来进行模仿学习得到的脑区。这个深度模仿“脑”能够根据盘面产生类似人类棋手的走法。

RL Policy Network 自学成长“脑”：以深度模仿“脑”为基础，通过不断的与之前的“自己”训练提高下棋的水平。

Value Network 全局分析“脑”：利用自学成长“脑”学习对整个盘面的赢面判断，实现从全局分析整个棋局。

四个脑区的功能不一样，基本对应人类棋手下棋所需的不同思维，既包含局部的计算，也包含全局的分析。其中的Policy Network用于具体每一步棋的优劣判断，而Value Network则对整个棋局进行形势的判断。

开局不久，我们能看到李世石用一手棋来试探AlphaGo的棋力，CSDN总裁蒋涛现场点评说，这一招很不明智，AlphaGo是遇强则强，遇臭也臭。因为AlphaGo提升棋力首先是依靠模仿来进行自我水平的提升，这和人类的学习方式其实是一模一样的。

人类棋手下棋的步骤：

Step 1：分析判断全局的形势

Step 2：分析判断局部的棋局找到几个可能的落子点

Step 3：预测接下来几步的棋局变化，判断并选择最佳的落子点。

那么，AlphaGo在拥有强大的神经网络”大脑“的基础上采用蒙特卡洛树搜索来获取最佳的落子点，本质上和人类的做法是接近的。

首先是采用蒙特卡洛树搜索的基本思想，其实很简单：多次模拟未来的棋局，然后选择在模拟中选择次数最多的走法

AlphaGo具体的下棋基本思想如下：

Step 1：基于深度模仿“脑” 来预测未来的下一步走法，直到L步。

Step 2：结合两种方式来对未来到L的走势进行评估，一个是使用全局分析“脑”进行评估，判断赢面，一个是使用快速感知“脑”做进一步的预测直到比赛结束得到模拟的结果。综合两者对预测到未来L步走法进行评估。

Step 3：评估完，将评估结果作为当前棋局下的下一步走法的估值。即给一开始给出的下一步走法根据未来的走向进行评估。

Step 4 ：结合下一步走法的估值和深度模仿脑进行再一次的模拟，如果出现同样的走法，则对走法的估值取平均（蒙特卡洛的思想在这里）

反复循环上面的步骤到n次。然后选择选择次数最多的走法作为下一步。

简单的讲就是综合全局和具体走法的计算分析，对下一步棋进行模拟，找到最佳的下一步。对步子的选择，既要依赖于全局分析“脑”的判断，也需要深度模仿“脑”的判断。

离AI取代人类还有多远？

在对战结束之后，中国棋手柯洁对于AlphaGo的胜利有些担心，甚至表示如果可能愿意接受AlphaGo的约战。他说，AlphaGo的出现让人类棋手的生存空间变小了。

AlphaGo的表现让我们看到了AI的无限可能，也让不少人对于未来的人类世界产生了些许担心。我们都知道「机器人学之父」阿西莫夫在著作《我是机器人》中所提的“机器人工学三原则”：

机器人不得危害人类。此外，不可因为疏忽危险的存在而使人类受害。
机器人必须服从人类的命令，但命令违反第一条内容时，则不在此限。
在不违反第一条和第二条的情况下，机器人必须保护自己。

技术之外，人们担心的其实是未来社会的伦理秩序。

有人提到，机器能够获胜除了强大的计算能力，还在于它不像人一样有各种心理和身体的负担，没有情感，永远快速而准确。然而，「没有情感」，这是机器的铠甲，也可能成为它的软肋。让人工智能获得情感感知能力，应该还有一段艰难的路要走。

万不得已时，C君想到了一个主意对付AlphaGo：

（顺便致敬C君最爱的库布里克最伟大的作品《2001太空漫游》：可能拔电源都没用）

附：人机对弈历史

机器对战人类，四大经典胜利

从第一台计算机问世以来，人们就梦想造出一种可以完美模拟甚至超越人脑的计算机系统。过去20年中，有4次人机大战给人们留下格外深刻的印象，也成为人工智能发展的绝佳注脚。

1997 深蓝Ⅱ：蛮算的“硬汉”

1997年，美国IBM公司的“深蓝Ⅱ”超级计算机以2胜1负3平战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。“深蓝”的运算能力当时在全球超级计算机中居第259位，每秒可运算2亿步。

第一局比赛，“深蓝Ⅱ”看上去就像是个业余棋手。但第二局比赛，电脑下棋却像世界一流的特级大师。受第二局失利的影响，卡斯帕罗夫无心比赛。在决胜局中，卡斯帕罗夫犯了一个低级错误，他走了19步后就宣布放弃。整场比赛进行了不到一个小时，“深蓝Ⅱ”赢了这场具有特殊意义的对抗。

“深蓝Ⅱ”还算不上足够智能，主要依靠强大的计算能力穷举所有路数来选择最佳策略“深蓝Ⅱ”靠硬算可以预判12步，卡斯帕罗夫可以预判10步。

2006　浪潮天梭：以一敌五

2006年，“浪潮杯”首届中国象棋人机大战中，5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。中国人发明的这项充满东方智慧的模拟战争游戏，被中国超级计算机独占鳌头。

值得一提的是，浪潮天梭在比赛中，同时迎战柳大华、张强、汪洋、徐天红、朴风波5位大师。在2局制的博弈中，浪潮天梭以平均每步棋27秒的速度，每步66万亿次的棋位分析与检索能力，最终以11：9的总比分险胜。

柳大华在两局之间中场休息时，直言这场比赛“艰苦卓绝”。他在赛后表示：“我觉得计算机的优势在于它的计算非常快而且准确，有抓住优势的能力，并且抓住以后就不放手，不会受到任何不良的心理影响，将胜利进行到底。不过它的确在平稳的局面下会比较死板，不够灵活。”

2011　沃森：答题“学霸”

2011年，“深蓝”的同门师弟“沃森”在类似于“最强大脑”的美国智力问答节目《危险边缘》中挑战两位人类冠军。

虽然比赛时不能接入互联网搜索，但“沃森”存储了2亿页的数据，包括各种百科全书、词典、新闻，甚至维基百科的全部内容。“沃森”可以在3秒内检索数百万条信息并以人类语言输出答案，还能分析题目线索中的微妙含义、讽刺口吻及谜语等。“沃森”还能根据比赛奖金的数额、自己比对手落后或领先的情况、自己擅长的题目领域来选择是否要抢答某一个问题。

“沃森”最终轻松战胜两位人类冠军，展示出的自然语言理解能力一直是人工智能界的重点课题。

2015　阿尔法围棋：“思考者”

2015年10月，“阿尔法围棋”人工智能程序以5：0战胜欧洲围棋冠军樊麾，这是人工智能程序首次在不让子的情况下战胜人类围棋选手。

樊麾1月份回顾这场比赛时表示，“就是在一个特定的房间里，我面前有一张棋盘和一台电脑，我没有在电脑上直接下，而是通过棋盘下的。”至于落败的原因，樊麾分析称，“首先是自己棋有点臭，尤其是到了后半盘，开始读秒的时候老打‘勺子’，下得也比较着急，我这些毛病，事后看都被电脑抓住了。其次应该说是心态问题，我太想赢了，而且一开始我也不太相信它能战胜我。”

樊麾对记者说：“如果没有人告诉我，我一定不知道它是电脑，它太像人了。它一定是在思考。按照人的说法，它应该有棋风吧。”

结合songrotek的专栏编写

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：数据分析师北京爱街网络科技有限公司

一节课掌握AI办公提效神器

数据分析师 1次课共1小时

高老师