大师与狗(更不更随缘了)
Posted: 2017-01-04 17:02
关于围棋和人工智能的坑
去年1月份,伦敦的Google DeepMind团队搞了个大……新闻。他们在《自然》杂志上发表了一篇题为“Mastering the game of Go with deep neural networks and tree search”的论文,描述DeepMind新开发的围棋软件Alpha Go(以下简称狗)。文中附上了狗对欧洲冠军,职业选手樊麾的五局正式对局棋谱,狗获得全胜。
《自然》新闻链接:http://www.nature.com/news/google-ai-al ... go-1.19234
《自然》论文(有兴趣的可pm我):http://www.nature.com/nature/journal/v5 ... 16961.html
文章一出,围棋界和人工智能界一片哗然。围棋向来被看成东方古老智慧的象征,千年历史带来各种传说(尧造围棋以教丹朱、烂柯),赋予棋局各种哲理(兵法、人生)。它的规则简单明了,而棋局变化却浩如烟海,是人工智能界有名的难题。90年代末深蓝已经能击败国际象棋冠军,而近20年后的今天,国际围棋软件比赛的冠军也只能和业余中级选手下个平手,与职业棋手根本无法抗衡。围棋的难点,主要在于选择太多,而每个选择下对局面的判断,尤其在初局时,非常难以把握。150步的棋局,大约有1e170种情况,大于宇宙中原子总数,因此无法用暴力方法解决。而对同样的局面,职业棋手经常会有截然不同的优劣判断,其中掺杂了无法量化的个人的喜好:外势或者实地,攻击或者防守,很多时候凭的是所谓的“棋感”,对“棋形”的直觉。为这些抽象的概念建模,形成合理(必需要有胜率)、有效(必需在规定时间内完成)的算法,这都是难点。许多围棋软件设计者都觉得战胜职业高手还是挺遥远的事。而职业选手也普遍据此而自傲,认为围棋的玄机人工智能一时半会还无法攻克。而这下忽然间被狗连赢五盘,各方都觉得不可思议。
樊麾是在国内取得的职业段位,之后移居法国。国内棋童众多,每年定段赛好比高考,浩浩荡荡,几百个人选一二十个过独木桥,难度极大。因此樊麾的实力,至少在定段时,不用质疑。所以说狗赢的是货真价实的职业选手。不过就公布的棋谱来看,以职业高手(世界冠军)看来并不精彩,樊麾犯了不少低级失误,而狗的招法也没有什么亮点,看不到绝顶高手华丽的致命一击,许多手法非常“业余”,显得很“俗”。因此当狗团队宣布将于三月份与韩国棋手,二十一世纪头十年公认的第一人李世石进行五番棋对决时,职业棋界普遍持乐观态度。预测大比分五比零的大有人在。于此相反,狗团队虽然出言谨慎,但对于狗取胜也相当乐观。结果证明职业棋界犯了一个相当大的错误:他们对于狗的战法(算法)理解不够,不明白仅凭这五盘棋谱是难以看出狗真正的实力的。
狗团队的《自然》论文提出了通过深度学习(Deep Learning)训练神经网络(Neural Networks),附加蒙特卡洛搜索树(Monte Carlo Search Tree)的新方案。这里的神经网络包括策略网络(Policy Network)加价值网络(Value Network)。简单的说,策略网络负责分析棋局,提供可能的着手;而估值网络负责分析这些着手对胜率的影响,给这些着手打分。狗的策略网络分作三个模块,从根本上可说是“模仿人类高手”。其一是通过分析大量的高手对局,进行有监督学习(Supervised Learning),从这些高手对局中学到或建立一个模式函数,然后依此模式在具体对局中推测可能的着手——在这个局面下,世界冠军会下在哪里?其二是通过不断的左右互搏(狗咬狗)对局进行强化学习(Reinforcement Learning),对建立起来的模式函数依据胜率进行优化——在高手中流行的漂亮下法变化复杂,后续容易出错,不见得胜率最高,狗则会选择简单朴实的着法保持胜率。其三,在有监督学习中同时训练一个粗糙版本的推进策略(rollout policy),用来在限时棋赛中进行快速分析。狗的价值网络,则是通过自我对局进行强化学习,在每一个局面下用蒙特卡洛法随机选取策略网络提供的变化,不断分支下到终局,然后根据最终胜负情况回头对各种选择进行打分。在实际对局中,狗把策略网络,估值网络和蒙特卡洛搜索树结合起来。狗先用策略网络分析出接下来可能的着法,然后用推进策略对每一分枝快速对句直到终局,之后结合价值网络对每一分枝的评分以及自我对局的胜负情况,选择最优的着手。狗的这些模块,每一个听着都挺普通,也都是成熟的算法,但结合起来就相当的实用。单机版的狗(48CPU算40线程的蒙特卡洛,8GPU并行算神经网络)在5秒一步的测试中横扫各种围棋软件,495盘棋只输了一盘。分布式的狗(1202CPU,176GPU)则更强,对单机版狗胜率达到77%。加上对樊麾二段的战绩(正式对局狗5:0,非正式对局狗3:2),狗团队估计单机版的狗应至少有职业二段的实力,分布式的狗则有四段或更强。当然,实战对局中影响人类棋手胜率的因素很多,段位早就不能作为实力的标准,但稳定性和对胜负的唯一执念,只能是狗的加分因素。狗完全不考虑着法漂亮与否,撒泼发疯也无所谓,因为狗没有这些概念。
在这里插叙一段狗团队的情况。DeepMind是个英国AI公司,2010年成立,2014被谷歌以5亿刀买下。创始人之一Demis Hassabis母亲是新加坡华裔,国际象棋神童,13岁就达到大师积分,在当时14岁以下组里仅次于大波尔加。之后开始学习计算机。狗参与开发围棋算法,很大一个推手是来自台湾的黄世杰(Aja Huang)博士。他2011年的博士论文就是关于蒙特卡洛搜索树在围棋中的应用。他也是《自然》论文的并列一作。在博士论文里黄世杰预测AI将在10到20年内击败人类。
与李世石九段的五番棋人机大战于2016年三月在首尔举行。李世石下满五局可获15万刀出场费,胜局每局额外奖励2万刀,五盘全胜则将另获100万刀重奖。李世石九段1983年出生,16岁就屡胜当时世界第一人李昌镐,被称为不败少年。2002至今获14个世界冠军,仅次于李昌镐。李世石九段棋风犀利,性格也特立独行,曾因为不愿参加韩国围棋联赛以及对局费分成问题与韩国棋院闹翻,在2009年全盛时期主动休职半年(老子不下了还不行吗?)。2010年回归后功力似乎不退反进,半年内达成恐怖的32胜4负——年度胜率排行榜第一大致是75%-80%左右。当然,围棋界更新换代越来愈快,天才少年层出不穷,25岁以上的都是老将。人机大战时的李世石九段仍是一流棋手,但成绩已不如中韩几位年轻棋手。今天公认最强的是19岁的柯洁九段,轻狂少年拥有一众迷妹粉丝,另外中韩还有大约十几位水平及其接近的高手(包括李世石),每人都有世界冠军,胜负都在一线之间。选择李世石当然考虑到了他的江湖地位和影响力。另外,谷歌在中国没有正式营运资格,一时也没法选中国棋手。
赛前李世石看了狗与樊麾的棋谱,认为狗还没有到能跟他争胜的水平。他觉得应该能让狗一先(狗执黑不贴子),这次比赛他应该能赢4:1或5:0。因狗以中国规则为基础开发,比赛采用中国规则,各方两小时自由支配时间,之后三次一分钟读秒(一分钟必需下一步,可三次获一分钟额外时间)。比赛时黄博士会坐在李世石对面,把李九段的着法告诉狗,然后再代替狗在实际的棋盘上落子。
tbc
去年1月份,伦敦的Google DeepMind团队搞了个大……新闻。他们在《自然》杂志上发表了一篇题为“Mastering the game of Go with deep neural networks and tree search”的论文,描述DeepMind新开发的围棋软件Alpha Go(以下简称狗)。文中附上了狗对欧洲冠军,职业选手樊麾的五局正式对局棋谱,狗获得全胜。
《自然》新闻链接:http://www.nature.com/news/google-ai-al ... go-1.19234
《自然》论文(有兴趣的可pm我):http://www.nature.com/nature/journal/v5 ... 16961.html
文章一出,围棋界和人工智能界一片哗然。围棋向来被看成东方古老智慧的象征,千年历史带来各种传说(尧造围棋以教丹朱、烂柯),赋予棋局各种哲理(兵法、人生)。它的规则简单明了,而棋局变化却浩如烟海,是人工智能界有名的难题。90年代末深蓝已经能击败国际象棋冠军,而近20年后的今天,国际围棋软件比赛的冠军也只能和业余中级选手下个平手,与职业棋手根本无法抗衡。围棋的难点,主要在于选择太多,而每个选择下对局面的判断,尤其在初局时,非常难以把握。150步的棋局,大约有1e170种情况,大于宇宙中原子总数,因此无法用暴力方法解决。而对同样的局面,职业棋手经常会有截然不同的优劣判断,其中掺杂了无法量化的个人的喜好:外势或者实地,攻击或者防守,很多时候凭的是所谓的“棋感”,对“棋形”的直觉。为这些抽象的概念建模,形成合理(必需要有胜率)、有效(必需在规定时间内完成)的算法,这都是难点。许多围棋软件设计者都觉得战胜职业高手还是挺遥远的事。而职业选手也普遍据此而自傲,认为围棋的玄机人工智能一时半会还无法攻克。而这下忽然间被狗连赢五盘,各方都觉得不可思议。
樊麾是在国内取得的职业段位,之后移居法国。国内棋童众多,每年定段赛好比高考,浩浩荡荡,几百个人选一二十个过独木桥,难度极大。因此樊麾的实力,至少在定段时,不用质疑。所以说狗赢的是货真价实的职业选手。不过就公布的棋谱来看,以职业高手(世界冠军)看来并不精彩,樊麾犯了不少低级失误,而狗的招法也没有什么亮点,看不到绝顶高手华丽的致命一击,许多手法非常“业余”,显得很“俗”。因此当狗团队宣布将于三月份与韩国棋手,二十一世纪头十年公认的第一人李世石进行五番棋对决时,职业棋界普遍持乐观态度。预测大比分五比零的大有人在。于此相反,狗团队虽然出言谨慎,但对于狗取胜也相当乐观。结果证明职业棋界犯了一个相当大的错误:他们对于狗的战法(算法)理解不够,不明白仅凭这五盘棋谱是难以看出狗真正的实力的。
狗团队的《自然》论文提出了通过深度学习(Deep Learning)训练神经网络(Neural Networks),附加蒙特卡洛搜索树(Monte Carlo Search Tree)的新方案。这里的神经网络包括策略网络(Policy Network)加价值网络(Value Network)。简单的说,策略网络负责分析棋局,提供可能的着手;而估值网络负责分析这些着手对胜率的影响,给这些着手打分。狗的策略网络分作三个模块,从根本上可说是“模仿人类高手”。其一是通过分析大量的高手对局,进行有监督学习(Supervised Learning),从这些高手对局中学到或建立一个模式函数,然后依此模式在具体对局中推测可能的着手——在这个局面下,世界冠军会下在哪里?其二是通过不断的左右互搏(狗咬狗)对局进行强化学习(Reinforcement Learning),对建立起来的模式函数依据胜率进行优化——在高手中流行的漂亮下法变化复杂,后续容易出错,不见得胜率最高,狗则会选择简单朴实的着法保持胜率。其三,在有监督学习中同时训练一个粗糙版本的推进策略(rollout policy),用来在限时棋赛中进行快速分析。狗的价值网络,则是通过自我对局进行强化学习,在每一个局面下用蒙特卡洛法随机选取策略网络提供的变化,不断分支下到终局,然后根据最终胜负情况回头对各种选择进行打分。在实际对局中,狗把策略网络,估值网络和蒙特卡洛搜索树结合起来。狗先用策略网络分析出接下来可能的着法,然后用推进策略对每一分枝快速对句直到终局,之后结合价值网络对每一分枝的评分以及自我对局的胜负情况,选择最优的着手。狗的这些模块,每一个听着都挺普通,也都是成熟的算法,但结合起来就相当的实用。单机版的狗(48CPU算40线程的蒙特卡洛,8GPU并行算神经网络)在5秒一步的测试中横扫各种围棋软件,495盘棋只输了一盘。分布式的狗(1202CPU,176GPU)则更强,对单机版狗胜率达到77%。加上对樊麾二段的战绩(正式对局狗5:0,非正式对局狗3:2),狗团队估计单机版的狗应至少有职业二段的实力,分布式的狗则有四段或更强。当然,实战对局中影响人类棋手胜率的因素很多,段位早就不能作为实力的标准,但稳定性和对胜负的唯一执念,只能是狗的加分因素。狗完全不考虑着法漂亮与否,撒泼发疯也无所谓,因为狗没有这些概念。
在这里插叙一段狗团队的情况。DeepMind是个英国AI公司,2010年成立,2014被谷歌以5亿刀买下。创始人之一Demis Hassabis母亲是新加坡华裔,国际象棋神童,13岁就达到大师积分,在当时14岁以下组里仅次于大波尔加。之后开始学习计算机。狗参与开发围棋算法,很大一个推手是来自台湾的黄世杰(Aja Huang)博士。他2011年的博士论文就是关于蒙特卡洛搜索树在围棋中的应用。他也是《自然》论文的并列一作。在博士论文里黄世杰预测AI将在10到20年内击败人类。
与李世石九段的五番棋人机大战于2016年三月在首尔举行。李世石下满五局可获15万刀出场费,胜局每局额外奖励2万刀,五盘全胜则将另获100万刀重奖。李世石九段1983年出生,16岁就屡胜当时世界第一人李昌镐,被称为不败少年。2002至今获14个世界冠军,仅次于李昌镐。李世石九段棋风犀利,性格也特立独行,曾因为不愿参加韩国围棋联赛以及对局费分成问题与韩国棋院闹翻,在2009年全盛时期主动休职半年(老子不下了还不行吗?)。2010年回归后功力似乎不退反进,半年内达成恐怖的32胜4负——年度胜率排行榜第一大致是75%-80%左右。当然,围棋界更新换代越来愈快,天才少年层出不穷,25岁以上的都是老将。人机大战时的李世石九段仍是一流棋手,但成绩已不如中韩几位年轻棋手。今天公认最强的是19岁的柯洁九段,轻狂少年拥有一众迷妹粉丝,另外中韩还有大约十几位水平及其接近的高手(包括李世石),每人都有世界冠军,胜负都在一线之间。选择李世石当然考虑到了他的江湖地位和影响力。另外,谷歌在中国没有正式营运资格,一时也没法选中国棋手。
赛前李世石看了狗与樊麾的棋谱,认为狗还没有到能跟他争胜的水平。他觉得应该能让狗一先(狗执黑不贴子),这次比赛他应该能赢4:1或5:0。因狗以中国规则为基础开发,比赛采用中国规则,各方两小时自由支配时间,之后三次一分钟读秒(一分钟必需下一步,可三次获一分钟额外时间)。比赛时黄博士会坐在李世石对面,把李九段的着法告诉狗,然后再代替狗在实际的棋盘上落子。
tbc