没学过棋谱却拿下60场胜利！Master 到底是谁？

6-1-2017 01:07 PM| 发布者: CARI_OSP | 评论: 13|原作者: 文: 胡晓萍

摘要: 网络棋圣 “Master” 连续横扫中国、日本和韩国的围棋高手，缔造60场胜利的不败神话，引起全球高度关注其真实身份。终于！Master 结束60场人机车轮战后，身份终于获得官方确认！

网络棋圣 “Master” 连续横扫中国、日本和韩国的围棋高手，缔造60场胜利的不败神话，引起全球高度关注其真实身份。终于！Master 结束60场人机车轮战后，身份终于获得官方确认！原来，神秘棋手就是 Google Deep Mind 旗下的人工智能 Alpha Go！

图片摘自网络

曾和 AlphaGo 对战而成名的欧洲围棋冠军樊麾在社交网络上发表公告，确认 Master 就是 Alpha Go 的升级测试版！也是 Google Deep Mind 团队核心测试工程师的樊麾也揭露惊人的一点，指 Master 在人机战中不按牌理出牌，和是 Master 或没学过棋谱有关！

樊麾在微博中指出，“我们最近很努力开发阿尔法围棋，刚过去的几天我们在网络的对弈平台进行了一些非正式的快旗对局，目的是为了检验我们最新版本的阿尔法围棋是否如我们的预期。”

去年12月29日以来，一个名为 “Master” 的神秘网络棋手在围棋界掀起腥风血雨。中国棋圣聂卫平、韩国棋王朴廷桓、日本高手井山裕太、世界排名第一的中国围棋手柯洁先后应战，无奈全数落败，Master 一连赢得60场胜利，创下不败的惊人战绩。

生气

惊讶

难过

好笑

无聊

刚表态过的朋友 (5 人)

匿名
poppa
匿名
prince
yl_ng

收藏分享邀请

上一篇：中国手机销量排行榜冠军非苹果、三星！下一篇：“提升看片感官”？淘宝网卖VR眼镜竟送海量“黄”视频！

最新评论

引用 elvinday 6-1-2017 05:28 PM: 看来以后就是电脑控制人类了

引用 Markie 6-1-2017 06:10 PM: sai还没出场而已

引用 Theraceuyl 6-1-2017 06:44 PM: 等等，为什么说没学过棋谱？AlphaGo的雏形就是以输入多篇实战棋谱为“学习”根基的！

之所以觉得不照“常理”的棋在AlphaGo 自我运算对弈里却极有可能繁复出现过的。棋手一天能下多少盘棋? 电脑却又是以高速演算、记录、整合的。不了解、很少见不等于没有棋谱影响的。

引用 tauruslau 6-1-2017 06:48 PM: 诸葛孔明、周瑜会胜它吗？

引用 woo6466 6-1-2017 09:10 PM: 电脑世界了，超级电脑

引用 kaigo 6-1-2017 10:03 PM: Theraceuyl 发表于 6-1-2017 06:44 PM
等等，为什么说没学过棋谱？AlphaGo的雏形就是以输入多篇实战棋谱为“学习”根基的！

之所以觉得不照“常理”的棋在AlphaGo 自我运算对弈里却极有可能繁复出现过的。棋手一天能下多少盘棋? 电脑却又是以高速演 ...

升级版的Master 完全没有任何棋谱
第一天的棋局就当做是学习了
但你说的也极有可能

引用 Theraceuyl 6-1-2017 11:14 PM: kaigo 发表于 6-1-2017 10:03 PM
升级版的Master 完全没有任何棋谱
第一天的棋局就当做是学习了
但你说的也极有可能

最新的版本还未看到论文，可是基本不出alphago的纲领，所以这才应该是升级而不是重新再编。
一来，就算是升级版，其数据库也是以往累积而成
另外，alphago 第一大层的筛选演算，或对于policy tree 的neural network 来说有很大的程度逃离不了棋谱结构出的定式和走向。正是有了棋谱才能省去已知的不可行，才能急剧的减少演算范畴。
alphago之所以“伟大”，其中之一在于创新出很多着职业棋手也看不透的手法，但这不代表完全推翻已有的棋谱。再说，所谓的“创新”也是在机-机对弈下棋谱的累积和突变，打开人们之前还没加强意识的更优化solution

引用 hawkman 7-1-2017 10:50 AM: Theraceuyl 发表于 6-1-2017 11:14 PM
最新的版本还未看到论文，可是基本不出alphago的纲领，所以这才应该是升级而不是重新再编。
一来，就算是升级版，其数据库也是以往累积而成
另外，alphago 第一大层的筛选演算，或对于policy tree 的neural net ...

alphago 的做法就是自己和自己對奕.  最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大  一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其本上就不用AI, 用brute force, 已經是必勝.

所以, 如果不是電腦計算能力的限制,  不用棋譜學習, 一定比用棋譜學習好.

這就是 neural network 中的 local maximum 的問題. 這正正就是柯潔說的, "原來我們下了一千年的棋,是錯的; 但再想想,master 下的棋,又更合棋理".  因為棋手也是由前人的棋譜學習, 所以棋手也是不斷的找一個local maximum.

所以,我理解文章的意思是, 這個升級版, 加強了運升能力, 可以自我對奕更多次.  這就可以用新局開始學習, 不用棋譜.

引用 Theraceuyl 7-1-2017 01:54 PM: hawkman 发表于 7-1-2017 10:50 AM
alphago 的做法就是自己和自己對奕. 最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其 ...

我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的，而且就算有一天假设能brute force了就能“必胜”？难道围棋不是有和局这回事吗？更何况brute force也没有在第一步就能下出必胜的一着。两台brute-force 的deepblue 对弈的结果一定只有同一台能胜？

现实点，围棋不是最原始的Atari 游戏，最理想的实践方案是借鉴已有的棋谱作为计算数据库的原型开发，在演算中收敛出更佳，同时也籍此适合于人类从中再学习。因此，15年和16年亮相的Alphago并不是纯粹的自己跟自己玩而已，其 machine learning 建立在输入的雏形棋谱之上也是既定事实，不晓得有什么好纠缠的。

从这篇文章里，我没有看到实证说明樊麾或内部核心开发师说这版本不用棋谱，所以才有一点质疑。我想升级版更有可能在完善化alphago负李世石的第四局第79手（及后续各种昏招）的monte-carlo searching 和反馈胜率的algorithm，当然也可能在平行运算和其他的计算优化作调整。

引用 hawkman 7-1-2017 05:26 PM: Theraceuyl 发表于 7-1-2017 01:54 PM
我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的，而且就算有一天假设能brute force了就能“必胜”？难道围棋不是有和局这回事吗？更何况brute force也没有在第一步就能下出必胜的一着。两台brut ...

1.  我的用詞實在不夠精準，應該是brute force 能夠保証"不敗"。
2.  現在沒有公開資料，master是否真的不用棋譜。
3.  不用棋譜來開始，換做 neural networks的說法，就是restart training from random initialization. 這個做法，是可以增加找到更好答案的機會。

引用楚河汉界 7-1-2017 05:50 PM: 国际象棋，中国象棋之后
连围棋也沦陷了。。

引用 Theraceuyl 7-1-2017 07:30 PM: hawkman 发表于 7-1-2017 05:26 PM
1.  我的用詞實在不夠精準，應該是brute force 能夠保証"不敗"。
2.  現在沒有公開資料，master是否真的不用棋譜。
3.  不用棋譜來開始，換做 neural networks的說法，就是restart training from random init ...

1. 所以两台deepblue 对弈谁才是“不败”？而且，我觉得扯去brute force其实跟alphago无关。
2. 所以我第一次就说了最新论文还没看到，而这篇报道“不靠谱”的这么说，我反倒没看到确切的当事人确认过这点。加上主要媒体的报道、官网等也不见如此消息，所以问题是写着报道的是怎么“得知”的？这只不过是合理怀疑。
3. Initial randomization 在这里的意义大不大值得商榷。更何况这不可避免的只会增加演算，耗时耗力。同时，当初alphago负棋的第79手也是在monte carlo下，RNG晕招的产物。