没学过棋谱却拿下60场胜利！Master 到底是谁？

CARI_OSP · 发表于 6-1-2017 01:07 PM

网络棋圣 “Master” 连续横扫中国、日本和韩国的围棋高手，缔造60场胜利的不败神话，引起全球高度关注其真实身份。终于！Master 结束60场人机车轮战后，身份终于获得官方确认！原来，神秘棋手就是 Google Deep Mind 旗下的人工智能 Alpha Go！

图片摘自网络

曾和 AlphaGo 对战而成名的欧洲围棋冠军樊麾在社交网络上发表公告，确认 Master 就是 Alpha Go 的升级测试版！也是 Google Deep Mind 团队核心测试工程师的樊麾也揭露惊人的一点，指 Master 在人机战中不按牌理出牌，和是 Master 或没学过棋谱有关！

樊麾在微博中指出，“我们最近很努力开发阿尔法围棋，刚过去的几天我们在网络的对弈平台进行了一些非正式的快旗对局，目的是为了检验我们最新版本的阿尔法围棋是否如我们的预期。”

去年12月29日以来，一个名为 “Master” 的神秘网络棋手在围棋界掀起腥风血雨。中国棋圣聂卫平、韩国棋王朴廷桓、日本高手井山裕太、世界排名第一的中国围棋手柯洁先后应战，无奈全数落败，Master 一连赢得60场胜利，创下不败的惊人战绩。

elvinday · 发表于 6-1-2017 05:28 PM

看来以后就是电脑控制人类了

Markie · 发表于 6-1-2017 06:10 PM

sai还没出场而已

Theraceuyl · 发表于 6-1-2017 06:44 PM

等等，为什么说没学过棋谱？AlphaGo的雏形就是以输入多篇实战棋谱为“学习”根基的！

之所以觉得不照“常理”的棋在AlphaGo 自我运算对弈里却极有可能繁复出现过的。棋手一天能下多少盘棋? 电脑却又是以高速演算、记录、整合的。不了解、很少见不等于没有棋谱影响的。

tauruslau · 发表于 6-1-2017 06:48 PM

诸葛孔明、周瑜会胜它吗？

woo6466 · 发表于 6-1-2017 09:10 PM

电脑世界了，超级电脑

kaigo · 发表于 6-1-2017 10:03 PM

Theraceuyl 发表于 6-1-2017 06:44 PM
等等，为什么说没学过棋谱？AlphaGo的雏形就是以输入多篇实战棋谱为“学习”根基的！

之所以觉得不照“常理”的棋在AlphaGo 自我运算对弈里却极有可能繁复出现过的。棋手一天能下多少盘棋? 电脑却又是以高速演 ...

升级版的Master 完全没有任何棋谱
第一天的棋局就当做是学习了
但你说的也极有可能

Theraceuyl · 发表于 6-1-2017 11:14 PM

kaigo 发表于 6-1-2017 10:03 PM
升级版的Master 完全没有任何棋谱
第一天的棋局就当做是学习了
但你说的也极有可能

最新的版本还未看到论文，可是基本不出alphago的纲领，所以这才应该是升级而不是重新再编。
一来，就算是升级版，其数据库也是以往累积而成
另外，alphago 第一大层的筛选演算，或对于policy tree 的neural network 来说有很大的程度逃离不了棋谱结构出的定式和走向。正是有了棋谱才能省去已知的不可行，才能急剧的减少演算范畴。
alphago之所以“伟大”，其中之一在于创新出很多着职业棋手也看不透的手法，但这不代表完全推翻已有的棋谱。再说，所谓的“创新”也是在机-机对弈下棋谱的累积和突变，打开人们之前还没加强意识的更优化solution

hawkman · 发表于 7-1-2017 10:50 AM

Theraceuyl 发表于 6-1-2017 11:14 PM
最新的版本还未看到论文，可是基本不出alphago的纲领，所以这才应该是升级而不是重新再编。
一来，就算是升级版，其数据库也是以往累积而成
另外，alphago 第一大层的筛选演算，或对于policy tree 的neural net ...

alphago 的做法就是自己和自己對奕.  最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大  一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其本上就不用AI, 用brute force, 已經是必勝.

所以, 如果不是電腦計算能力的限制,  不用棋譜學習, 一定比用棋譜學習好.

這就是 neural network 中的 local maximum 的問題. 這正正就是柯潔說的, "原來我們下了一千年的棋,是錯的; 但再想想,master 下的棋,又更合棋理".  因為棋手也是由前人的棋譜學習, 所以棋手也是不斷的找一個local maximum.

所以,我理解文章的意思是, 這個升級版, 加強了運升能力, 可以自我對奕更多次.  這就可以用新局開始學習, 不用棋譜.

Theraceuyl · 发表于 7-1-2017 01:54 PM

hawkman 发表于 7-1-2017 10:50 AM
alphago 的做法就是自己和自己對奕. 最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其 ...

我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的，而且就算有一天假设能brute force了就能“必胜”？难道围棋不是有和局这回事吗？更何况brute force也没有在第一步就能下出必胜的一着。两台brute-force 的deepblue 对弈的结果一定只有同一台能胜？

现实点，围棋不是最原始的Atari 游戏，最理想的实践方案是借鉴已有的棋谱作为计算数据库的原型开发，在演算中收敛出更佳，同时也籍此适合于人类从中再学习。因此，15年和16年亮相的Alphago并不是纯粹的自己跟自己玩而已，其 machine learning 建立在输入的雏形棋谱之上也是既定事实，不晓得有什么好纠缠的。

从这篇文章里，我没有看到实证说明樊麾或内部核心开发师说这版本不用棋谱，所以才有一点质疑。我想升级版更有可能在完善化alphago负李世石的第四局第79手（及后续各种昏招）的monte-carlo searching 和反馈胜率的algorithm，当然也可能在平行运算和其他的计算优化作调整。

hawkman · 发表于 7-1-2017 05:26 PM

Theraceuyl 发表于 7-1-2017 01:54 PM
我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的，而且就算有一天假设能brute force了就能“必胜”？难道围棋不是有和局这回事吗？更何况brute force也没有在第一步就能下出必胜的一着。两台brut ...

1.  我的用詞實在不夠精準，應該是brute force 能夠保証"不敗"。
2.  現在沒有公開資料，master是否真的不用棋譜。
3.  不用棋譜來開始，換做 neural networks的說法，就是restart training from random initialization. 這個做法，是可以增加找到更好答案的機會。

楚河汉界 · 发表于 7-1-2017 05:50 PM

国际象棋，中国象棋之后
连围棋也沦陷了。。

Theraceuyl · 发表于 7-1-2017 07:30 PM

hawkman 发表于 7-1-2017 05:26 PM
1.  我的用詞實在不夠精準，應該是brute force 能夠保証"不敗"。
2.  現在沒有公開資料，master是否真的不用棋譜。
3.  不用棋譜來開始，換做 neural networks的說法，就是restart training from random init ...

1. 所以两台deepblue 对弈谁才是“不败”？而且，我觉得扯去brute force其实跟alphago无关。
2. 所以我第一次就说了最新论文还没看到，而这篇报道“不靠谱”的这么说，我反倒没看到确切的当事人确认过这点。加上主要媒体的报道、官网等也不见如此消息，所以问题是写着报道的是怎么“得知”的？这只不过是合理怀疑。
3. Initial randomization 在这里的意义大不大值得商榷。更何况这不可避免的只会增加演算，耗时耗力。同时，当初alphago负棋的第79手也是在monte carlo下，RNG晕招的产物。

poppa · 发表于 28-3-2017 11:00 AM

今天的超级电脑，是若干年后小孩的手机玩具。

		自动登录	找回密码
密码			注册

没学过棋谱却拿下60场胜利！Master 到底是谁？

评分

评分

评分

评分

评分

所属分类: 电脑手机