查看: 777|回复: 13
|
没学过棋谱却拿下60场胜利!Master 到底是谁?
[复制链接]
|
|
发表于 6-1-2017 05:28 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 6-1-2017 06:10 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 6-1-2017 06:44 PM
|
显示全部楼层
等等,为什么说没学过棋谱?AlphaGo的雏形就是以输入多篇实战棋谱为“学习”根基的!
之所以觉得不照“常理”的棋 在AlphaGo 自我运算对弈里却极有可能繁复出现过的。棋手一天能下多少盘棋? 电脑却又是以高速演算、记录、整合的。不了解、很少见不等于没有棋谱影响的。 |
评分
-
查看全部评分
|
|
|
|
|
|
|
发表于 6-1-2017 06:48 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 6-1-2017 09:10 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 6-1-2017 10:03 PM
|
显示全部楼层
升级版的Master 完全没有任何棋谱
第一天的棋局就当做是学习了
但你说的也极有可能
|
|
|
|
|
|
|
|
发表于 6-1-2017 11:14 PM
|
显示全部楼层
最新的版本还未看到论文,可是基本不出alphago的 纲领,所以这才应该是升级而不是重新再编。
一来,就算是升级版,其数据库也是以往累积而成
另外,alphago 第一大层的筛选演算,或对于policy tree 的neural network 来说有很大的程度逃离不了棋谱结构出的定式 和走向。正是有了棋谱才能省去已知的不可行,才能急剧的减少演算范畴。
alphago之所以“伟大”,其中之一在于创新出很多着职业棋手也看不透的手法,但这不代表完全推翻已有的棋谱。再说,所谓的“创新”也是在机-机对弈下棋谱的累积和突变,打开人们之前还没加强意识的更优化solution
|
评分
-
查看全部评分
|
|
|
|
|
|
|
发表于 7-1-2017 10:50 AM
|
显示全部楼层
alphago 的做法就是自己和自己對奕. 最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大 一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其本上就不用AI, 用brute force, 已經是必勝.
所以, 如果不是電腦計算能力的限制, 不用棋譜學習, 一定比用棋譜學習好.
這就是 neural network 中的 local maximum 的問題. 這正正就是柯潔說的, "原來我們下了一千年的棋,是錯的; 但再想想,master 下的棋,又更合棋理". 因為棋手也是由前人的棋譜學習, 所以棋手也是不斷的找一個local maximum.
所以,我理解文章的意思是, 這個升級版, 加強了運升能力, 可以自我對奕更多次. 這就可以用新局開始學習, 不用棋譜.
|
评分
-
查看全部评分
|
|
|
|
|
|
|
发表于 7-1-2017 01:54 PM
|
显示全部楼层
hawkman 发表于 7-1-2017 10:50 AM
alphago 的做法就是自己和自己對奕. 最理想的做法, 就是由 0 data, 開很多分身對奕, 從每盤中累積經驗.
但是圍棋的變化實在太大 一局的變化是 (19 x 19) 的 (19 x 19) 次方. 如果電腦可以計算到這個答案, 其 ...
我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的,而且就算有一天假设能brute force了就能“必胜”?难道围棋不是有和局这回事吗?更何况brute force也没有在第一步就能下出必胜的一着。两台brute-force 的deepblue 对弈的结果一定只有同一台能胜?
现实点,围棋不是最原始的Atari 游戏,最理想的实践方案是借鉴已有的棋谱作为计算数据库的原型开发,在演算中收敛出更佳,同时也籍此适合于人类从中再学习。因此,15年 和16年亮相的Alphago并不是纯粹的自己跟自己玩而已,其 machine learning 建立在输入的雏形棋谱之上也是既定事实,不晓得有什么好纠缠的。
从这篇文章里,我没有看到实证说明樊麾或内部核心开发师说这版本不用棋谱,所以才有一点质疑。我想升级版更有可能在 完善化alphago负李世石的第四局第79手(及后续各种昏招)的monte-carlo searching 和反馈胜率的algorithm,当然也可能在平行运算和其他的计算优化作调整。
|
评分
-
查看全部评分
|
|
|
|
|
|
|
发表于 7-1-2017 05:26 PM
来自手机
|
显示全部楼层
Theraceuyl 发表于 7-1-2017 01:54 PM
我想你一开始就提到的“最理想”做法完全是建立在不现实的假想上的,而且就算有一天假设能brute force了就能“必胜”?难道围棋不是有和局这回事吗?更何况brute force也没有在第一步就能下出必胜的一着。两台brut ...
1. 我的用詞實在不夠精準, 應該是brute force 能夠保証"不敗"。
2. 現在沒有公開資料,master是否真的不用棋譜。
3. 不用棋譜來開始,換做 neural networks的說法,就是restart training from random initialization. 這個做法,是可以增加找到更好答案的機會。 |
|
|
|
|
|
|
|
发表于 7-1-2017 05:50 PM
来自手机
|
显示全部楼层
|
|
|
|
|
|
|
发表于 7-1-2017 07:30 PM
|
显示全部楼层
hawkman 发表于 7-1-2017 05:26 PM
1. 我的用詞實在不夠精準, 應該是brute force 能夠保証"不敗"。
2. 現在沒有公開資料,master是否真的不用棋譜。
3. 不用棋譜來開始,換做 neural networks的說法,就是restart training from random init ...
1. 所以两台deepblue 对弈谁才是“不败”?而且,我觉得扯去brute force其实跟alphago无关。
2. 所以我第一次就说了最新论文还没看到,而这篇报道“不靠谱”的这么说,我反倒没看到确切的当事人确认过这点。加上主要媒体的报道、官网等也不见如此消息,所以问题是写着报道的是怎么“得知”的?这只不过是合理怀疑。
3. Initial randomization 在这里的意义大不大值得商榷。更何况这不可避免的只会增加演算,耗时耗力。同时,当初alphago负棋的第79手也是在monte carlo下,RNG晕招的产物。
|
|
|
|
|
|
|
|
发表于 28-3-2017 11:00 AM
|
显示全部楼层
|
|
|
|
|
|
| |
本周最热论坛帖子
|