阿尔法狗的升级版阿尔法元(AlphaGo Zero)最近问世,通过三天的学习,就彻底超越了打败李世石的第一代阿尔法狗。而且这次的升级版不再像以前版本那样,从人类棋谱积累的经验中学习,而是完全从零开始,通过机器左右手互博,“自学成材”。这反映了机器学习的强大能力。
确实,阿尔法狗给人最深的印象就是它的学习能力。当初它刚问世时,也存在许多业余水平的漏洞,以致专业棋手有理由看轻它。不料,仅仅过不了久,它已经进步到可以战胜李世石。即使在那个时候,它也不是不可战胜的,仍有机可乘。但再次改进,就到了专业棋手难求一胜的地步。
现在专业棋手已经对人工智能阿尔法狗甘拜下风,心悦诚服,无保留地认为人类下不过它。可以说,态度比较端正了。比较专业棋手的实事求是态度,反倒觉得阿尔法狗研发团队在专业态度上存在一些问题。
阿尔法狗的计算能力确实没得说,阿尔法狗研发团队本来没必要心虚。即使当初设计还没达到现在水平,犯了一些专业棋手看来低级的错误时,也没有什么。但阿尔法狗研发团队给人一种感觉,似乎自始自终在掩饰。
这个研发团队好像特别好面子,而且特别工于心计。比如说,当李世石能打过它时,故意找低水平的欧洲选手下;当柯洁还能看出它的弱点时,千万百计不与之交手;直到用假名偷偷摸摸测试出柯洁加上其它人在一起也赢不了它时,才改用真名与之交战;一旦赢了,又马上说不跟人玩了,让人感觉好像一个小孩子赢了之后再不给人翻身机会似的……。在这些方面表现得像个可爱的小孩子。小孩子想赢怕输可以理解,但像阿尔法狗已这样强大,研发团队心理还这样脆弱,实在没必要。是的,他们现在是把专业棋手打服了,但站在中立立场上说,他们现在不过是扬长避短,以己所长,克人之短,并没有坦率地把自己的短点拿出来示人,因此从围棋棋道探究角度说,还留下了许多没有探索到的空间。
别的不说,阿尔法狗对专业棋手下棋,第一,从不给专业棋手充分的练习、模拟机会,只让人家打无准备之仗。这与围棋界通过棋谱慢慢研究改进提高,在棋艺高度上是不一样的。这是它第一个心虚的地方。第二,所有比赛都是在限时下完成的,这就极大放大了人类棋手的局限,难以在充分思考下展开博弈。机器计算速度明显快于人,就算给人几倍时间也不见得被人超过,但它却不给人充分时间,这是它第二个心虚的地方。第三,机器不给专业棋手任何犯错机会,因此难以检验出人不犯错情况下会怎么样。举例来说,柯洁下的最后一盘,前百步都是机器上计算的最佳结果,结果只一步偏离,顿时全局再无翻身机会。专业棋手对此当然认帐,但旁人不免好奇,如果真像百年棋谱样,经后人检验仍无漏洞,人机对弈会怎样?这是它第三个心虚的地方。如果阿尔法狗团队充分大度,不跟人类一般见识的话,还可以再提高。公平的说,它只胜在竞技围棋上,说它已赢在整个围棋上,还不能令人信服。举例来说,阿尔法元上来就点三三,从来不下武宫正树风格的棋。宇宙流是天才型风格,在机器对技术性错误的严厉惩罚下,人类还没有下出这种风格,就早输了。实际上机器并没有真正试出这种艺术型的棋在不犯技术性错误的情况下到底可行不可行。
这最后一个方面,我自己有体会。下围棋,用机器一检验,人类错着实在太多。实际上还没等你下出发挥长处的地方,光是错着,足以把一盘棋葬送了。我用天顶程序(Zenith Go 6)下围棋,设在一段水平上,下了数百盘同一定式的黑布局棋,发现有一个明显规律。如果不悔棋,双方下得势均力敌,一个错着就会叫它干掉。但如果我在犯错处悔一下棋(天顶程序有“悔棋”功能),大多数情况下都能赢它达一百目以上(下围棋开玩笑把这叫“百慕大”)。悔棋当然是专业棋手不屑的。但从非竞技实战的棋理探索上,反复试错却是有意义的。
阿尔法狗团队只是想利用一把棋手,看来并不想承担围棋棋艺方面的社会责任;而且拒绝与人交流,也意味着技术上走向唯理性思路,封闭探索人类艺术性思维的可能性。希望中国人工智能团队加把油,超过它,与棋手共同从技术和艺术两方面探索发展棋艺本身。