详析阿尔法围棋“三头六臂”

本报记者高博

3月10日，“阿尔法围棋”再次战胜李世石。无论执黑执白，李世石均无还手之力。有人欣喜，有人哀叹，有人惊掉下巴。机器杀伐决断，只凭三种武器：神经网络、蒙特卡洛算法和评估局面。

首先，“阿尔法围棋”是一团神经网络，不是一本大全棋谱。它下棋不是翻谱。跟人一样靠计算和直觉，但它“少年老成”，直觉更准。

职业棋手有种“棋感”，那是下了上万盘棋后，大脑见多识广，感觉到某一手的优劣，尽管说不出道理。画画，骑车，拿榔头敲钉子，都是凭感觉，“唯技熟耳”。有个极端的例子，中国有种专业，可以辨认刚孵蛋出来的小鸡雄雌，他们说不出怎么辨认，凭感觉去选，基本没错。

临帖一万次，有了书法感觉；打谱一万遍就有了棋感。为什么？大脑=神经细胞+神经突触，突触是大脑的电线，经常“过电”的突触会更强壮。小孩子的大脑正是如此学习：伴随成功的快乐，刚用过的神经突触就会加强，习惯就养成了。

早在冯·诺依曼时代，科学家就想到用电脑模拟大脑：计算单元+通路，通路的强度可调节。虚拟大脑一次次接受任务，每次调用不同的神经通路去做，如果任务成功，刚用过的通路强度会被提高，反之强度降低。

“阿尔法围棋”复制了小孩子的学习过程，成功了就调高相关通路强度，失败了就调低，使神经网络在自我对弈百万盘（用不同风格）后调整到最优。

“阿尔法围棋”的“肉身”是神经网络；在此基础上，它有两套心法：蒙特卡洛算法和评估局面。

蒙特卡洛算法很好理解，很多棋类软件都这么干。你吩咐狗熊去玉米田里掰一个最大的棒子，但玉米田太大，累死了也走不完。狗熊想了个主意：根据经验选十来个常出大棒子的地方，仔细找一遍。最后掰的大棒子，就算不是整块田里最大的，也差不离。这就是蒙特卡洛式的狗熊。

围棋盘是19乘19个位置，以前大家认为天文数字的可能性，电脑算不过来的。但蒙特卡洛算法只选取一小部分有希望的点来考虑。“阿尔法围棋”跟之前的“ZEN”等围棋软件都是如此，倒不出奇。

但加上了“价值网络”，“阿尔法围棋”一步登顶珠穆朗玛。它不需要推演到终局，只考虑落子之后二十步的局面优劣。“价值网络”负责给局势打分。只要保证落子二十步后局面不落下风，它就大胆地下。

跟李世石对弈两局，“阿尔法围棋”下出一些貌似的弱智棋，该占的便宜不占，还有一些“大俗招”（高手看来目光短浅的选择），旁观者说不清为什么。或许是“阿尔法围棋”在几百万盘对弈的经验基础上，选择了一条最没风险的去路，而人类所谓正招却排除不了局势转劣的可能？

人类下围棋，除了计算，更重要的是评估或者说“审美”，职业棋手们用“均衡”“厚实”去描述理想的棋形，并非算准了要赢，只是感觉棋局更美（等同于更有价值，胜率更高），“阿尔法围棋”再现了人类的天赋。

话说“评估价值”的能力，正是机器缺乏的。电脑的记忆好，计算快，但评估方面是白痴。举个例子，小孩子都能辨认人脸，还能说出美丑（高价值和低价值），但机器做不到。目前最好的Google图片搜索，错误率已经降到1%了，有时还是把人的照片说成大猩猩，把熊猫的照片说成是鸵鸟，评估美丑就更难了。

相似地，机器能搜索文章，但不能评论文章；机器试图理解人的言语，但经常驴唇不对马嘴，你跟它开玩笑，它跟你照本宣科。因为理解语言和辨识人脸，都要评估。人的大脑能瞬间体会到哪些东西对劲（高价值），哪些不对劲（低价值），但机器不能。

当年的“深蓝”，就是傻电脑的代表，它针对国际象棋比赛开发，考虑4个象棋参数，用超强计算能力选择棋步，但它没法评判卡斯帕罗夫的水平高低。

早在“阿尔法围棋”战胜欧洲冠军时，就有专家预言2016年为人工智能元年。或许因为它代表了机器评估能力的突破。还有美国的“沃森”超级电脑，2011年在美国全国智力答题比赛中战胜人类，最近已经能根据病历做初步诊断，或帮律师准备法庭材料了。

随着机器演化出评估能力，一些智力劳动，比如整理笔记、驾驶汽车、美容顾问，或许会彻底被机器取代；有人当大老板，有人会再就业。“阿尔法围棋”掀起的机器风暴，将从纹枰刮向人间。

（科技日报北京3月10日电）