人心是一种复杂的、多层次的东西,波特——至少多数人心是。
——J.K.罗琳(J.K.Rowling),《哈利·波特与凤凰社》
我们在技术王国所做的几乎任何事情,似乎都将我们带离优雅和易懂,带向费解的复杂和意外。
——塞缪尔·阿贝斯曼(Samuel Arbesman),《过于复杂》
2003年的某个秋日,我的前博士研究生李道京,当时还是纽约市史蒂文森高中的学生,端坐在国际象棋课外俱乐部的棋盘前,占据他脑海的却是他儿时在韩国玩过的一种少为人知但历史更为悠久(约1000早年)的策略性棋戏——围棋。他曾经快速冲上了一段(相当于跆拳道中的黑带),这是离职业段位数步之遥的高级业余段位。
李道京决定在学校里开办一个围棋俱乐部,让朋友们一同来体验这项游戏。为了吸引同学参加,他将围棋描述成了“易入门但精通需毕生努力”的一种游戏。这句口号在那年果然吸引了不少人加入,俱乐部也逐渐扩大到了和国际象棋俱乐部同样的规模。
国际象棋和围棋有一定的相似之处:两者都是两位棋手对弈,分执白黑,轮流落子,吃掉对方棋子,模拟战局。两种棋类游戏都发源于亚洲,国际象棋起源于印度,围棋则起源于中国。
国际象棋对局的目的是将死对方的王,而围棋则靠攻城略地来取胜。此外,国际象棋中每颗棋子各有不同的能力,可以在棋盘上移动,而围棋中所有棋子皆一视同仁且落子后不能移动。乍一看,围棋似乎更简单,但实际上要复杂得多。数学家们推算出围棋棋盘上可能出现的布局数目要远远多于全宇宙的原子数量,正是这一点引起了人工智能领域的特别兴趣。
从土耳其机器人到IBM的深蓝,衡量智能机器水平的标准一直都是国际象棋。但即使是深蓝的程序员都遇到了挑战:赢得国际象棋所使用的方法根本无法在围棋对弈中战胜人类。程序员将国际象棋的规则编入了深蓝的软件,但就算深蓝的国际象棋知识都来源于人类程序员,它战胜卡斯帕罗夫也只是暴力计算的结果——深蓝能在一秒钟内考查两亿个棋位,然后选择最可能取得胜利的那一种走法。换句话说,深蓝是一个以超人类的计算能力为自己王牌的专家系统。
围棋的复杂程度使得计算机无法纯粹依靠计算能力获胜。这就意味着创造力成为获胜的必要条件,而这正是智能生物的特长。韩国的围棋世界冠军李世石相信围棋“是唯一真正平衡了左脑和右脑的棋类游戏”。这就解释了为什么深蓝在国际象棋领域获得了成功,而围棋软件却在人类大师面前苦苦挣扎的原因。但是,2016年的3月,一切都改变了,李世石在和谷歌的围棋程序AlphaGo的五局比赛中以总比分1∶4落败。
李道京从史蒂文森高中毕业后,开始了人工智能的研究生涯,最终成为一名数据科学家,也对我的工作起到了重要的影响。在整个本科和研究生生涯中,他都被告知要开发出能够攻破围棋的人工智能系统仍需几十年。然而他的老师都错了。
谷歌的软件究竟如何取得了如此佳绩?AlphaGo的胜利为何对包括李道京这样的棋类爱好者在内的所有人都至关重要呢?
AlphaGo的算法并非基于人类专家所编制的规则,相反,它基于超过3000万手专业围棋棋手的走法,使用机器学习为自己编写出了规则。此外,它还和自己对弈了数百万局。按照AlphaGo研究团队的说法,这个数字“比围棋发明以来全人类下过的围棋局数”还要多。2016年3月,在李世石和AlphaGo的第二局较量中,机器学习的成果得到了充分体现。在第一局较量中投子认输后,李世石下得更为谨慎,虽然AlphaGo略为占优,但鹿死谁手仍不可知。直到AlphaGo下出了第37手。
执黑的AlphaGo在棋盘的中间偏右位置落下了不同寻常的一子。“我想这是一个失误”,一位解说员脱口而出。李世石短暂地离开了比赛室,差不多15分钟后才回来做出了回应。樊麾,一位也曾输给AlphaGo的欧洲围棋冠军,评论道:“这不像是人类会下的一步棋,我从未见过人类如此下棋。”之后他又补充道:“这步下得太漂亮了,太漂亮了。”AlphaGo最终赢得了这局比赛(但愿AlphaGo也有体育精神吧)。
但实际上,从某种角度来说,第37手确实像是一步人类走出来的棋——那种神秘感、那种创造性、那种不可预测性,都是人类习以为常的能力,但对机器而言,的的确确出乎意料。这一步之所以不同寻常,是因为即便是AlphaGo的开发人员都无法理解,更不用说为它如此编程了。他们只是提供了机器学习的输入数据,即过往的百万局棋谱,然后作壁上观,得到了输出结果,那令人愕然的第37手。
因为这种深度学习系统能够独立地将简单的概念合并,从数据出发创建抽象的模型,即使是计算机科学家们自己都无法真真切切地知晓他们设计的系统内部发生的事情。AlphaGo和类似的系统究竟是为何又是如何做出某些特定行为的,即使是他们的设计者也常常不明就里。
这一点为何令人困扰呢?一方面,电脑表现出我们相信只有人类才具有的创造力让人不寒而栗,但另一方面,也存在着更为现实的担忧。想想我们在现实生活中教导小孩子的方法。我们也许只会教给他们一些简单的规则,然后袖手旁观,心满意足地看着他们遵循那些规则:吃饭前要洗手;要排队等轮到你;把你的厚冬衣摊在地板上,双手伸进袖管,然后套到头上。但孩子们总是会让我们惊讶:明明没洗手却假装洗过;与其排队不如找件其他事情做做;觉得自己身体协调性已经好到能效仿大人的方式穿外套,一次伸一条胳膊。这些能力都不是他们遵循被教导的规则而产生的,而是萌芽于对身边的人的观察,自主学习了新的技能。这种给人惊喜的能力是儿童正常发育的核心,当然这也时不时地让小孩子变得难以应付。
同样的道理也适用于算法。时至今日,计算机科学家们搭建的一些最为精确的机器学习模型往往也是最为晦涩难懂的。机器越来越智能,越来越富有变化,同时也变得越来越不可预测。于是算法设计撞上了根本原则上的难题。你可以在高度组织的环境中创建智能算法,例如编制专家系统风格的详尽规则用于遵循,以保证这些算法的行为可预测性,可你同时也不得不接受这些算法碰到突如其来的难题时束手无策的现实。或者你也可以将这些算法暴露在杂乱的现实数据中,创造出适应性更强但也更难预测的算法。我称这种情况为预测性-适应性悖论。
一个下棋的算法,即使无法预测,对围棋界以外的人来说也不会造成格外的麻烦。然而,当性命攸关的决策掌握在了算法的赛博之手中时,理解并能预测算法决策的能力就变得更为急迫了。我们不会完全知晓遇到气流时飞行员为何会拉而不是推操纵杆、经理为何要雇佣意想不到员工、医生为何不给他的病人开血检项目等。但我们大多数人仍然无法想象在不明白推理过程时放手让电脑来做这些决策。只要我们仍然强求完全解释得通的算法,那预测性和适应性的天平就会不可避免地倾向前者。
可预测系统的核心是一套规则——本质上就是一系列的“如果-那么(if-then)”语句,让设计者知道算法在一些特定情况下会如何运行。这既是这些系统的强项,也是它们固有的弱点。很多情况下,它们的可预测性都很不错。举个例子,像设计一套报税软件,能够帮你利用所有可用的减免和冲销政策。美国的税收制度极为复杂,但也具有完全确定性。你是否能减免某笔费用,依赖一个冗长却确定的参数列表:你的年度总收入、你的婚姻状态、你所申报的家属人数、是否拥有自己的企业等。报税软件的设计者了解这些参数,他们使用一系列的简单问题和精心设计的“如果-那么”语句引导你报税。在答案完全依赖决定性的规则集时,可预测系统显然能够提供最佳的性能。
可是我们有很多理由要超越纯粹的可预测性系统。一个理由是,很大范围上,人类经验和决策过程无法用一组简单明确的规则加以指导。写一部电影大片剧本的规则是什么?合同谈判的规则是什么?决定一些人适用假释、另一些人不适用的规则是什么?确实,很多学科的研究都表明,大多数人做大部分决定时都是基于无法表达的知识,换言之,直觉。
马萨诸塞理工学院的经济学家大卫·奥特(David Autor)将这一现象明确称为“波兰尼悖论(Polanyi's paradox)”——我们所知的比我们所能言说的更多。在其1966年出版的书籍《默会维度》(The Tacit Dimension)中,英国匈牙利裔数学家兼哲学家迈克尔·波兰尼(Michael Polanyi)阐述了这一观点:大量科学探究是由默会知识和天生的认知感驱动的。这不仅仅是个有趣的哲学前提,对于算法设计的实用性也有巨大的影响。
如果你不得不将自己习以为常的知识编写为程序时,你就能轻易掌握波兰尼悖论的本质。想象你必须描述你母亲的脸,让别人能在人群中找到她。你当然能轻而易举地从数千人里找出自己的母亲,而别人使用你的描述信息则有可能很难从几十人里找到她难。波兰尼悖论的终极观点就是,能被明确编码的决策系统本质上就决定了其功能必然是有限制的。这些系统通常都很敏感,或者说,很脆弱。当它们面对超出自己的指令设计处理的样本或挑战时,可预测性系统就悲哀地失效了。
可预测性系统的另一个弱点是容易被操纵。就像总有骗子利用他人的弱点一样,算法系统也经常受到精心设计的欺骗和操纵。
7000亿美金市值的谷歌帝国的核心是其搜索引擎,而搜索引擎的核心则是排名算法。1999年时,谷歌的共同创始人拉里·佩奇和谢尔盖·布林在网络上发布了关于PageRank算法的详细说明。虽然有一些数学上的差异,PageRank根本上还是一个可预测性系统:你的网站被其他网站链接得越多,在搜索结果中的排名就越高。但由于谷歌的算法被公之于众,又是可预测的,诱使很多网站拥有者建立了“影子”站点,这些站点唯一的目的就是链接回站主的主站。
正因如此,近年来谷歌的工程师们不仅仅把大量精力花在提高网站排名算法的效能上,还花在了对抗垃圾信息和搜索引擎排名的操纵者上。谷歌在首次吝啬地公开了一些知识产权后,在搜索结果是如何影响网站排名方面再度讳莫如深。最近谷歌的排名算法向机器学习原理大幅度倾斜,以前的搜索者青睐哪些搜索结果的信息,也是算法使用的数据之一。
谷歌只是可预测性算法被操纵、被逆向工程[12]破解的公司之一。Instagram和推特正在和成群结队的机器人账号以及垃圾账号作战,这些账号的唯一目的就是给别的账号点赞和转发,在平台的排名算法中提高垃圾账号的权重。如果算法被应用在后果更严重的领域,可操纵性会成为更大的隐患。如果一个诈骗犯确切地知道信用卡公司标记可疑行为的规则,一个恐怖分子确切地知道美国运输安全管理局(TSA)的图像处理算法要找寻的目标,那么要逃避检测就变得易如反掌。
我必须强调,机器学习系统也能被操纵。华盛顿大学的研究者发现对交通标志做一些最简单的修改,例如在“停车”标志贴上贴纸,就会干扰自动驾驶车辆的图像识别软件。他们指出用贴纸或涂鸦的方式破坏交通标志会导致这些系统的表现“出乎意料而且具有潜在的危险”。程序员们可能会忽略把篡改过的交通标志教给自动驾驶车辆,同样,用来训练机器学习的数据集,尽管数量庞大,也会缺少类似的图像,导致车辆遇到这些标志时措手无策。作为这些担忧的后果,研究者在对抗性机器学习(adversarial machine learning)领域的兴趣与日俱增,这个领域的研究方向是如何从可能被攻击者故意篡改用来误导系统的数据中学习。
话虽如此,谷歌和其他科技公司的经历说明,可预测的算法仍然最容易被逆向工程破解,成为邪恶目的的攻击目标。但根据波兰尼悖论我们将自己最为有趣、最为重要的能力用编程实现是严重受限的,如果将算法仅仅限制于解决能被轻易编程的问题,那我们的技术就会陷入类似报税这样乏味的领域。只有在帮助我们解决我们作为人类遇到的最有创造性的难题时,技术才是最有用的。而使用技术有效解决这些难题需要我们超越可预测的系统。
为找到罕见病的治疗方法需要些什么?深厚的药学知识?生物化学实验室?熟悉生物技术和药理学?如果你对这些问题的答案都是肯定的,那你可能没有听说过唐·斯旺森(Don Swanson)的故事,他是芝加哥伊利诺伊大学(University of Illinois)的信息科学家。
斯旺森是位狂热的赛跑者,80岁时还完成了一次半程马拉松。但在更年轻些时,他深受雷诺氏综合征(Raynaud's syndrome)的煎熬,这种病会导致血管在低温或背负精神压力时收缩。这不是那种致死性疾病,但会影响患者的生活质量。通常来说,症状包括手指和脚趾的麻木或针刺感。病情严重时,血液循环受阻会导致组织损伤,甚至截肢。
在调查另一件事的时候,斯旺森开始接触到因纽特人的饮食,其中一处细节——大量的鱼类摄入——引起了他的注意。那份研究表明多摄入鱼油可以增加血流量,减少寒冷条件下血管的收缩,抑制血小板的凝血作用。斯旺森刚巧知道,这些血液系统中的变化,都和雷诺氏综合征有关。于是他假设鱼油也许有助于治疗这种症状。
如果是一位医疗研究者提出这种假设,他会进入实验室检验自己的假设。但一位信息科学家会如何做呢?斯旺森去了图书馆。他发现很多研究都证实了鱼油能够改善血液循环,但没有一个研究提到这是治疗雷诺氏综合征的有效方法。1986年斯旺森写了一篇研究论文,提出了自己的想法。1989年奥尔巴尼医学院(Albany Medical College)的风湿病门诊针对雷诺氏综合征患者开展了一次临床研究,证实了他的假设。
斯旺森的成果标志着科学史上的一个重要时刻。雷诺氏综合征的治疗方法不是由熟悉风湿病学或鱼油化学成分的医疗研究者发现,而是由一名信息科学家发现的。这位信息科学家用数以千计的前人研究武装了自己,还坚信通过连接不同的知识领域可以发现新的知识。“这套研究体系不是用来组合(不同的科学专业)的,”他在1986年的具有创造性的论文中提出了鱼油和雷诺氏综合征的联系。“重要的联系可能会从我们的视线中逃脱。”
斯旺森的经历揭示了知识常常会隐藏在平淡无奇的地方。如果A(鱼油)和B(血流量)相关,而B又和C(雷诺氏综合征)相关,那A和C之间可能就存在潜在的关联,如果数据中存在着这样的关系,那挑战就是如何以系统化的方式找到它们。
斯旺森和一位精神病学教授尼尔·斯马海塞尔(Neil Smalheiser)最终开发出一个计算机程序Arrowsmith,能在医学研究数据库里海底捞针般找出不起眼的相关,着重关注不同医学专业间的能产生的新关联的相关。斯旺森后来针对缺镁症和偏头痛间的关联又提出了个假设,这个假设也被之后的临床实验证实了。斯旺森把自己的方法称为“科学发现的促进剂”,他承认提出假设和证实假设区别巨大,但这仍不失为科学突破的重要一步。
跨学科的假设曾经受到个人兴趣和个体经历的启发。尼龙搭扣的瑞士发明者在打猎时发现植物的刺果(带有钩刺的种子或果实)粘上了自己的裤子,于是推理出刺果的结构也许值得用塑料来仿制。这种关联如今也能在对数据巧妙地挖掘中浮现。
斯旺森也许没有用机器学习实现他的想法,但通过他的故事也能洞悉专家系统和机器学习之间的区别。专家系统受专家学识所限,而所谓学识,永远不可能包括“尚未发现的知识”。我们已经见过从数据中学习可以利用人们具备但无法轻易表达的默会知识,不仅如此,从数据中学习还可以利用到数据中隐藏的新知识,即科学家们尚未发现,但机器学习和其他数据挖掘手段也许能协助发现的知识。
可预测性和适应性间的平衡不是决策算法所特有的。可以认为,即使是人类历史上最古老的决策系统,我们都能从它的优缺点当中学到重要的一课。不,我说的当然不是扔硬币!
公元前18世纪的汉谟拉比法典(Code of Hammurabi)是人类历史上最古老的文本之一。古老的美索不达米亚法典和我们的算法讨论有什么关系呢?它是典型的编码化、可预测的决策系统。全篇法典就是一系列关于如何管理社会的“如果-那么”规则。法典的大部分篇章都是对于古代美索不达米亚人面对的特异性问题的引用:“倘自由民怠于巩固其田之堤堰,而使堤堰破裂,水淹公社之耕地,则堤堰发生破裂的自由民应赔偿其所毁损之谷物。”在其他方面,汉谟拉比法典是和现代生活不相容的野蛮指南,例如那句人所众知的道德格言“以眼还眼,以牙还牙”。
以此和另一份具有重大历史地位的政治文件——可追溯到18世纪的美利坚合众国宪法,进行比较。这一份基础性文件的核心价值是自治和灵活性,对其进行修正的系统就内建在宪法的框架结构中。美国开国元勋的关键见解是建立一个安全且不可篡夺的政府。同时他们也意识到自己不可能预测几十年甚至几百年后的法律体系的需要。托马斯·杰斐逊(Thomas Jefferson)对这一点甚为认同:
法律和制度必须与人类的思想齐头并进。由于有了新的发明,新的真相被揭开,人类的思想变得更加进步、更加开明,生活方式和观点随着环境的改变而改变,制度也必须进步,和时代保持同一步调。叫文明社会永远处于他们野蛮祖先的统治下,等于是硬要一个大人穿他小时候穿的衣服。[13]
美国开国元勋知道灵活性是适应性和持久性的关键前提之一。美国宪法的持久性便证明了这一点:这是现代国家仍在使用的最早的建国文献。同时,对于美国政府在将来的运转,它的创建者不得不放弃大量的控制权以保证其适应性。
将这两份文献并列比较,生动地说明了权衡可预测性和适应性的动力:可预测的系统,例如汉谟拉比法典,仅在有限的时间内起作用,最终命运就是进入古文纸堆;适应力强的系统,例如美国宪法,在新的信息不断涌现的时候能够持续适应。
类似的,另一个削弱了基于规则的可预测算法作用的弱点,不仅仅是它们在不可预知的场景中性能不佳,而是在于它们无法从错误中学习。大多数算法都能从更多的数据中受益,但现在的机器学习算法更具备非常独特的优势。因为机器学习算法能够真正地改变自身的结构,接触到越多样本,就能调校得更优。它们能根据新的证据微调已有规则,使之更加适应。这就类似美国司法制度中,复杂的新案例的判决结果成为将来类似案例的判例。法庭见到的案例越多,系统的适应性就变得更强。
2015年,一支总部设在卡内基·梅隆大学的研究团队开始研究谷歌的定向广告算法对个人用户造成影响的原理。他们创建了1000位模拟用户的账号,男女各半,让他们访问排名前100位的招聘网站。然后他们评估了谷歌分别给男性账号和女性账号投放的广告类型,发现了算法上的偏见:尽管女性账号和男性账号除了性别之外在其他方面的资料完全一致,谷歌的算法投放给女性账号的高薪高管职位却少得多。例如,一则年薪200 000美金、给高管人员提供职业生涯规划服务的广告投放给了402个男性账号(共500个),和60个女性账号(共500个)。与此相反,大多数女性账号只收到一则普通的招聘职位的广告。
要明确解释个中缘由很困难。是不是那个职业生涯规划服务职位为了把自己的广告投放给男性用户,愿意为此支付更多费用给谷歌?广告投放者对此矢口否认,说自己的要求仅仅包括:发送给45岁以上、具有高管经验、年收入曾达到100 000美元以上的候选者。一位谷歌职员提出了另一个可能:通常要求投放给女性的广告投放者比要求投放给男性的更多。因此,投放给女性的广告竞争更激烈,可能会导致那个职业生涯规划职位赢得的展示位更少,会输给那些众所周知偏向于投放给女性的公司,例如家用商品的销售商。但这解释不了为什么普通的招聘职位的广告会在竞争中战胜职业生涯规划的职位。
另一种可能是机器学习以及所有由数据驱动的分析技术,具有一些根本性挑战,这些挑战所造成了偏见。如果谷歌的算法使用广告点击的历史数据来决定如何在将来更好地进行定向广告投放,那就可能会得出有偏见的结果。举个例子,如果这个广告投放给了并不需要找工作的家庭主妇,那算法就会错误地学习到“女性通常来说不会回应高薪职位”,随后停止向女性投放类似的广告。或许女性确实点击了这些广告——也许比男性点得还多——但如果她们点击其他广告更多,那投放给她们的也将是其他那些广告。
但也许算法只是反映了今日招聘市场的现状。“想象下谷歌一开始是平等地发送这些广告的,而更多的男性用户点击了这则广告,”那次研究的作者之一阿努帕姆·达塔(Anupam Datta)解释,“因为谷歌的机器学习算法设法要优化点击率,将广告发放给更可能点击它的人群,结果就是它们开始更多地向男性发放那些广告。”
如果确实如此,那这个算法只是反映了一个事实,即女性作为一个群体,对高管职位广告的响应确实不如男性,因而成为这些广告投放效率较低的人群。因此,我们是否能说这个算法带有偏见了呢?“我觉得这取决于你的定义,但无论你怎么称呼它,我都觉得它令人担忧。”研究的另一位作者迈克尔·尚查兹(Michael Tschantz)说道。他是加州大学伯克利分校国际计算机科学研究所的资深研究员。尚查兹的担忧很容易理解:如果我们生活的这个世界存在这样一种偏见,即女性一般而言对高薪职位不感兴趣,而机器从这个世界学到了这一点,机器就会较少或更不主动地面向女性。偏见自然而然就会实现。
正如我们在第一部分所讨论的,算法在很多场景中会产生偏见。信用卡公司使用在线行为数据(我们访问哪些网站、我们观看哪些类型的视频、我们点击哪些商品)推理得出我们的收入和可能的财务行为。随后各种网站上投放针对性的特价促销广告会使用这些信息。这种方法已经引起人们担心被操舵——这个词指的是通过非法的操作将弱势群体引导至对他们不利的信用卡使用行为。正如谷歌的广告例子所示,操控可能完全无意,但很显然是不受欢迎的。用于治安与犯罪管辖、大学录取、保险营销和招聘的算法若依赖机器学习技术,则都面临着同样的公平性问题。
当我们要求机器从大数据学习时,很难精确预测机器会从中得出什么样的偏见。一些人提出的解决方案是不再强调“大数据”,而是关注“更好的数据”,即仔细地组织“干净的”数据集,从中进行学习。就算这个方案在某些情况下行得通,我也不觉得这是通往机器智能的可行途径。程序员能够精心打造高度复杂的适用于大多数任务的算法,一旦这些算法只运行在小规模的数据集上,它们通常都会输给用大数据武装的简单机器学习算法。2001年,微软的研究者们针对一项语言理解任务,比较了多个机器学习算法的有效性,这些算法都用新闻文章和书籍中提取的文本进行了训练。每个算法都必须在一组令人混淆的选项中(例如principal和principle,或者then和than)选择一个正确的词语用于句子中。他们发现即使是性能最差的算法,只要用庞大的(比方说10亿个词汇)数据集进行训练,都能轻轻松松打败只能访问小型数据集(比方说250 000个词汇)的最好的算法。计算机科学家彼得·诺维格(Peter Norvig)将此称为“不合常理的数据有效性”。
大数据,连同它的一地鸡毛,将不得不被接纳。[14]
如果数据的数量和质量不可兼得是让你担忧的问题,那现代算法能给你一个答案。但这个方案将我们的可预测性和适应性悖论推到了极致的平衡点。
还记得谷歌击败世界冠军的AlphaGo软件吗?它部分使用人类棋手的棋路进行训练,部分通过和自己对弈数百万局训练。这个软件的最新版本不再费心学习人类的棋路,相反,它所有的训练数据集都是自己生成的。没错,它不利用大数据,它生成大数据。这个软件配置了围棋中合法下子的基本规则,和自己对弈了数百万局。然后它分析了这些棋局,哪些是好招,哪些是昏招。
想象一个孩子悄悄溜进祖父的阁楼,翻出来一个积满灰尘的旧盒子,里面是一套围棋棋盘和棋子,还有一本泛黄的规则指南。孩子开始自学围棋,没有教练,甚至也没见过别人下围棋,却成了世界冠军。AlphaGo Zero,新一代的围棋软件,做到了这一点。几个星期里,仅仅凭借自学然后练习学到的棋着,在和旧版的AlphaGo(记得这个版本曾经学习过人类专业棋手的棋局)的100局比赛中取得了胜利。事实上,AlphaGo Zero的战绩是压倒性的100∶0。
从干净的、标记过的训练数据中学习又被称为“监督学习(supervised learning)”,例如从标记过的图片训练数据集中学习识别物体。根据计算机科学家吴恩达的说法,机器学习创造的大多数经济价值都来自监督学习。由算法自己探索生成数据并从中学习被称为“强化学习(reinforcement learning)”。AlphaGo Zero这样的算法能够探索不同的行为,从中学习这些行为是否能带来更好的性能。
强化学习也许可以回避数据混乱或偏见的问题,但也带来了新的问题。监督学习至少将系统的可能行为限制在了曾经遭遇过的范围内。强化学习则为各种全新的动作和行为打开了新的可能性。如果这种方法得到普遍使用的话,那机器的不可预测性将上升到全新的水平。所以,毫不意外,很多评论者使用“外星人”这个词形容AlphaGo Zero所下的棋,一位围棋爱好者甚至将AlphaGo Zero的棋风称为“来自另一维度的围棋”。
这些问题都没有简单的答案,但值得指出的是,有一种解决方案开始得到应用:冗余算法系统,即多种方法同时应用。机器学习虽然很有吸引力,但自动驾驶车辆的运动规划软件也许最终会依赖多个系统,其中一些可能仍然会是程序员手工编写的基于规则的系统。如果机器学习系统对某个交通标志感到困惑,一组规则也许能介入。这种方法听上去似乎没那么革命性,在谷歌的围棋软件进化过程中,这种方法比自学成才的AlphaGo Zero要落后几代。但使用基于规则的方法至少为系统行为设置了一些边界,只要我们还无法预测或预判机器学习算法面对大范围场景时的反应,这么做仍是有必要的。
对于机器学习系统的不可预测性,另一个解决方案已经成为人工智能研究的热门领域之一:可解释的机器学习。我们如何创建一个能够解释自身决策的机器学习系统,比方说,能用奇异的下法赢得围棋,然后把推理过程向我们阐明的系统?这是在后续关于透明性的章节中讨论的话题。
但首先让我谈谈已经吸引了我好几年的想法:现代算法通过人类心理学的透镜也许能得到最好的理解——部分是因为我们人类是它们的创造者。