第七章 杞人忧天——我们想象中的人工智能会出什么错(1 / 1)

进入21世纪以后,人工智能的飞速发展引起了媒体的广泛关注。其中有一些报道是公正合理的,不过坦白地说,大部分报道都愚蠢得无可救药。其中有一些报道颇有知识性和引导性,而大部分则是杞人忧天式的恐吓。比如2017年7月,各大媒体争相报道脸书关闭了两个人工智能系统,因为它们开始用自己的人工智能语言进行交流(显然它们的设计者无法理解)[93]。当时的新闻头条和社交媒体报道立场明确地暗示,脸书关闭这两个系统是因为害怕它们失去控制。事实上,脸书的人工智能实验是常规化并且完全无害的,连人工智能专业的学生都能承担这类实验项目。脸书的系统策划疯狂杀人的可能性和你家的微波炉突然变身成杀手机器人的概率一样大,实话实说,那是根本不可能的。

一方面,我觉得对于脸书事件的报道相当滑稽,但另一方面,这也让我十分沮丧。问题在于,这样滑稽的报道迎合了大众对人工智能的“终结者式恐惧”:我们正在创造一些自己无法控制的东西,这会给人类的生存带来风险〔此处你应该能听到阿诺德·施瓦辛格(Arnold Schwarznegger)在《终结者》影片中经典的角色配音〕。当然,我们创造出怪物的想法绝不是现代才有的:它至少可以追溯到玛丽·雪莱的《弗兰肯斯坦》。

这种说法仍然主导着有关人工智能未来的争论,现在的人们还经常用讨论核武器的口吻来讨论人工智能的未来。亿万富翁企业家、贝宝公司(PayPal)和特斯拉公司的联合创始人埃隆·马斯克(Elon Musk)就对此担忧不已。他发表了一系列公开声明,表达了自己的担忧,并捐赠了1000万美金作为研究经费,支持负责任的人工智能研究。2014年,当今最著名的科学家斯蒂芬·霍金曾公开表示,他担心人工智能会成为人类生存的威胁。

鼓吹人工智能“终结者式恐惧”真的会带来很严重的后果,原因如下:首先,它让我们担心一些我们完全没必要担心的问题;其次,它让人们把注意力从真正应该关注的人工智能问题上转移开。这些问题可能不像终结者幻想那样吸引人的眼球,可以成为头条新闻,但它们才是我们现阶段确确实实应该关注的。因此,在这一章中,我想解决有关人工智能的“终结者式恐惧”:类似《终结者》中的毁灭场景,到底有多大可能性出现;并且,人工智能是怎么出错的。接下来我会从直面这个故事开始,讨论它是怎么发生的,以及发生的概率有多大。这就会引出对人工智能伦理的讨论——人工智能系统充当道德智能体的可能性,以及已经提出的各种有关人工智能的伦理框架。最后,我将提醒大家注意人工智能的一个特点,就是它们很容易出故障,尽管还没到特别可怕的程度:如果我们想要一个人工智能系统代替我们工作,那么就需要跟它沟通我们想要的东西。但事实证明这很难做到,若是我们在传达意愿的时候稍有偏差,或许人工智能系统会给出我们所要求的、但并非我们真正想要的东西。

奇点主义?纯属胡扯!

在当代人工智能中,终结者式的场景通常跟名叫奇点的想法联系在一起,这个想法来源于美国未来学家雷·库兹韦尔(Ray Kurzweil)于2005年出版的著作《奇点临近》[94]。

奇点临近,其背后的关键思想是,人类创造技术的增速正在加快,技术的力量正在以指数级的速度扩张……在几十年内,以信息为基础的技术将涵盖所有人类的知识和技能领域,最终包括人类大脑自身的模式识别能力、解决问题的技能,以及情感和道德。

尽管库兹韦尔对奇点的定义相当宽泛,但这个术语已经逐渐被当作一个特定概念:奇点是指计算机智能(通用意义上)超过人类智能的一个假想点。有人认为,到达奇点以后,计算机可以开始运用自己的智能来改进自己,这个过程就会持续自我完善。之后,这些改进后的机器会用它们改进后的智能进一步改进自身,以此类推。从这一点上说,自奇点之后,仅仅依靠人类的智慧就不可能重新获得计算机的控制权了。

这个想法听起来很有道理,也十分令人恐惧。但我们先暂停一下,看看奇点背后的逻辑。简言之,库兹韦尔的推论主要基于这样的观点:计算机硬件(处理器和内存)的发展速度很快会超过人脑的信息处理能力。他的推论引用了计算机领域一个著名的定律——摩尔定律。摩尔定律是计算机处理器公司英特尔的联合创始人戈登·摩尔(Gordon Moore)在20世纪60年代中期提出的,所以以他的名字命名。晶体管是计算机处理器的基础组成单元,在芯片上安装的晶体管数量越多,芯片在给定时间内能够处理的工作量就越大。摩尔定律指出,半导体固定面积上的晶体管数量大约每隔18个月就会翻一番。简单地说,按照摩尔定律,计算机处理器的功率每隔18个月就会提升一倍。摩尔定律有几个重要的推论,其中之一是计算机处理器的能耗会以同样的速度降低,处理器本身的体积也会逐渐缩小。近50年来,摩尔定律一直被证明是非常可靠的,而在2010年前后,现用处理器技术开始触及物理极限。

现在来看,库兹韦尔的推论隐晦地将奇点出现的必然性与计算机的运算能力简单地关联起来,然而,这种关联是合理的吗?请允许我做一个思考实验,想象一下,我可以把你的大脑复制到一台电脑上(不用紧张,仅仅是想象),假设用来装载你的复制大脑的电脑是有史以来运行速度最快、最强大的电脑,有惊人的运算速度,那么你就会拥有超级智慧吗?当然,你可以“快速思考”,但这会让你突变得极其聪明吗?从某种微不足道的意义上来说,我想或许会——但是,从任何有意义的智力层面上来说,不会,更不可能让你突破奇点[95]。换句话说,单纯的计算机处理能力的提高不会导致奇点的必然出现。或许这是一个必要条件(如果没有高性能的计算机,我们无法实现人类级别的人工智能),但并不是充分条件(仅仅拥有高性能计算机并不能让人工智能实现宏伟梦想)。再换句话说,人工智能软件(例如机器学习)的改进速度比硬件发展速度要慢得多。

怀疑奇点主义还有其他理由[96],一方面,即使人工智能真的能达到人类级别的智能化,也不意味着它就能够以超出我们理解的速度提升自己。正如本书中已经明确的那样,在过去的60年里,我们的人工智能发展之路极其缓慢——那又有什么证据证明类似人类智力水准的通用人工智能能够迅速提升人工智能的发展速度呢?

也有人论证说人工智能系统互相合作以获得超出人们理解或者控制的智能(参见本章开头提到的脸书事件)。但我同样不认为这种论证具有说服力:假设你聚集了1000个爱因斯坦的克隆体,它们的集体智慧会是爱因斯坦的1000倍吗?事实上,我怀疑它们的集体智慧远远无法达到这个数字。再说一次,虽然1000个爱因斯坦克隆体可以比1个爱因斯坦更迅速地完成一些事情,但并不代表它们就变得更聪明了。

基于这些以及更多的原因,我认识的大多数人工智能研究人员都对奇点主义持怀疑态度——至少在可预见的未来,在计算机和人工智能技术方面,还不知道有哪条路能把我们从现在的位置带到奇点。但一些严肃的评论员仍对此感到担忧,并声称我们无视奇点的观点太过自负,他们认为核能就是最好的反面教材。早在20世纪30年代初,科学家们就知道有大量的能量被锁在原子核中,却不知道如何释放,甚至不知道能否释放。一些科学家对利用核能的想法嗤之以鼻:卢瑟福(Rutherford)勋爵是彼时最著名的科学家之一,他认为,人类妄想能利用这种能量,简直是“自作聪明”。但是,讽刺的是,就在卢瑟福否定核能可用性的第二天,物理学家利奥·西拉德(Leo Szilard)在伦敦一边过马路,一边仔细思考卢瑟福的声明,突然就冒出了核连锁反应的点子。10年后,美国向日本城市投放原子弹,释放出恐怖的能量,而这一切,就来源于西拉德的灵光一闪。人工智能会不会有一个利奥·西拉德式的灵光闪现呢?一个突如其来的顿悟,把我们很快带向奇点?当然,我们不能排除这种可能性,但它确实微乎其微。核连锁反应实际上是一个非常简单的机制,连中学生都可以理解它。过去60年人工智能研究的所有经验告诉我们,人类水准的人工智能并非如此。

遥远的未来是否会出现奇点?100年后,或者1000年后?在此,我不得不承认,很难说。试图预测计算机技术在100年后(更别提1000年后了)会是什么状况,真是不明智的行为。但在我看来,如果奇点出现了,就像《终结者》里面的场景那样,这简直不可思议。用罗德尼·布鲁克斯的比喻,把人类的智慧想象成波音747,我想问问,我们有没有可能仅凭灵光一闪就发明波音747?或者在毫无预期的情况下就把波音747发明出来了?显然不可能。当然,也存在质疑的观点,哪怕出现奇点的可能性微乎其微,但一旦它出现,对所有人类而言,不啻一场灭顶之灾,所以现在开始要对奇点进行预先思考和计划,是完全有必要的。

不管奇点是否会出现(很显然,我的观点是不会),但目前看来,确实有不少人很担忧人工智能的发展,认真考虑是否要对其进行监督。我们是否需要法律——甚至国际公约来控制人工智能的发展,就像我们应用核能一样?不过,我认为引入一般的法律来管理人工智能的使用没有可行性,这就有点像试图通过立法来管理数学应用一样滑稽。

我们得谈谈阿西莫夫

每当我和一个普通观众讨论《终结者》的故事时,总有人建议,我们要在构建人工智能的时候就考虑约束问题,避免它成为无法控制的杀人机器。在这之后不久,通常就有人建议我们考虑著名科幻作家艾萨克·阿西莫夫(Isaac Asimov)提出的机器人三定律。机器人三定律是由阿西莫夫在机器人系列故事中提出的,在他的故事里,机器人装备了强大的人工智能——“正电子大脑”。阿西莫夫最早在1939年制定了三定律,在接下来的40年里,机器人三定律为他提供了巧妙的情节设计,最终成就了一系列著名短篇小说,以及一部令人失望的好莱坞电影[97]。阿西莫夫故事中人工智能的“科学性”,即正电子大脑毫无意义,当然,这丝毫不影响故事的趣味性。对我们来说,最有趣的是机器人三定律本身:

第一定律:机器人不得伤害人类,也不得因为不作为而让人类受到伤害。

第二定律:机器人必须服从人给予它的命令,除非该命令与第一定律冲突。

第三定律:机器人在不违反第一、第二定律的情况下要尽可能保证自己的生存。

真是完美的设定,乍一看巧妙又稳妥地解决了问题。那么,我们可以在构建人工智能的时候内置这些定律吗?

关于阿西莫夫的机器人三定律,首先要说的是,它们设计得虽然精巧,但阿西莫夫的故事很多时候都是发生在定律有缺陷或者互相矛盾的情况下。例如,在故事《环舞》中,一个名叫SPD-13的机器人要无休止地围着一池熔融的硒绕圈,因为要遵守人类下达的采硒命令(第二定律)和保护自己(第三定律)之间存在冲突,所以它只能在离硒矿湖固定的距离处绕圈子,如果它再靠近一点硒矿湖,保护自己的定律开始起作用,让它远离;而它要是离得过远,采硒矿的命令又起作用,它必须服从。在阿西莫夫的故事中还有许多其他例子(我强烈推荐你去读一下)。因此,三定律本身虽然很巧妙,但绝不是无懈可击的。

但机器人三定律更大的问题是,它在人工智能系统中根本无法实施。

想想实施第一定律意味着什么,当人工智能在考虑每一个动作时,都需要考虑这个行为可能产生的影响,大概需要考虑全人类(或者能够涉及的部分人类)以及未来可能出现的影响(总不能只关心现在吧)。这是不可行的。另外,“不得因为不作为而让人类受到伤害”这一条也存在同样的问题:系统能够做到不断地思考它涉及的每个人所有可能的行为,并且思考自己是否有相关行为能够阻止他们受到伤害吗?这也是不可行的。

即使单单捕捉“伤害”这个概念也很困难,试想一下:当你坐飞机从伦敦飞往洛杉矶时,你消耗了大量的自然资源,并在途中产生大量污染和排放大量二氧化碳。毫无疑问,这肯定会对某些人产生伤害,但这种伤害的程度不可能精确量化。如果你不相信的话,我可以告诉你,我认识一些不愿意坐飞机旅行的人,他们的理由就是如此。所以,我想,一个遵守阿西莫夫三定律的机器人是不会坐飞机的。事实上,我怀疑它不能做任何事情,它可能只会蜷缩在某个角落,躲在世界的一隅,因为优柔寡断而如同废铁。

因此,虽然阿西莫夫的机器人三定律为人工智能系统的构建提供了高层次的原则性指导(事实上,我认为大部分人工智能研究人员都会暗地里认同这些准则),但是,像阿西莫夫的故事里那样,把三定律真正编码进入人工智能系统中的想法,并不现实。

这样一来,阿西莫夫的三定律,以及其他善意的人工智能伦理准则对我们没多少帮助,那么我们又该如何考虑人工智能系统行为的可接受性呢?

我们还是别谈电车难题

阿西莫夫机器人三定律可以说是第一次也是最著名的尝试,试图构建能够管理人工智能决策系统的总体框架。不过它并不是一个严肃的人工智能伦理框架,我们可以把它视为伴随人工智能飞速发展而产生的一系列类似框架的鼻祖。人工智能伦理框架已经成为一项重要的研究课题[98],在本章剩余部分,我们将深入探索这项工作,并讨论它是否朝着正确的方向发展。我们的探索从一个特定的场景开始,它很有名,吸引了很多人的注意。

电车难题是伦理哲学领域最著名的思想实验之一,最初由英国哲学家菲利帕·富特(Philippa Foot)于20世纪60年代末提出[99]。她引入电车难题的目的是解开围绕堕胎道德的某些高度感性的问题。富特的电车难题有许多版本,最常见的版本是这样的(参见图21):

一辆电车失去控制,正高速冲向五个无法移动的人。轨道旁边有一个操纵杆,如果拉动操纵杆,电车将转向另一条轨道,那里只有一个人(同样无法移动)。你如果拉动了操纵杆,你会杀死一个人,但会拯救五个人。

那么,你拉还是不拉?

图21 电车难题

如果你无作为,上方轨道的五个人会死;如果你拉动操纵杆,下方轨道的一个人会死。你该怎么办呢?

由于无人驾驶汽车即将到来,电车难题迅速凸显。专家们指出,无人驾驶汽车很可能陷入类似电车难题的困境,然后人工智能软件就会被要求做出艰难的选择。2016年,一则标题为“自动驾驶汽车已经在决定杀死谁了”[100]的网络头条新闻,在网上掀起了一场轩然大波。我认识的几位哲学家受宠若惊地发现,突然有一批网友关注他们,期待他们对这个迄今为止在伦理哲学方面很难下定论的问题发表意见。

电车难题表面看很简单,但它衍生出一系列令人惊讶的复杂问题。我对电车难题的直觉反应是,在不考虑其他条件的情况下,我会拉动操纵杆,因为只死一个人总比死五个好。哲学家称这种想法为结果主义者(因为它根据行为的后果来评估行为的道德性)。最著名的结果主义应该是功利主义了,它起源于18世纪英国哲学家杰里米·边沁(Jeremy Bentham)和他的学生约翰·斯图亚特·密尔(John Stuart Mill)。他们提出了一个被称为“最大幸福原则”的理论,大致来说就是一个人选择的任何行为,都会使“世界总体幸福”最大化。在更现代的术语中,我们会说功利主义者是为了社会福利最大化而行动的人。在这里,功利被定义为社会福利。

虽然总体原则没问题,但要精确定义“世界总体幸福”并不容易。例如,假设电车难题中的五个人是邪恶的杀人凶手,而另一个人是无辜的小孩。五个邪恶的杀人凶手生命的价值会超过一个无辜小孩吗?如果不是五个,是十个邪恶杀手呢——这会让你下定决心拉动操纵杆吗?

另一种观点则认为,如果一项行为符合普世的“善意”行为原则,那么它是可以接受的,标准例子就是“夺取别人性命是错误的”原则。如果你坚持这个原则,那么任何导致别人死亡的行为都是不可接受的。因此,信奉这样原则的人不会对电车难题采取任何行动,即无作为,因为他们的行为会导致谋杀,虽然不采取任何行动也会导致人死亡。

第三种观点基于美德伦理学的思想,从这个角度看,我们认为一个“有道德的人”体现了我们渴望决策者身上有的美德,然后,我们可以得出结论,他在这种情况下所做的选择,就是正确的选择。

当然,对人工智能而言,做决策的是一个智能体——它必须决定一辆无人驾驶汽车在直行杀死五个人和转弯杀死一个人之间如何选择。那么,当人工智能遇见电车难题或者类似问题时,智能体应该怎么做?

首先,我们应该扪心自问,在这样的情况下,期望人工智能做出正确选择是否合理。如果世界上最伟大的哲学家都无法彻底解决电车难题,那么期待人工智能系统去解决它,合理吗?

其次,我得指出,我开了几十年车了,从来没遇见过这样的难题,我认识的所有人也没有遇见过。此外,我所知道的道德伦理,尤其是有关电车难题的伦理,仅仅是上述你读到的假设情况而已,我不需要通过道德伦理考试才能拿到驾照。到目前为止,这个问题还没有对我造成任何困扰,驾驶汽车也不需要更深层次的伦理推演。因此,要求无人驾驶汽车在上路之前先解决电车难题,在我看来有点荒谬。

第三,在这类伦理问题上,无论你认为自己的答案多么理所当然,其他人总会有不同答案,他们也认为那才是顺理成章。麻省理工学院的研究人员已经证明了这个事实,他们为此做了一个聪明的在线实验,研究人员建立了一个名为道德机器的网站,用户可以在网站上看到一系列的电车难题,并被问及如果无人驾驶汽车遇见这样的情况应该怎么做[101]。那些无辜的受害者可能包括男性、女性、肥胖人士、儿童、罪犯、流浪汉、医生、运动员和老年人,还可能包括猫狗等动物。这项实验引起了网友们的广泛关注,研究人员从233个国家的用户那里收集到了大约4000万份个人决策数据。

这些数据揭示了全球对电车难题中伦理决策的不同态度。研究人员发现了三个关键的“道德集群”,每一个都体现了具有独特特征的伦理框架。研究人员将这些集群命名为西部、东部和南部。西部集群包括北美和大多数欧洲国家;东部集群包括许多远东国家,如日本和中国,以及伊斯兰国家;南部集群包括中美洲、南美洲和拉丁美洲国家。与西部集群相比,东部集群更倾向于保护合法的人而不是罪犯,更倾向于保护行人而不是车上的乘客,而且更倾向于保护年轻人。南部的集群似乎更关心的是如何保护地位高的个体,以及年轻人和女性。研究人员深入研究发现,还有其他的决策预测因素:例如,如果一个国家拥有繁荣的文化或强大的法治,这两种社会特质在预测偏好方面都会起到明显的作用。

麻省理工学院的研究人员将研究结果(人们认为无人驾驶汽车在有轨电车问题的情况下应该如何运行)与2017年德国联邦政府制定的一些有关汽车道德决策的实际指南进行了比较[102]。德国的指南提出了20条建议,例如:

·在危险情况下,必须始终优先考虑拯救人的生命,而不是防止财产损失。

·如果发生事故不可避免,在决定如何行动时,不允许考虑一个人任何的生理特征(年龄、性别等)。

·必须始终弄清楚,目前是人类还是计算机负责驾驶。

·汽车必须记录下任何时间在驾驶汽车的对象。

其中一些指导原则与道德机器实验中所得出的数据相悖:例如,禁止任何基于个人特征的歧视的规定与道德机器所揭示的拯救年轻人的国际偏好形成鲜明对比。试想一下,如果一辆无人驾驶汽车遵循德国的指导方针,不对事故对象做区分,结果导致一名儿童而不是一名老年晚期癌症患者被撞死,那会引起多大的公愤。我举的例子很极端,在此深表歉意,但你应该能明白我的意思。

虽然道德机器实验挺有意思,但我认为它本身和它所涉及的电车难题都无法给我们太多有关无人驾驶汽车人工智能软件的启示。我不相信未来几十年内我们的无人驾驶汽车会遇见这种道德困境。那么,当遇上电车难题的时候,一辆真正的无人驾驶汽车在实际操作中会怎么做呢?那些致力于研究无人驾驶汽车技术的人对细节也不太清楚,但以我过去几十年在人工智能领域积累的经验来看,最基本的工程原理是最大限度提高预期安全性(换言之,就是最小化预期风险)。这不涉及深层次道德推断的问题——如果真的需要推断,也可能不会比你面对多个障碍物时避开较大的那些需要做的推断更复杂。坦率地说,即使是这种层面的推断也并不是一定会发生的。事实上最有可能的结果是汽车会紧急刹车。也许,在实践中,在同样的情况下,我们也应该尽全力去做到这一点。

人工智能伦理研究的兴起

别作恶。

——谷歌公司座右铭,2000—2015年

还有更多更广泛的问题涉及人工智能和伦理学,这些问题比电车难题更具紧迫性,也更相关。在撰写本书的时候,人们正为这些问题进行激烈争辩。似乎每一家科技公司都想证明他们的人工智能比其他公司的更具有道德性,几乎每星期各家都有新闻稿宣布一项新的人工智能伦理倡议。我们需要回顾一下这些问题,以及思考它们在人工智能未来发展中可能扮演的角色。

最早也是最有影响力的人工智能道德框架之一是阿西洛玛人工智能准则,它是由一群人工智能科学家和评论员于2015年和2017年在加州的阿西洛玛度假胜地确定的。阿西洛玛人工智能准则一共有23条,全世界人工智能科学家和开发者都被要求签署这些准则[103]。大多数准则都是没有什么争议的,比如:第一条,人工智能研究的目标应该是创造有益的智能;第六条,人工智能系统应该是安全可靠的;第十二条,人们应该有权访问、管理和控制与人工智能系统相关的数据。

另外一些准则志存高远。例如:第十五条要求“人工智能创造的经济繁荣应该被广泛分享、造福全人类”。我个人对签署这一条倒是没什么异议,但这一条对那些大型企业而言,恐怕只是嘴上说说罢了,指望他们落实这一条那恐怕是天真过了头。大企业投资人工智能的主要原因是希望获取竞争上的优势,为股东带来利益,而不是他们想造福全人类[104]。

最后的五条原则涉及人工智能长远的未来,以及对人工智能可能会以某种方式失控的担忧——《终结者》场景再现:

·能力警惕:我们应该避免关于未来人工智能能力上限的过高假设,但这一点还没有达成共识。

·重要性:高级人工智能能够代表地球生命历史的深远变化,人类应该报以高度关注,以及用合适的资源来进行规划和管理。

·风险性:必须投入与人工智能系统预期影响力相对应的努力来应对和缓解它们带来的风险,尤其是毁灭性风险或者涉及人类存亡的风险。

·递归式自我改善:对于设计中能够进行递归式自我改进(自动提高它们的智力,然后利用改进后的智力进一步提高自己)或者自我复制,可能会导致人工智能智力快速提升或者复制品迅速增加的人工智能系统,必须遵守严格的安全和控制措施。

·共同利益:超级智能的开发应当只为普世认同的道德理想服务,应当惠及全人类,而非惠及某一国家或者组织。

再次重申,我个人对签署以上准则是没有任何异议的,但事实上,正如我之前讲到过的,我们离这些准则暗示的场景还有十万八千里,将这些场景纳入准则中几乎就等于制造恐慌。用人工智能科学家吴恩达A的话来说,现在担心这些问题就像在担心火A吴恩达,1976年生,华裔美国人,斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任。吴恩达是人工智能和机器学习领域最权威的学者之一,也是在线教育平台Coursera的联合创始人。星人口过剩一样[105]。或许在未来的某一天,这些问题足以将人折磨到失眠,但现在就提出来,是在误导人工智能的未来发展之路,更令人担忧的是,它分散了我们的关注。我们究竟该关注哪些问题,这个会在下一章讨论。当然,也正是因为这些场景在未来很长一段时间内都不可能出现,所以各大公司都可以不费吹灰之力地欣然接受,并且享受由此带来的提升企业形象的正面宣传效果。

2018年,谷歌发布了自己的人工智能道德指南。比阿西洛玛准则略简洁,它们涵盖了许多相同的领域(有益、避免偏见、安全)。并且,谷歌还就人工智能和机器学习开发的最佳实践提供了一些具体指导[106]。2018年底,欧盟提出了另一个框架[107],还有一个框架是由IEEE(电气和电子工程师协会,一个非常重要的计算机和信息技术专业学会)提出的[108]。许多大公司(不仅仅是IT公司)也发布了他们自己的人工智能道德准则。

当然,大企业宣称他们致力于发展人工智能道德是一件好事情。然而,他们是否真正理解所承诺的东西,这才是难点。高层的愿景是很美好的,比如分享人工智能的益处,肯定受欢迎,但是将其转化为具体行动却并不容易。谷歌十多年来使用的公司座右铭是“别作恶”,这听起来不错,我敢说这是真诚并带有善意的——但这对谷歌的员工而言又意味着什么呢?如果需要防止谷歌越轨到黑暗面,他们还需要更具体详细的指导。

在已经提出的各种框架内,某些主题反复出现,围绕它们所达成的共识也越来越多。我在瑞典于默奥大学的同事维吉尼亚·迪格努姆(Virginia Dignum)将这些问题分为三个关键类别:解释义务、责任和透明度[109]。

解释义务主要是指,比如一个人工智能系统做了一个对某人有重大影响的决策,那么这个人有权要求系统对这个决策进行解释。但是怎么样才算是解释,这就是个难题了,在不同的环境下有不同的答案,而现在的机器学习程序无法提供解释。

责任则意味着应该明确对决策负责的智能体,而且,最重要的是,我们不应该试图声称人工智能系统本身要对决策“负责”,责任方应该是部署该系统的个人或者组织。这就指向了一个更深层次的哲学问题,一个与道德智能体有关的问题。

道德智能体通常被理解为一个实体,它能够分辨是非,并理解其行为所导致的后果。人们通常认为,人工智能系统可以承担道德智能体的责任,并且能够为它的决策和行为负责。而人工智能研究界的普遍观点恰好相反:软件是不能被追究责任的。更进一步说,人工智能研究中的责任并不意味着制造出有道德责任的机器人,而是以负责任的方式开发人工智能系统。例如,发布一个类似Siri的软件智能体,误导用户以为自己在跟另一个人交互,这就是软件智能体的开发者对人工智能不负责任的使用。软件在这里不是罪魁祸首,开发和部署它的人才是。负责任的设计在这里意味着人工智能将始终清晰地表明它的非人类身份。

最后,透明度意味着一个系统使用的数据应该是可获取的,其中使用的算法也应该是清晰明确的。

人工智能伦理研究的兴起是令人值得高兴的进步,尽管目前正在提出的各种框架和体系实际的实施范围还有待观察。

谨慎地表达意愿

有关人工智能伦理的讨论有时候会让我们遗忘一个平凡的现实:人工智能软件就只是软件而已,我们不需要创造什么新奇的技术让软件出错。简言之,软件本身就有缺陷,没有缺陷的软件是不存在的:只是有的软件因为缺陷崩溃了,而有的没有。开发无缺陷软件是计算机领域的一项重要研究,发现和消除缺陷是软件开发的主要内容之一。但是人工智能软件为引入缺陷提供了新的方式。其中最重要的一点是,如果人工智能软件要代替我们工作,我们需要告诉它希望它做什么,这往往不像想象中那么容易。

大约15年前,我正在研究一种技术,旨在使车辆在不需要人为干预的情况下进行自我协调。听起来很酷炫,不过因为我研究的特定场景是铁路网,所以实际情况相对要简单一些。铁路网是环形网络,上面有两辆列车朝着相反的方向行驶。当然,火车和铁路都是虚拟的——没有实际的轨道(事实上连玩具轨道都没有)。假设虚拟的铁路通过一个狭窄的隧道,如果两辆火车同时进入隧道,那么就会发生(虚拟的)车祸,而我的目标是阻止这一切。我尝试开发一个通用框架,允许我向系统提出一个目标(本例中的目标是防止火车撞车),系统将返回一些规则,列车如果遵循这些规则就能保证目标实现(列车不会发生碰撞)。

我的系统开始工作了,但跟我想象的差距甚远。当我第一次向系统输入目标时,系统返回的规则是:两列火车必须都保持静止。当然,这是可行的——如果两列火车都保持静止,当然不会发生车祸了,可这不是我想要的方案。

我遇见的问题是人工智能研究中的典型问题,实际上在计算机科学中也存在。我们想把自己的意愿传递给计算机,这样计算机可以代表我们去达成它。但是,将意愿准确地传达给计算机,本身就是一个非常有问题的过程,原因有好几个。

首先,我们可能并不知道自己想要什么,至少并非明确知道,在这种情况下,表达自己的意愿几乎不可能。另外,我们的意愿通常存在矛盾,在这种情况下,人工智能又要如何理解它?

此外,我们不可能一次说清自己的偏好,所以通常我们所做的是对意愿和偏好进行概述,而概述和全面的叙述之间总会存在差距,人工智能又该如何弥合这些差距呢?

最后,也许也是最重要的一点,当我们和人类交流的时候,通常默认彼此间有共同的价值体系和规范。我们不需要每次互动之时都把所有的东西交代清楚。但人工智能并不清楚这些默认的价值体系和规范,它们必须得到明确的说明,或者我们需要通过某种方式保证人工智能系统的后台存在这些东西。如果没有,那我们没法得到自己想要的结果。在上文的火车铁轨研究中,我传达了我的目标,即火车要避免撞车,但我忘了传达一个信息:火车仍然需要保持运行。如果是跟人交流,我想所有人都会理解并默认这一点,哪怕我忘记交代。但计算机系统不会。

牛津大学哲学家尼克·博斯特罗姆(Nick Bostrom)在他2014年出版的畅销书《超级智能》[110]中讲述了这种情况,他称之为不通情理的实例化:计算机按照你的要求去做了,但并没有按照你预期的方式。想象不通情理的实例化具体案例,可以让人不停地想上几个小时:你要求机器人确保你的房子不会被窃贼入侵,它索性一把火把房子烧了;你要求机器人保证人类不会得癌症,它干脆把所有人都杀了。诸如此类。

当然,我们在日常生活中也经常遇见这类问题:每当有人设计了一套旨在鼓励某一类行为的激励机制时,总有人会找到某种博弈方式,在不按预期行事的情况下获得奖励。我想起了苏联时期的一则逸事(可能是编造的):苏联政府希望鼓励刀具生产,因此决定根据刀具的重量来奖励生产刀具的工厂,结果如何?餐具工厂很快开始生产重得拿不起来的餐刀餐叉之类……

迪士尼经典电影的影迷可能会想到一个相关的情景,1940年迪士尼电影《幻想曲》中有一段情节,天真的巫术学徒米老鼠厌倦了从井里打水并提到屋里的家务活儿,为了减轻自己的负担,他召唤了巫术扫帚来做这件事。但是当米老鼠打瞌睡醒来后,他不得不阻止扫帚一桶又一桶地往屋里提水,结果他的地下室被水淹没了。最终他不得不寻求巫师师父的介入来纠正这个问题。米奇的扫帚完成了他的要求,但那并不是他想要的。

博斯特罗姆还设想了以下场景:假设有一套控制回形针生产的人工智能系统,人们要求它“最大化生产回形针”,然后,从字面意思来讲,系统将考虑先把地球和宇宙的其他部分转化成回形针的样式。同样,这个问题归根结底还是沟通问题:在这种情况下,我们传达目标的时候,要确保明确无误,不会产生歧义。

解决这个问题的方法是设计一种人工智能系统,以尽量减少其行为对周围环境的影响。也就是说,我们希望人工智能实现目标,同时让它所涉及的一切都尽可能保持或接近现在的状况。“ceteris paribus preferences”(即“尽可能保持其他条件不变”)的概念说明了这一点[111]。“ceteris paribus”是拉丁文,意思是“其他条件不变”。因此,按照“尽可能保持其他条件不变”的想法,如果我们让人工智能系统做一些事情,是希望它完成任务的同时,保持其他一切尽可能不发生变化。因此,当我们发出“避免我的房子被盗贼入侵”指示时,我们的意思是“避免我的房子被盗贼入侵,同时尽可能使房子的其他一切保持现状”。

解决这些问题的核心都是让计算机理解我们真正想要的是什么。逆向强化学习就是针对这一问题展开的,我们在第五章了解了常规的强化学习:智能体在某种环境中行动,并获得奖励。强化学习的目的是找到一个行动过程,最大限度地获取奖励。在逆向强化学习中,我们首先确定了“理想”的行为(即人类会怎么做),然后再制定人工智能软件能获得的相关奖励[112]。简言之,我们是将人类的行为视为理想行为的典范。