我希望到目前为止,这本书能够成功地让你明白一件事情,虽然近年来人工智能和深度学习方面取得了真实的、令人兴奋的突破,但它们并不是构建通用人工智能的法宝。深度学习可能是通用人工智能的一个重要组成部分,但它绝不是唯一的组成部分。实际上,我们并不清楚还缺失了哪些关键部分,更不知道通用人工智能的秘方究竟是怎么组成的。我们开发出的所有令人印象深刻的人工智能系统——图像识别、语言翻译、无人驾驶汽车,都无法构成通用人工智能。从这个意义上来讲,我们仍然面临罗德尼·布鲁克斯在20世纪80年代强调的问题:我们有一些智能组件,但不知道如何将它们组成一个真正的通用智能系统。无论如何,某些关键的组件仍然缺失,正如我们在第五章所看到的,即便是当代最好的人工智能系统也无法展示出它们对自己所做的事情有着真正意义上的理解。尽管它们非常擅长自己的工作,但它们仍然只是为了执行特定的、狭隘领域的任务而构建和优化的软件组合而已。
因为我相信,我们离通用人工智能还有十分漫长的道路要走,所以对于强人工智能的目标——构建跟人类一样有自我意识的,真正能够自主存在的机器,我自然是表示怀疑的。不过,这是最后一章了,让我们放纵一下吧,即使强人工智能前景渺茫,我们仍然可以从探索中寻找到乐趣,也仍然可以思考如何朝着它前进。所以,让我们一起沿着通往有意识的机器的道路旅行吧,让我们想象这里的风景是什么样子的,又可能会遭遇哪些障碍。并且,最重要的是,我们如何知道即将接近这条道路的终点。
意识、思想和其他奥秘
1838年,英国科学家约翰·赫歇尔(John Herschel)进行了一个简单的实验,试图测量太阳辐射有多少能量。他把一个装有水的容器暴露在阳光下,测量了太阳能使容器中水温升高1摄氏度所需的时间。通过一个简单的计算,赫歇尔可以估算出我们的恒星每秒发射多少能量。结果令人难以理解:在一秒钟内,太阳辐射出难以想象的能量,这一数量远远超过地球上一年所产生的能量。这就给当时的科学界出了难题:新出现的地质证据表明,我们生活的地方至少有几千万年的历史(所以太阳至少也有这么长的历史),但还没有已知的物理过程可以为太阳在那么长的时间里提供能量。任何已知的能源都会导致太阳最多在几千年内就烧毁。当时的科学家们天马行空,发明出令人着迷的难以置信的理论,试图将赫歇尔简单、易于重复的实验证据与地质记录的证据相协调。直到19世纪末,核物理学诞生,科学家才开始了解原子核中潜在的庞大能量。在赫歇尔实验出现整整一个世纪之后,物理学家汉斯·贝特(Hans Bethe)最终提出了目前被广泛接受的关于恒星能量产生的解释,即核聚变[144]。
现在我们回到强人工智能的话题,我们的目标是建造真正具有意识、具有思维,能够拥有自我意识和理解力的机器,与我们自身非常相似。而目前的我们就跟当年的赫歇尔处在同样的位置,因为人类思维和意识这种现象——它们是如何进化的,如何工作的,甚至它们是如何在我们的行为中扮演控制角色的——对我们而言,就像在赫歇尔时代为太阳提供能量的物理机制,是完全神秘的。这些问题我们不知道答案,连寻求答案的方式都不太清楚。目前,我们只有一些线索,以及大量的猜测。事实上,如果这些问题有了明确的、令人满意的答案,我们就能够从科学意义上理解宇宙的起源和命运。正是这种根本性的缺乏使得强人工智能离我们如此遥远——我们都不知道该从什么地方着手。
实际上的情况更加糟糕,因为我们甚至不知道到底该处理什么。我也提到过好多次“意识”“思想”和“自我意识”之类的术语,但事实上,我们都不知道它们具体是什么东西。看上去这些概念都很容易理解——毕竟我们都拥有它们——但我们没有办法用科学的方式来定义或者衡量它们。从科学意义来讲,我们无法证明它们真实存在,但根据个人经验和常识,它们确实存在。赫歇尔能够用一个实验来解决他的问题,使用了很好理解、可以量化的物理概念:温度、能量,等等。我们根本没有这样的测试来研究思想或者意识:它们不适合被客观观察或测量。没有标准的科学单位来衡量思想或者主观意识,甚至没有直接的方法来确定如何衡量它们——我看不出你在想什么,我也无法明白你的感受。从历史上看,我们对人脑结构和运作的大部分了解都是通过研究那些因疾病或创伤而大脑受损的人获得的,但这很难成为一个系统的研究项目。虽然像核磁共振成像之类的神经成像技术给我们提供了大脑结构和运作的重要见解,但它们并不能让我们了解个人的主观体验。
当然,尽管没有精确定义,我们还是可以确定一些在讨论意识时出现的共同特征。
我们需要先确定一个重要的观点,意识产生于有主观感受的智能体,拥有主观上的内在感受性。重点就在于对内在心理现象的感知,哲学上称之为感受性。这个名字挺别致,不过含义其实很简单:感受性是指所有人都会经历的精神感觉,比如咖啡的味道。让我们暂停一下,先想一想这个香味,或者,干脆去给自己煮上一杯,吸入那个香气。你所经历的那种感觉,就是感受性的实例。在炎热的夏天喝一杯冰啤酒的经历,从冬天到春天气候开始转暖的经历,我的孩子们在探索新事物上取得成功让我感觉到开心的经历……这些感受都是定性的:你能够了解它们,并且自己也很享受其中,但矛盾的是,尽管我们谈论的是相同的经历,但我并不确定你的感受是否跟我一样。因为感受性——以及其他心理体验——本质上都是私人的。我闻到咖啡香时候的精神体验只有我自己能理解,我无法判断你是否有过类似经历,即使我们可以用同样的词句来描述它。
1974年,美国哲学家托马斯·内格尔(Thomas Nagel)对意识的争论做出了最著名的贡献[145],内格尔提出了一种测试方法,通过这个测试,人们可以分辨出某个事物是否具有意识。假设你想知道下方列表中的事物是否是有意识的:
·一个人
·一只猩猩
·一条狗
·一只老鼠
·一条蚯蚓
·一个烤面包机
·一块石头
内格尔提出的测试是对上述实体思考问题“成为一个X是什么样的感觉”。如果我们认为成为一个X是有感受的(这里的X可能是人,可能是猩猩),那么内格尔就认为,这个智能体X是有意识的。看看上面的列表,这个问题应用到人身上,结论是肯定的。猩猩呢?我想成为一只猩猩应该也是有感受的,狗和老鼠也一样。因此,根据内格尔的测试,猩猩、狗和老鼠都是有意识的。当然,这并非它们确实有意识的“证据”,我们在这个问题上不得不依赖常识而不是客观事实。
蚯蚓呢?在这里,我认为我们可能拿不准了。蚯蚓是一种很简单的生物,根据内格尔的测试,成为一条蚯蚓会有感觉吗?我很怀疑这一点,因此,根据内格尔的论点,蚯蚓是没有意识的。当然,也有人会认为,蚯蚓也应该有一些简单的意识,但我不得不坚持说,那跟人类的意识比起来,实在是太简单了。不过,在烤面包机和石头的问题上,我不接受任何质疑:显然它们都是无意识的。成为一个烤面包机,可真的是毫无感觉。
内格尔的测试提出了一些重要的论点。
首先,意识并不是一个有或者无的东西,它是有层次的,从极端的成熟的人类意识,到另一个极端的蚯蚓的简单意识。即使是人与人之间,也存在差异,一个人有意识的程度也会不同,取决于他们是否受酒精等外部因素的影响,或者仅仅是因为太过疲惫。
其次,意识对不同的实体而言是不同的。内格尔的论文是《成为一只蝙蝠是怎样的感受》,他选择蝙蝠作为标题,是因为蝙蝠和人类差异非常大。内格尔的测试在蝙蝠这个实体上肯定是有意义的,根据内格尔的理论,蝙蝠具有意识。但是蝙蝠有我们没有的感觉,尤其是声呐,它们在飞行的时候发出超声波,根据超声波的回音来感知周围环境。有些蝙蝠甚至能探测到地球磁场,并利用它进行导航——它们的体内自带罗盘。人类没有这项感知,因此,我们无法想象成为一只蝙蝠的具体感受,尽管在内格尔测试中这个答案是肯定的。蝙蝠的意识与人类的意识完全不同,事实上,内格尔相信它超出了人类能够理解的范畴,尽管我们仍可以确定它的存在。
内格尔研究的主要目的是对意识进行测试(“成为一个X是什么样的感觉”),并得出结论,有些意识超越了我们能够理解的范畴(我们无法想象成为蝙蝠是什么样的感觉)。但他的测试也可以应用于电脑,大多数人似乎都相信成为一个电脑没什么感觉,就像烤面包机一样。
基于这个原因,有人用内格尔测试的论点来证明了强人工智能是不可能的,因为成为一个计算机是没有感觉的。我个人并不接受这个结论,在我看来,“成为一个X是什么感觉”不过是基于直觉的回答,直觉能够很容易区分显而易见的案例(比如猩猩和烤面包机),但我不明白,在更微妙的情况下,或者在我们对自然界的体验之外(比如人工智能领域),我们怎样将直觉当作可靠的指引。也许我们无法想象成为一台计算机是什么感受,仅仅是因为它与我们完全不同,但这并不意味着(至少对我来说)机器意识是不可能存在的——机器意识只是跟人类意识不同而已。
试图证明强人工智能不可能实现的观点有许多,内格尔的观点只是其中之一,我们再来看看其中最著名的几种。
强人工智能不可能存在吗
内格尔的观点基于一种常识,即人类是有生命的物体,这是人类特殊的地方。而计算机不同于人,它是没有生命的,所以,强人工智能是不可能出现的。根据这一论点,我和老鼠的共同点比我和电脑的共同点更多,电脑和烤面包机的共同点比它和我的更多。
对此我有异议。在我的观念里,不管人类有多么了不起,最终也就是由一群原子组成的物体。人类和人类的大脑都是物理实体,遵守物理定律——即使我们目前并不太清楚这些物理定律是什么。人类是非凡的、奇妙的、不可思议的生物,但从宇宙及其规律来看,我们并没有什么特殊性。当然,这不能回答一个难题,即一堆特定的原子是怎么产生意识的——我们稍后会回到这个问题上。
美国哲学家休伯特·德雷福斯(Hubert Dreyfus)提出了“人类是特殊生命体”的变体理论。德雷福斯在批判人工智能的时候有一个主要观点,人工智能的实际成就实在是配不上人工智能这个名字。在这方面,他并非完全没有道理。但他有一个具体的论点,用以否定强人工智能存在的可能性。即人类的许多行为和决策建立在“直觉”的基础上,他认为直觉不像计算机要求的那样精准。简言之,德雷福斯认为,人类的直觉不能够简化为计算机程序那样的步骤。
现在确实有大量的证据表明我们的许多决策不是基于明确或者严密的推理[146],我们经常做出决定,但无法阐明自己的理由。事实上,我们大多数决策都是这一类型。从这个意义上来说,我们确实依靠某种直觉。但这种直觉肯定是源自我们随着时间推移获取的经验(要么是通过进化获得的经验,要么是通过基因传递给我们的经验),即使我们无法在意识层面上表达出来,这也并非什么神秘的事情。而且,正如我们所看到的,计算机可以在经验中学习,并成为有效的决策者,即使它们也无法清楚地表达自己决策的基本原理。
反对强人工智能存在的最著名论断,来自哲学家约翰·希尔勒(Joln Searle),正是他创造了强人工智能和弱人工智能的术语,我们在第一章就了解过。他发明了一个名叫“中文房间”的场景,试图证明强人工智能是不可能实现的。中文房间场景如下:
想象一个人被反锁在一个房间里,房门上有一个卡槽,他可以通过卡槽收到卡片,上面写着中文的问题。他自己不懂中文,但是房间里有规则书,可以指导房间里的人如何按照规则用中文写一个答案,然后把它传递出去。此时此刻,这个房间(包括里面的一切)实际上正在进行一个“理解中文”的图灵测试,房间里提供的答案让测试员相信测试对象是一个理解中文的人。
接下来,扪心自问:房间里的人真正懂得中文吗?希尔勒不这么认为,房间里的人不懂中文,房间本身也不懂中文,不管从什么角度来看,整个处理过程都没有表现出对中文的理解。这个人所做的一切不过是精确仔细地按照规则书的步骤给出问题的答案。他的人类智慧在这个场景里面仅仅用在尽职尽责遵守规则回答问题上。
显然这个人所做的就是计算机的工作:简单地按照一系列指令执行一系列步骤。他所执行的“步骤”就是计算机的指令。因此,根据希尔勒的观点,按照同样的道理,即使通过图灵测试的计算机,也没有表现出理解力。
如果希尔勒的观点是正确的,那就意味着理解这种能力——强人工智能所需要的能力——是不能够通过遵循步骤执行命令产生的。因此,用传统计算机是无法实现强人工智能的。如果认可这一点,这个简单的论点将扼杀人工智能的宏伟梦想。不管你的程序看上去拥有多么出色的理解力,这都只是一种错觉:在程序的背后,没有半点理解可言。
对于希尔勒的批评,人们提出了许多反对意见。
一个明显的基于常识的反对意见就是中文房间根本不可能实现。除此之外,让人去扮演计算机处理器的角色,也就意味着要花费上千年的时间来完成计算机一秒钟之内能执行的指令。把相关的程序编码成书面指令的想法也是荒谬的:当今典型的大规模计算机程序将涉及大约一亿行计算机代码(以人类可以阅读的方式印刷出来,恐怕得好几万册书卷)。计算机可以在微秒级的时间内从内存中检索指令,而中文房间的人的运算速度恐怕要慢数十亿倍。考虑到这些实际情况,中文房间以及它所包含的一切,无法让图灵测试的询问者相信它是一个懂得中文的人:也就是说,实际上它根本无法通过图灵测试。
还有一种对中文房间的说法是,虽然房间里的人没有表现出对中文的理解,房间本身也没有,但包含房间、人、说明书等的整个系统却有着理解。事实上,我们如果在人脑中四处挖掘,试图找到理解,也会一无所获。虽然人类的大脑某些区域负责语言理解,但在这些区域中,我们也找不到希尔勒所定义的理解力。
我对希尔勒巧妙的思维实验有着另一种解读。中文房间难题,如果从图灵测试的角度来看,是一种作弊,因为它没有把房间当作一个黑盒。只能说当我们往房间内部看的时候,在中文房间里不存在理解。而图灵测试要求我们只看输入和输出,从输入和输出来判断跟我们对话的是否真人。在我看来,争辩一个计算机系统是否“真正”理解,这是没有意义的。只要事实上它所做的事情与理解中文的人类所做的事情毫无区别,即可。
另一种反对意见是说,也许智能无法用传统的计算机实现,因为传统计算机在数学上已经被证明了具有局限性。或许你还记得,图灵的工作已经证明计算机能做什么和不能做什么——有些问题是计算机从根本上就无法解决的,但它们可以被明确界定。那么,如果人工智能所追求的智能行为在以图灵机为原型的计算机上都是无法实现的呢?图灵本人将这个观点作为强人工智能无法存在的一个可能性论据。大多数人工智能研究人员并不关心它,但是,正如我们之前经常看到的,什么是可计算问题,这一直是人工智能发展历程中的一大拦路虎。
身体还是心灵
现在我们转向意识研究中最著名的难题:身体还是心灵问题。人体和大脑中的某些物理过程会产生意识思维,但它们究竟是怎么形成的,为什么会出现呢?神经元、突触和轴突的物理世界与我们有意识的主观体验之间,到底存在什么关系?这是科学和哲学中最古老也是最艰难的问题之一。澳大利亚哲学家大卫·查尔莫斯(David Chalmers)称之为意识的难题。
有关这个课题的研究至少可以追溯到柏拉图。在《斐德罗篇》一书中,他提出一种人类行为模型,大脑中的某个控制推理的部分就像马车夫一样,控制着两匹马的缰绳——其中一匹马代表理性、高尚的渴望,另一匹代表不合理或者无意义的欲望。一个人一生的道路取决于他的马车夫是如何控制这两匹马的。印度哲学经典《奥义书》里也出现过类似观点[147]。
把理性的自我视为马车夫是一个很好的比喻,毫无疑问,它挺可爱的——我更倾向接受控制自我内心高尚和卑劣的部分这个理论——不过它也遇到了一个常见的心灵理论上的问题。柏拉图把马车夫想象成某种“心灵”,但他所得出的结论说,人类的心灵是由另一个心灵(即马车夫)控制的,哲学上称之为侏儒问题(侏儒的意思是“小个子的人”,在这个例子中,侏儒就是马车夫)这样的解释是存在问题的,因为它实际上没有解释任何东西——只是把心灵的问题用另一个心灵问题来描述而已。
不管怎么说,“马车夫”模型是存疑的,因为它指出推理是我们行为的主要驱动力,而有大量证据表明事实并非如此。例如,在一系列著名实验中,神经科学家约翰-迪伦·海恩斯(Joln-Dylan Haynes)显然能够探测到受试者意识到自己做出最终决定的10秒前内心所做的决定[148]。
这个结果引发了各种各样的问题,但最重要的一点是,如果有意识的思考和推理并不是我们决定做什么的机制,那到底什么才是呢?
进化理论告诉我们,人体拥有的各种特征都会给我们带来进化优势。所以,按照这个理论,我们可以扪心自问,意识思维给了我们怎样的进化优势?因为根据推测,如果它没有给我们带来进化优势的话,它就不应该存在。
有一种理论认为,有意识的头脑只不过是我们身体产生各种行为的一种毫无意义的副产品,这一理论被称为副现象论。如果有意识的心灵是一种副产物,那么你的意识就不再是如柏拉图所说的,掌控缰绳的马车夫,它只是一个坐在车上的乘客,幻想自己是马车夫而已。
也有稍微中立一些的观点,认为意识并不像柏拉图说的那样在我们的行为中起主导作用,而是我们大脑进行其他活动过程中以某种方式产生的——大概是一些在低等动物大脑中不存在的过程。毕竟,据我们所知,它们并不像人类那样享受丰富的精神生活。
在接下来的内容中,我们将讨论人类意识体验的一个关键组成部分:我们的社会性,即我们理解自己和他人作为社会群体一部分的能力,以及能够思考他人和他人如何看待我们的能力。这一关键能力很可能演变成在大型复杂社会群体中共同生活和工作的需要。为了理解这一点,我们将从英国进化心理学家罗宾·邓巴(Robin Dunbar)进行的一项著名社交大脑研究开始。
社交大脑
邓巴对一个简单的问题很感兴趣:为什么人类(以及其他灵长类生物)的大脑比其他动物都大[149]?归根结底,大脑是一个信息处理设备,它消耗了人体所产生能量的相当大一部分——通常的估算为20%。因此,灵长类生物会进化出更大的大脑,是因为它们需要处理更重要的信息。而考虑到庞大的能量需求,大脑必须产生一些实质性的进化优势。但究竟是怎样的信息处理需求,以及什么样的进化优势呢?
邓巴研究了一些灵长类生物,寻找它们可能需要增强信息处理能力的因素。例如,灵长类生物可能需要追踪环境中的食物来源,或者灵长类生物需要更大的生活范围以及觅食区域。然而,邓巴发现,和灵长类生物大脑体积关系最密切的因素是平均社会群体规模,即灵长类生物社会群体中动物的平均数量。这就表明,灵长类生物需要更发达的大脑来成功维持庞大的社交群体,更准确地说,是寻找、维持和利用群体中的社会关系。
邓巴的研究提出了一个有意思的问题:鉴于我们所知的人类大脑的平均大小,可以分析预测人类的平均群体规模是多少。通过分析,人们得出一个数值,被称为邓巴数,公认为150。也就是说,考虑到人脑的平均大小以及对其他灵长类生物的分析,我们估计人类社会群体的平均规模大约是150人,即一个人拥有稳定社交的上限人数大约是150人。邓巴数是一个能引起人好奇心的数字,随后的各种研究发现,这个数字在人类社会群体实际规模计算中反复出现。例如,新石器时代的农业村庄通常大约有150名居民。最近发现的一个有趣事实是,邓巴数可以解释我们在脸书等社交网站上积极接触的朋友数量。
邓巴数可以理解为人类大脑能够管理的人际关系的最大数量。当然,不少人互动的人数是大于这个数字的,但邓巴数是我们能够真正保持的关系数量。
简言之,如果这个分析是正确的,那么人脑的不同之处在于它是一个社会性的大脑。与其他灵长类动物相比,人脑的容量更大,因为我们生活在庞大的社会群体中,这就要求我们有能力维持和管理大量的社会关系。
接下来的问题浮出水面了,维持和管理这些社会关系到底意味着什么?为了回答这个问题,我们将探讨一个由著名美国哲学家丹尼尔·丹尼特(Daniel Dennett)提出的观点,即我们如何用他所谓的意向立场的层面来理解和预测人们的行为。
意向立场
我们环顾四周,试图弄清楚我们看到的一切,似乎我们自然而然就能区分出智能体和其他对象。我们已经在本书中看到过智能体这个词:在之前,它指代的是构建一个人工智能程序,代表我们独立行动,理性地实现我们的偏好;而我们现在讨论的智能体,从某种意义上来说,似乎是一种跟我们有着相似属性的实体,就像有自主能力的演员。当一个孩子思考从一堆巧克力中选择哪一块,并仔细地选出时,我们看到了智能体的存在:有选择,还有有思考、有目的性、有自主性的行为。相反,当一株植物从岩石底下冒头,随着时间推移,它掀开了岩石,我们却看不到任何智能体性质:它是在以某种形式进行活动,但在活动中我们看不到思考,也看不到有意识的目的。
那么,为什么我们会把孩子挑选巧克力解释为智能体性质的行为,而把植物生长解释为一个无意识的行为呢?
为了理解这个问题的答案,想一想我们试图解释改变世界的过程时,可以从不同的层面得到不同的解释。其中之一是丹尼特所说的物理立场,它可以解释一个实体行为。在物理立场中,我们使用自然法则(物理、化学等)来预测系统的行为结果。例如,丹尼特指出,当他释放手里的一块石头时,可以使用简单的物理原理成功地预测石头会落在地上,因为石头有质量,它受到重力的作用。现在,虽然物理立场在解释这种行为的时候非常有效,但无法应用于理解或者预测人类行为,这当然是不可行的,因为人类的行为太过复杂,无法用这种方式去理解。也许原则上可行(毕竟我们最终只是一堆原子),但应用在实践中是行不通的。就这一点而言,物理立场也不是理解计算机或者计算机程序行为的一种切实可靠的方法——典型的现代计算机操作系统的源代码长达数亿行。
另一种层面是设计立场,在这种立场下,我们根据系统应该实现的目的进行理解,并预测系统行为,即它的设计目的。丹尼特举了一个闹钟的例子,我们不需要使用物理定律去理解闹钟的行为,我们知道它是时钟,就明白它显示的数字指的是时间,因为时钟就是用来显示时间的。同样,如果这个时钟发出刺耳的闹铃声,我们就明白它是被设定为在这个特殊时间点上开启闹钟。因为在指定时间发出刺耳的噪音也是闹钟设计的目的。这种解释不需要了解时钟的内部机制,不需要了解闹钟的具体物质构成方式、力学作用等,只需要了解它被设计出来的目的即可。
第三种层面,也是我们最感兴趣的,丹尼特称之为意向立场[150]。从这个层面看,我们将心理状态——诸如信念、欲望等归因为实体,然后使用与心理状态有关的常识去预测实体将如何行动,假设它根据自己的信念和欲望做出选择。最明显的地方在于,我们解释人类活动的时候,通常需要做出如下陈述:
珍妮认为天要下雨了,她希望自己能不被淋湿。
皮特想完成他的评分。
如果珍妮认为天要下雨了,又不想淋湿,我们可以预测她会穿雨衣或者带把伞,或者压根不外出。这些都是拥有上述信念和愿望的理性智能体会采取的行为。因此,意向立场是具有解释力的,它允许我们解释人们做了什么,以及他们将(可能)做什么。
请注意,与设计立场一样,意向立场对实际产生这些行为的内部构造是不关心的。这个理论同样适用于机器和人类,我们将在下面详细讨论。
丹尼特创造了意向系统这个术语,用来描述那些行为可以被有效理解和预测的实体,这些实体的行为可以归因于它们的信念、欲望和理性选择。
意向系统有着自然的层级结构,越往上越复杂。一阶意向系统有着自己的信念和欲望,但没有关于任何有关信念和欲望的信念和欲望。相比之下,二阶意向系统能够对信念和欲望产生信念和欲望。讲起来很拗口,我们举例说明:
一阶意向系统:珍妮相信天要下雨了。
二阶意向系统:迈克尔想要珍妮相信天要下雨了。
三阶意向系统:皮特认为迈克尔想要珍妮相信天要下雨了。
在我们日常生活中,几乎不会用到超过三阶的意向立场等级(除非我们研究人工智能的活动,比如解决一个谜题),而且对我们大多数人而言,似乎超过五阶就很难厘清了。
社会生物的属性与我们使用意向立场密切相关,理由是它似乎能够让我们理解和预测社会中其他智能体的行为。当我们身处复杂的社会关系中,会陷入更高层次的意向思维中,于是个体的计划(不管是我们自己还是我们观察到的人)会受到其他智能体行为的影响,这里的行为可以定义为可预期的有意识的行为。因而很明显,意识思维在人类社会中普遍存在,我们也依靠它进行社交。回想一下我们在第一章中看到的爱丽丝和鲍勃的八字对话:
鲍勃:“我要离开你。”
爱丽丝:“她是谁?”
对于这个场景,用意向立场去解释就很简单,毫无争议,也富有说服力:爱丽丝认为鲍勃移情别恋了,并且想采取相应措施(离开她),爱丽丝想知道那个人是谁(也许她希望挽回他),她相信询问鲍勃会得到这个问题的答案。如果不从信念或者欲望的角度去分析,要在这种交流模式中解释清楚爱丽丝和鲍勃的角色,以及他们的思维和计划的明确特征,那会很难。
邓巴研究了人类和其他动物的大脑体积与高阶意向推理能力之间的关系。结果表明,高阶意向推理能力大致上是大脑额叶相对大小的线性函数。由于大脑的体积与社会群体的大小密切相关,因此,对于大脑自然进化的解释是为了满足在复杂社会体系中对社交推理(高阶意向推理)的需要。无论是集体狩猎、与敌对部落战斗、追求配偶(或许包括击败对手),或是获得对盟友的影响力和领导权,理解和预测别人想法的价值不言而喻。回到邓巴的论点,更大的社会群体会对更高阶的社交推理提出更高的要求,从而解释了邓巴所确定的大脑体积和社会群体规模之间的关系。
回到我们最初的话题,意向层次似乎与意识程度密切相关。正如我们之前讨论过的,典型的一阶意向系统确实广泛存在,但更高层次的意向性就意味着更高的门槛。人类拥有高阶意向系统,但我不会接受任何人说服我相信蚯蚓也有。那么,狗呢?你也许会说,狗能够理解我的欲望(例如,它会相信我想让它坐下来),但如果一只狗能够进行高层次的意向性推理,那也只是一种相当有限或者经过专门训练才能获得的能力。有迹象表明,某些灵长类动物存在有限的高阶意向性推理能力。例如,长尾猴会用警告声向其他猴子表示有豹子前来袭击(威胁到了猴群的生存)。有人观察到它们也会发出欺骗性的警告声,让其他长尾猴相信自己正在被豹子攻击[151]。这种伎俩的自然解释似乎涉及更高层次的意向性推理:“如果我发出警告声,其他猴子就会相信我正在被豹子攻击,然后它们就会逃跑……”当然,人们也可以提出其他解释来反驳这不代表高层次意向性推理。但是,尽管如此,这则逸事还是提供了某些非人类灵长类动物存在高阶意向性推理的可能性的证据。
以高阶意向性形式表现的社交推理似乎与意识相关。社交推理的进化足以支持复杂的社会网络和大型社会群体。但为什么社交推理需要意向性呢?我的同事彼得·米利肯(Peter Millican)提出,答案可能恰恰在于意向立场的计算效率。如果我有意识地利用自己的功能性动机——以欲望、信仰等形式,并且能够把自己想象成别人,那么这就使得我能够比其他人更有效地预测他们的行为(在实际情况和想象的情况下)。例如,如果我偷了你的食物,而我站在你的立场上去思考,可以本能地感觉到(没有经过计算)你会产生的那种愤怒,并预见你可能会采取报复措施,就会激发我去抵制偷东西的**。这是一个有趣的推测,但不管人类社交推理能力和意识之间的关系如何,我们不太可能很快得到明确的答案。所以现在让我们回到我们的主题——人工智能,并考虑机器是否有能力进行社交推理。
机器有信仰和欲望吗
意向立场在人类社会中扮演着重要的角色,但它也适用于其他实体。例如,针对一个传统的开关,意向立场为我们提供了一个非常有意思的描述性解释:当开关认为我们想传输电流的时候,开关会传输电流。我们通过轻触开关来达成意愿[152]。
然而,意向立场并不是理解和预测电灯开关行为最合适的方式,在这种情况中,采用物理立场或者设计立场要简单得多。相反,对于开关的行为,是否能用意向立场进行合理的解释,这取决于它对于有电流或者没有电流的状态认知,以及我们是否有打开电灯的欲望。虽然意向立场的解释提供了关于开关电灯的准确预测,但是将它作为电灯开关与否的解释,确实不切实际。
对于是否应该用意向立场来解释机器行为,似乎存在两个主要问题:意向立场的解释是否具有合理性,以及是否具有可用性。约翰·麦卡锡是该领域颇富影响力的思想家,他对这两个问题有如下看法[153]:
将某些信仰、知识、自由意志、意图、意识、能力或者愿望归属于一台机器或者计算机程序是合理的,如果这种归属所表达的关于机器的信息和关于人的信息相同的话……对于已知结构的机器,比如恒温器或者计算机操作系统,智力属性的归属是最直接的。但应用于结构未知的实体,它同样有用。
这段话太难理解了,所以我们试着展开解释一下。首先,麦卡锡认为,对一台机器的意向立场的解释应该表达出关于机器的信息,就如对人的意向立场会表达出关于人的信息一样。当然,这是一个很高的要求——让人想起图灵测试的不可区分性。套用我们之前举过的例子,如果我们声称一个机器人相信天在下雨,并且机器人想保持自身干燥,那么,如果机器人表现出理性智能体应该表现的行为,就跟人一样,那么这种声称(即归属)就是合理的。所以,如果机器人能够做到的话,它会采取适当的措施避免自己淋雨受潮。如果机器人没有采取措施,我们会认为,要么它不相信在下雨,要么它不想保持自身干燥,要么它就不合理。
最后,麦卡锡指出,当我们不了解一个实体的内部构造时,意向立场是最适用于解释它的。意向立场提供了一种独立于内部结构和操作(例如,它是人、是狗还是一台机器)来解释和预测行为的方法。如果你是一个理性的智能体,有保持干爽的愿望,并且相信正在下雨,那么我可以解释和预测你的行为,而不需要了解你的任何其他信息。
通往有意识的机器之路
以上讲述的一切,跟人工智能的宏伟梦想有什么关系呢?现在,请让我冒昧地提出一些具体的建议,展望一下通往有意识的机器之路,以及我们将如何制造它。(我期待着自己年老的时候再重读这一节,看看预测是否准确。)
让我们回顾一下第五章提到的深度思维著名的雅达利游戏系统,你应该还记得,深度思维创造了一个智能体来学习大量的雅达利游戏,这些游戏在很多方面都相对简单。当然,随后深度思维的智能体进展到玩更复杂的游戏,比如星际争霸[154]。目前,这种实验值得人关注的点是:智能体能够处理具有庞大分支因子的游戏;游戏中存在有关游戏状态或者其他玩家行为的不完美信息;游戏中执行的操作或许要等到很久以后才能得到奖励的反馈;智能体必须执行的操作不是简单的二元决策,例如打砖块,而是涉及冗长而复杂的操作序列,还可能存在与其他玩家的协作或者竞争。
这是一项令人着迷的研究,取得的进展也是令人惊叹的,但是,我们很难看到这项研究通过一些简单的进展或者突破就能制造出有意识的机器。因为这些研究正在解决的似乎不是跟意识有关的问题(当然,我不是在批评深度思维的研究,毕竟解决有意识的机器问题并不是他们研究的要点)。
鉴于以上讨论,我对如何实现这个目标提出一些初步建议。假设我们有一个机器学习程序,它可以独立学习,就像深度思维的智能体学习打砖块游戏一样。它被放在一个需要有意义的、复杂的高阶意向推理的场景中进行学习;或者是一个需要智能体说出复杂谎言的场景,这也意味着需要高阶意向推理能力。又或者是在一个场景中,智能体学会了交流,并且能够有意向地表达出自己和其他实体的意识状态。我认为,如果一个人工智能的智能体系统能够学会有意义地去做这些事情,那就是通往有意识的机器之路[155]。
我在这里想到的是莎莉-安妮测试(Sally-Anne test),这个测试被用来帮助诊断儿童自闭症[156]。自闭症是一种严重而常见的精神疾病,在儿童时期就会表现出来[157]:
在儿童时期,自闭症的主要症状表现为社交和交流的发育明显不正常,典型表现是缺乏正常的灵活性、想象力和伪装本能……自闭症的社交异常主要特征表现……包括缺乏眼神交流、缺乏正常的社交意识或者适当的社交行为,即“孤独”,在互动中表现出片面性以及无法加入社交团体。
典型的莎莉-安妮测试是给被测试的孩子讲述或者表演一个小故事,通常是这样的:
莎莉和安妮同在一间屋子里,屋子里有一个篮子,一个盒子和一颗弹珠。莎莉把弹珠放在篮子里,然后离开了房间。当莎莉不在房间时,安妮从篮子里把弹珠拿出来,放进盒子里。后来,莎莉回到了房间,想玩弹珠。
然后孩子们会被问到一个问题:
“莎莉会去哪里寻找弹珠?”
比较合理的答案是“去篮子里找”,但要得出这个答案,受试者需要能够对其他人的信念做一些推理:莎莉没有看到安妮把弹珠放到盒子里,所以莎莉相信弹珠就在她放置的地方——篮子里。绝大多数自闭症儿童都会回答错误,而适龄的正常儿童几乎总能正确回答。
这个方法率先由精神病学及实验心理学家西蒙·巴伦-科恩(Simon Baron-Cohen)和他的合著者提出,以此证明自闭症儿童缺乏所谓的心智理论(Theory of Mind)的能力。心智理论能力是一种实际的、常识性的能力,成熟的成年人拥有这种能力,能够对自己和他人的精神状态(信念、欲望等)进行推理。人类并不是天生就拥有心智理论能力的,但临**正常的人类天生就有发育它的能力。正常儿童的心智理论能力是逐步发育起来的:4岁的时候,儿童基本上能够进行推理,包括他人的态度和观点;到了青少年时期,心智理论能力就得到了充分发育。
在撰写本书之时,人们已经开始研究机器学习程序如何学习原始的心智理论能力[158]。研究人员最近开发了一个名叫ToMnet(心智理论网络)的神经网络系统,它能够学习如何对其他智能体建模,并在类似莎莉-安妮测试的情况下选择正确的行为。然而,这项研究还处于一个非常原始的阶段,解决莎莉-安妮测试问题还不足以证明人工智能拥有意识。但我认为,这是朝着正确方向迈出的第一步。它给了我们一个目标:能够通过自主学习达到人类心智理论水平的人工智能系统。
它会像我们一样吗
讨论人工智能和人类的共通之处,我们通常谈及的是大脑。这是理所当然的:大脑是人体主要的信息处理器官,当我们执行诸如解决问题、理解故事等任务时,大脑起着很重要的作用。所以我们自然会把大脑类比成无人驾驶汽车的电脑,从我们的眼睛、耳朵和其他感觉器官接收和解析感官信息,并告诉我们的手、胳膊和腿应该做什么。但这是一个极其简化的模拟过程,因为真实的大脑是一个由各种组件紧密结合在一起的系统,这个系统包含的组件极其复杂,自从生命第一次出现在这个蔚蓝色的星球上,这个系统作为一个单独的有机体已经进化了数十亿年。从进化的角度看,我们和类人猿也没什么区别——只是有意向感知的类人猿而已。所谓的人类意识,应该在这个背景下做如此理解。
我们目前拥有的能力——包括意识思维——是进化推动了原始祖先的结果[159]。正如我们的手、眼睛、耳朵的进化一样,人类的意识也在进化。人类成熟的意识并非一夜之间突现的,不像电灯那样可以突然开或者关。我们祖先的最初意识大概与蚯蚓无异,慢慢地进化成了莎士比亚。远古的祖先并没有像我们这样享受全方位的意识体验,我们也不太可能像后代那样享受到更为全方位的意识体验。进化发展的过程没有终结。
有趣的是,历史记录可以给我们一些线索,关于意识的某些元素是如何以及为何出现的。当然,有关的历史记录很少,我们不得不在大部分时间使用猜测的方式。但无论如何,这些线索很有意思。
每一个现存的类人猿——包括智人(即我们人类)——在1800万年前都有一个共同的祖先。大约在那个时候,类人猿的进化开始分支,将猩猩在约1600万年前送上了另一条进化之路,而到了600万到700万年前,智人和大猩猩、黑猩猩分道扬镳。这一次分化以后,我们的祖先开始出现区别于其他类人猿的特征:智人开始花费更多时间在地上行走,而不是在树上攀爬,最终发展到可以使用双腿直立行走。对这种进化的可能解释是气候变化减少了森林覆盖面积,迫使我们居住在树上的祖先迁往地面。离开森林的保护可能会增加被捕猎的危险,所以智人需要更庞大的社会群体来保障生存,这就要求我们进化出容量更大的大脑来支持社交推理技能,我们在之前讨论过它。
虽然早在100万年前我们的祖先就开始零星地利用火,但在大约50万年前,原始人才开始普遍使用它。火给我们的祖先带来了许多好处——它给了我们光明和温暖,吓跑了潜在的捕食者,扩大了食物的范围。然而,为了避免火灾,火的使用需要管理和维护,这就需要人们有合作的能力,以便轮流看管火堆、收集燃料等。这种合作或许促使了高阶意向推理能力(为了理解彼此的愿望和想法)的出现,还有可能催生出了语言能力。智人的语言能力似乎都是在同一时期内进化出来的,语言能力出现后,它的发展为人类进化带来的好处自然是不言而喻的。
我们无法精准地重建进化的先后顺序,以及它们带来了哪些新的能力。但普遍的研究似乎很清楚,我认为我们可以找到随着时间推移而出现的某些组成意识的部分。当然,这并不能回答意识是什么这个难题,但至少给了我们一些可能有用的线索,可以解读人类成熟的意识中一些必要的组成部分是如何以及为何出现的。它们也有可能进入死胡同,但最终,猜想也能引领我们走向更深入的理解。比起仅仅把意识当作一个无解之谜,它们总归是提供了更多的线索。
在未来的某个时刻,我们会了解意识,就像我们现在了解驱动太阳的能量一样。在那个时候,目前关于意识的各种辩论,可能会像核物理学家正确解释太阳能量来源之前的各种理论一样有趣。
假设我们完成了我提出的假说研究,即建造出有人类心智理论能力的机器,它能够自主地学习处理复杂的高阶意向推理,能够建立和维持复杂的社会关系,能够表达自己和他人心理状态的复杂特性,那么这些机器真的会有“心智”,能够出现自我意识吗?在目前的阶段,我们无法解答这个问题。只有当我们成功建造出这样的机器以后,才能离答案更进一步。当然前提是,如果,我们有能力建造它的话。
可以想象,我们永远无法令人满意地回答这个问题,尽管我也不知道为什么会这样。在这一点上,艾伦·图灵的认知引起了我的注意,你或许还记得,图灵认为如果机器正在做的事情与“真实的人类所做的事情”无法区分,那么我们就应该停止争论机器究竟是否存在“真正”的意识。如果它能够通过我们所发明的任何合理的测试,让我们无法区分,这可能就是我们想要的结果了。
[1] 1英里≈1.61千米。
[2] 蛋白质折叠问题被列为21世纪的生物物理学的重要课题,它是分子生物学中心法则尚未解决的一个重大生物学问题。蛋白质可在短时间中从一级结构折叠至立体结构,研究者却需要花大量时间从氨基酸序列计算出蛋白质结构,而且难以得到准确的三维结构。
[3] 一部禁止使用、储存、生产和转让对人具有杀伤力的地雷,及销毁、完全禁止一切杀伤地雷的公约[160]。