美国加利福尼亚洛杉矶,2011年3月11日
2011年3月11日,美国迪士尼影片公司发布了最新动画片《火星需要妈妈》。这部动画片根据著名漫画家伯克利·布雷斯德的作品改编,由罗伯特·泽米基斯负责制作。泽米基斯此前曾制作过《回到未来》和《谁陷害了兔子罗杰》。按说《火星需要妈妈》应该成为热片。没想到,它却创造了电影史上排名倒数第四的最低票房。《火星需要妈妈》的损失不仅高达一亿三千七百万美元,更被认为是压倒骆驼的最后一根稻草,最终导致迪士尼关闭了它的数字动画制作工作室。
几十年来,泽米基斯一直是好莱坞的票房发动机,他身兼导演、撰稿人和制作人,取得了一连串的成功。业内人士都知道,他一直致力于新技术的应用,传达他对电影的独特理解。他是最先放弃电影胶片转而使用数字电影的人。2004年,他在执导的《极地特快》中,已经运用了数字动作捕捉技术,将真人演员的动作合成到了看起来非常真实的动画人物身上。2007年《贝奥武夫》制作时也采用了这一技术。同年,迪士尼和泽米基斯主持的ImageMovers合作成立了数字动画制作工作室ImageMover Digital。可惜这个工作室并没能存在多长时间。就在《火星需要妈妈》初期剪辑开始试映时,也就是离工作室宣布成立仅仅不到三年之时,迪士尼便宣布将在2010年末关闭该工作室。虽然离《火星需要妈妈》的公映还有一年,不过高层认为此时再取消这部电影为时已晚。《火星需要妈妈》于是成为ImageMover Digital的第二部,同时也是最后一部作品。
虽然泽米基斯在进入新千年后很高产,但他的不少作品不止一次地遭到了公众批评,认为其中的动画人物太“令人害怕”。《极地特快》《贝奥武夫》《圣诞颂歌》[1],还有《火星需要妈妈》,观众基本都是这种反馈,和泽米基斯早期作品《谁陷害了兔子罗杰》得到的反馈完全不同。据部分影评人士及业内分析人士认为,其中的动画人物仿生的程度太高了,结果跌入了人们所熟知的“恐怖谷”。
恐怖谷理论[2],最早是20世纪早期由德国心理学家恩斯特·詹池(Ernest Jentsch)和弗洛伊德提出的。1970年,日本教授、机器人专家森昌弘发表了一篇名为《恐怖谷》的文章,就机器人与人的相似度,和观察者对机器人感觉亲和的程度之间的关系,提出了一个假设。
简单地讲,文章认为人有一种倾向,那就是在我们的世界中,那些越像人类的东西,对我们而言亲和感越高[3]。在前面一章中我们已经谈到过,动物、物体和机器与我们相像的程度越高,我们越有可能对它们加以拟人化,对它们产生同理心。但是,森昌弘又指出,这种趋势中存在着不一致的地方。在相像度达到一定水平时,观察者对观察对象的亲和感受会出现一个明显骤降。图中(图1)的这个骤降底部,就是森昌弘在文中用“谷”这个词描绘的原因。此时,观者不只是不喜欢观察对象而已,还会憎恶这个与真人非常像,却又不完全是真人的东西。这种感觉是明显能感觉到的排斥和反感。按照森昌弘的理论,不管是机器人、玩偶还是动画,一旦过于真实,似乎就会出现这个问题。
图1:恐怖谷[根据森昌弘与卡尔·麦克多曼(Karl MacDorman)的图标绘制]
这一现象对我们今后与技术,尤其是情感计算和社交机器人的关系有着深远影响。与基础的计算机应用或者流水线上的工业机器人不同,情感计算机和社交机器人领域的研发重点,是设计能真正与用户建立情感联系的系统。一个帮助系统反而惹得使用者心烦不安,还能有什么比这个更本末倒置的?
在探讨恐怖谷为什么会存在,或者其作用机制如何之前,有一点必须说明,那就是并不是所有人都认同这个理论,也不是所有人都相信恐怖谷真的存在。很多人认为,恐怖谷不过是趣闻轶事杂陈因而赚足眼球的大众心理学。不过,最近的一系列动物和人类研究表明,恐怖谷是一种真实存在的现象。2009年,美国普林斯顿大学的进化生物学家发现,猴子在看到高仿真重建的猴子面部时,其目光挪开的频率,远远高于看到真猴子和漫画猴子的时候。对此,他们的解释是因为猴子在看到高仿真图像时,心里的不安感更强。还有一项研究,则是让受试者将一系列机器人的面部按照好感度和可信度进行排序,实验结果也呈现出明显的相关性,支持了森昌弘的假设。还有别的一些研究,也得出了类似的结果。有些测试在受试者观看人类、机器人和安卓系统的同时,利用功能性核磁共振进行脑部扫描,结果也证明恐怖谷真的存在。
那么到底为什么会有恐怖谷?它又会对类似情感计算这样的领域产生怎样的影响?一些认知科学家认为,造成恐怖谷现象的,可能是我们大脑中用来归类和理解世界的不同部分间出现了脱节。他们认为,这种认知失调的出现,是因为事物外观让人们抱持的期望,与该事物的其他一些特征,或者行为上的某些方面不相符。
在描述这种脱节时,常用动作做例子。不论是人,还是其他动物,我们的动作是非常有特点的。从图1中可以看出动作的重要性,尤其在面对一个不变或者不动的物体时,恐怖的效果就更明显。比如说,尸体和僵尸本质上都是死尸,但是僵尸激起的负面反应要大于尸体,这很可能是因为它本来是不该动作的东西,可是它却动了。而且,僵尸的动作既不像尸体(完全不动),也不像活人,因此就和我们预期会看到的东西产生了冲突,这一观点得到了前面提到的功能性核磁共振结果的验证。不过说到这里,我们也要指出,这一解释并不是十分完善,因为我们在日常生活中,也经常会遇到相互矛盾的感知信息,但是这些感知却极少会让我们产生强烈的反感。这说明还有另外一种机制在发生作用,也或者另外那个机制和这种假设是共同作用的。
另一个对恐怖谷体验的解释是,这可能是我们在进化中产生的一种本能,让我们会自动躲开可能伤害到我们的病原体或人。一般而言,死尸和患有各种改损形貌性疾病的病人,我们最好回避,尤其是在现代医学出现之前。那些恪守这种明智做法的人,更有机会活下来并将自己的基因传递下去。如果对这种刺激先天的厌恶成为基因的一部分,那就可以因为利于生存而代代相传。
有一种观点将上面这两个理论结合了起来,这就是恐惧管理理论。恐惧管理理论的基础出自社会心理学。理论认为,人类很独特的一点,就是我们是唯一能意识到自己终将死亡的物种。会死这件事无可避免地与我们的生存意志发生了直接冲突,由此带来了恐惧。对这种恐惧,文化通过提供意义和价值,起到了一些缓解作用。但是,这种缓解并不足以消解问题的全部。恐惧管理理论提出,我们花费了生命中的相当一部分时间来避免这种焦虑。为了做到这一点,我们一方面采用多种不同策略来有意忽视这种对我们个人存在的威胁,另一方面则下大力气来避免我们无可逃避的死亡。
包括卡尔·麦克多曼在内的一些理论家认为,恐惧管理理论和恐怖谷效应之间可能存在着某种联系。一旦机器人、动漫人物或其他物体的仿生度过高,它们身上任何能触发我们的头脑从视其为有生命转为无生命的矛盾之处,都会促发这种反应[4]。因为它们提醒我们,有一天也会完成这种从生到死的转变,即使提醒的方式委婉微妙,这种机制对生存非常有利。不是一碰到自己终难逃一死的东西都吓得动弹不得,当某件实实在在的东西最终激发出我们对死亡的恐惧,我们可以迅速地转移自己,或者处理造成恐惧的起因,以改善我们的境遇,提高生存概率。
如果这真是我们产生恐怖谷体验的原因,那么除了小心划定出恐怖谷效应边界[5],之后努力去避免越界,似乎并无其他良方。当然,如果是有意想用某些恐怖电影或者其他形式的娱乐方式激起这种反应能力,那就该另作他论了。
还有一些解释恐怖谷效应的理论则将这种效应与我们在选择配偶时的排斥感受联系了起来。排斥感体验让我们远离不健康,或者某些地方感觉不对、不适宜做配偶的对象。虽然对恐怖谷效应的解释还存在着大量争论,但造成这种效应的原因很可能包括前面提到的两种或更多的原因解释。
尽管“恐怖谷”这种提法还相对较新,但这种体验已伴随了我们几十万年,甚至可能上百万年。我们只须看看周围,就会发现在我们的日常生活中,到处都有恐怖谷效应,只是强弱不同而已。对一部分人来说,去杜莎夫人蜡像馆一趟就足以激发这种体验,或者你第一次毫无心理准备地看到了一条假肢或者一只假手,又或者你过着不问世事的生活,然后见到了一个长得与你此前见过的非常不一样的人。当然与多种心理效应一样,随着你对对象的熟悉度和接受度的慢慢提高,恐怖谷效应也会逐渐减弱,但这需要时间。
从整容手术这一现代医疗程序,可以看出我们的大脑在对“恐怖谷入口”的识别上有多厉害。整过容的人,即使我们并不知道这些人整容前的模样,绝大多数人还是会觉得他们微微有点“不对劲”。可见,我们对什么是“自然”脸的解读有多么精细微妙[6]。
能不能通过与机器人共处,更好地了解这个“恐怖谷”呢?日本机器人专家石黑浩就正在做这方面的研究。他曾是油画家,后来放弃了油画,进入机器人领域。很快他成为该领域的一名教授,专门设计酷肖人类的机器人,而且是越像越好。石黑浩把按照他本人复制出来的仿真机器人称为Geminoid,这个词来自拉丁文gemini,意思是双胞胎。而这些双胞胎,一年比一年更像真人,仿生度越来越高。他和助手所做的这些工作,既让我们看到了恐怖谷存在的很多真实例证,更让我们理解到复制人体特征和动作之千难万险。
有趣的是,石黑浩自己也不确定恐怖谷效应背后的原因是什么。他曾多次指出,就人对仿生机器人的反应,很多理论给出的解释都过于简单了。尽管总是有很多人说仿真的那些机器人实在让人害怕。他甚至还说过,自己四岁的女儿看到一个长得和她一模一样的机器人时差点大哭起来。尽管人们对他褒贬不一,但石黑浩的工作也同时让我们看到,随着时间的推移,人们正在迅速适应有机器人在场,不像以前那么明显排斥了。
恐怖谷效应不限于机器人和动漫人物的外表。其他一些特征同样可能引发这种效应,其中最明显的就是动作。正如森昌弘早先的曲线图所示,动作的引入实际上强化了那种不一致,它将尸体的诡异转变成僵尸的恐怖。自然动作有太多精细之处,且负载了大量信息,因此从多重意义上讲,要比正确复制一个静态面部难度高得多。如果你看过《怨咒》这类恐怖电影,见过里面那些厉鬼那么不自然的移动方式,也就肯定体验过那种肠子都打结的恐怖感。也正因为这个原因,才不容易用言语传递出这种感觉,最多只能说就像看着一个披着人皮、貌合神离的异种。
也有其他极端事例,就像机械机器人模仿生物学运动原理的动作。波士顿机器人公司的“大狗”和麻省理工学院的“猎豹”就属于这类机器人。这种机器人,就是在很结实的金属框架上,装了十几个乃至上百个马达、制动器,还有电路。它们的外表是不是自然、像不像动物,基本上不在制作者的考虑范围。但是装备了上述元件的钢结构和关节,还有驱动它们的人工智能软件,极为精确地模仿了生物学运动原理,让这些机器人走、跑和跌倒后起来的动作,自然得就像活物一样。看着它们失去平衡,然后又爬起来找回平衡的过程,就像看着一副小马的骨架第一次试着站起来那样。恐怖图像带来的各种不安情绪,此刻如期而至。
其他可能落入恐怖谷的,还有仿真假肢的佩戴者。看着本该长着健康手掌的地方,却连着一只假手,也会触发人们内心五味杂呈的感受。这一方面从旁证明,那些认为恐怖谷效应根植于我们对自身死亡恐惧的理论家说得可能有道理。不过从所有这些解释来看,极有可能恐怖谷背后的心理学因素非常复杂,远非单个原因或者机制所能涵盖。
到此就引出了人工生成情绪的问题。读取和理解人类情感及非语言暗示是一回事,真实准确地生成它们是另一回事——不管采用的是语音、视觉的方式,还是其他方式。从我们对恐怖谷的各种体验来看,做到这一点极具挑战性,而且最终我们无法避免。
解释和表达情绪是一套很复杂的技能,这项技能我们多在年龄很小的时候就熟练掌握了。随着我们慢慢长大,这些交流渠道也通过我们的文化学习、有意识地加强,甚至镜像神经元的功能,得到了锻炼和精进。与另一条主要交流渠道口头表达一样,我们对情绪的理解和表达能力基本也是在人生早期就获得了。所以等到青少年阶段,我们对任何给定时刻哪种情绪可接受或者不可接受,基本已经了然于心。这也是为什么看到有人做出不合时宜的举动,比如在葬礼上发笑,在庆典上暴跳如雷,人们会大惊失色的原因之一。对自己和他人应该如何行止得体,我们有根深蒂固的社交期望值。一旦所见距期望甚远,我们往往就会指斥挑衅者不懂规矩,或者毫无品位。
我们对不自然动作的觉察能力更加敏锐。一闪而过的苦笑、稍微翘起的眉头,在恰当的情境中饱含深意。语调的升降,或者声音中稍纵即逝的颤抖,都传达出耐人寻味的信息。因此,我们对情绪化软件早期偏离人类常规的一丁点儿不符都能察觉出来,这也应该没什么可吃惊的。但是随着这些软件不断改进,设计越来越精细,早晚它们会接近人类的水平。而在它们达到那个水平之前,会不会也逐渐靠近并跌入恐怖谷,无意之中让人类大感不适呢?
这些都是非常理论性的探讨,我们还是来看一个实例。语音合成系统的性能,目前正在逐步提高,让人越来越难以分辨到底是不是真人说话。如果再将情绪特质整合到合成语音中,要猜出和你说话的是不是真人,就会比较有难度。那么这个系统真的能让你完全察觉不出吗?还是其中的某些缺陷会触发负面反应,造就一个语言的“恐怖谷”?如果软件应用于电话销售还好,可如果我们讨论的是虚拟心理治疗师,或者悲伤辅导师,那问题就完全不是一个等级了。用户的负面反应,显然很可能让一个原本大有可为的软件程序偃旗息鼓。如果是使用自动心理危机干预软件的危机呼叫中心,那问题就更严重了,一个错误回复就可能造成悲剧无可挽回。
还有利用情绪假体帮助情绪智能障碍者克服障碍的问题。前面已经提到过埃尔卡利欧比早期设计的读心者,那就是为自闭症患者设计的社交智能假体。继这一设备之后,出现了大量各种形态的情绪辅助设备。利用增强现实技术和情绪模式识别,什么样的情绪读取工具都有了出现的可能。想象一下,一个大脑受损的人,就像第三章开始时我们讲过的艾略特,能有可穿戴的情感假体。那样的设备将可以怎样改变一个人的生活啊!
在帮助残疾人面对和克服困难方面,已经有很多现代计算机界面技术投入应用。有视觉和听觉障碍的人士,他们的世界因为技术而得以扩展。截瘫、四肢瘫患者,甚至闭锁综合征患者[7],都已经看到自己生活的转变。而情感计算可能会带来的界面技术也不会成为例外。随着算法的不断完善,设备更便于携带,价格更便宜,更多人的生活会因之而改善。情感计算可能遭遇“恐怖谷”,这也是为什么我们要研究恐怖谷理论,更好地理解它,并在可能时寻找逾越的方法的原因之一。
但这还只是个开始。正如修复性义臂和义腿正衍生为力大无比的肢体和外骨骼,帮助视力恢复的视网膜假体有一天会让我们有望远镜一样的远视力,看到自然可见光之外的光线,情绪假体也会大大增强我们的情绪表现和情绪敏感度。关于此类调整,我们将在第十五章继续深入讨论。现在我们来看看进入人工增强时代时,恐怖谷可能带来的种种难题。
人类自出现之日起,就一直在努力通过技术提高自身。可能很多人对大张旗鼓增强自身的做法很反感,大多数人都相当熟悉自己的感官作用,可是你去跟那些感官不全的人讲讲试试?义肢、人工耳蜗(以恢复听力)、人工心脏,所有这些都属于某种形式的增强。就连配的眼镜、拄的拐杖,本质上也属于受损功能的技术替代品。那么如果其他形式的增强对我们来说有安全保证,又为什么要疑虑重重呢?仅仅是因为它们会提供优势条件?这能算是我们该心存疑虑或者对它们全面封杀的理由吗?
我们正进入一个新时代。技术会逐步复原或者改善人类自然拥有的功能。尽管每种增强可能对我们都很重要,颇具价值,但也确实渐渐让我们失去本属于人的得天独厚的特质。如果不采取适当措施,这会不会让前面的一批人没入“恐怖谷”,至少在他们一些人类同伴的眼中看来如此?
这并不是随便想想而已,也不是什么思想实验。我们正在建设的这个世界,很有可能会在不同的人群间,在各有视角的同类和他人之间,滋生出比现在更强烈的冲突。文化规范的巴尔干化,有可能会加深利益分化,人们对所感知的不同难平心中仇恨,对各自眼中的那些“他人”更不放心。
恐怖谷会让情况变得更加不尽如人意吗?它会不会透过激发我们潜意识中对死亡的恐惧,强化我们的排外行为?我们会不会因为诱发出恐怖谷反应的那些差异,那些与我们向来视为基准规范的磕磕碰碰,而更轻而易举地不拿人当人看?
最终,它影响的将远远不只是功能得到增强的人,还会影响到我们的技术世界。就算机器人和人工智能刚开始不是人,可是在有朝一日它们有了足够的能力,甚至有了意识之后,我们对它们的本能反应,会不会导致不必要的敌意,乃至引发冲突?
可能乍看起来,这种担心太杞人忧天,甚至根本没有必要。但是假如自然人开始有意识地增强自己的各项功能,借助各种技术手段让自身能力大幅提高怎么办?这种进程,就是我们常说的超人类主义(并最终进入后人类主义)。这一直是几十年来不少技术爱好者探讨的一个话题。其中一个反复出现的主题,就是冲突不断的两极分化的社会。这也没有什么好吃惊的。在感觉受到威胁的时候,只根据一些偶发区别便罔顾对方的人性,没有哪种反应比这来得更自然了,因为这样我们就可以接受自己人性淡漠或者加诸恶行的举动了。
随着人机界面的不断改进,我们要认识到很重要的一点,就是这种改进在一定程度上(至少对于一部分人来说),意味着与技术的融合程度进一步提高。不管我们谈的是生理心理残疾(或其他残疾),是自己动手的人工增强,还是政府批准项目(比如要符合美国食品药品监督管理局标准等),都会在未来几十年,甚至几个世纪中强化人机交互。一旦公众认为这种改进对我们有利,从美观角度看两者的结合也近乎[8]天衣无缝,那时我们又会从自己和他人身上发现哪些“自然”的进化反应呢?
我前面谈到由社会因素决定的基准规范。在人类社会中,我们常常会根据肤色、口音、信仰、眼形及其他面相(面部特征)将其他人归为“他者”,尽管我们彼此之间有99.999%都是无法区分的[9]。为什么会选择这些特征,而不用血型或者是不是平足来区分呢?也许是因为这些特征可见,可以快速判定。如今,肤色、面部特征和口音属于可以观察到,继而拿来攻击的对象。那明天呢?会不是轮到你接受其增强作用的设备或算法?
还要考虑到,这些反感情绪并不是普遍的。也许肤色不同对一个社会来说很容易被接受[10],而在另一个社会,这种不同已经足以构成杀人犯罪,或者种族屠杀的原因。即使是同一个社会,在不同历史阶段、不同的宗教间,或者不同的社群间也有可能存在差别。那么哪些变化会改变我们的行为?族群内的常态规范是如何形成的呢?
几乎可以肯定,习惯是其中的一个修正因素。时间、熟悉度、对彼此间相似盖过其他差异的强烈认同——不论这些相似点是真的,还是想象出来的。但假以时日,所有这些难道不可能兜兜转转又回到原地?鉴于我们对人类面相可接受的幅度范围如此之大,再加上心智神经具有可塑性,难道我们真的不会接受那些乍看起来不够似人之物?如果能接受,接受到什么程度?是仅仅拓宽了我们可接受的范围,还是能完全消除恐怖谷反应?
当然,有些时候光靠习惯是不够的。更确切地说,是有时候习惯来得速度不够快。很多时候,在大多数社会成员没有做好调整准备时,会有一小部分人身体力行,要求整个社会来接受并做出某种行为改变。有时候,这种推行的结果,就是在人们自然接受之前,以法律的形式来加速接受过程,继而达到普遍不再抗拒那种显而易见的差异的目的。不过,这种加速也可能造成反噬,引起其他社会成员反感、疏离或者更严重的后果。从恐怖谷带来的种种教训中学习,将有助于我们更好地解决,甚至避免技术进步可能带来的冲突。
了解了关于恐怖谷的理论,让我们重新开始想象这样的一个未来,那里有意识作用、情感丰富的机器。它们的寿命与普通人类的寿命相仿,不会长很多,也不会短很多。在面对生命有限的现实,也能意识到这种现实存在时,这些机器会不会也被迫采用相似的防御机制,让自己免受焦虑和其他存在危机的困扰?如果因为各种原因,它们无法做到这一点,那又会发生什么?人工智能会变得神经质吗?还是比神经质更加不可理喻?如果我们不小心让某种具有超级智能的人工智能变得神经质了,会有什么后果?这些可能看起来无聊又漫无边际,或者属于可能性极小的情况,但我认为对这些完全不予考虑才是不负责任,因为毕竟事关人类这个物种的存续。
我们对恐怖谷的心理反应,极有可能源于我们极有效用、欲罢不能的生理机制。它的存在,也许是为了保护我们不受伤害,是我们有意识的自省能力,与我们对人终有一死的清醒认识相结合的直接产物。没有这种机制,我们对自己生命的管理也许根本不会像现在这么有效。无论怎样,从被称为恐怖谷的情绪反应中,我们会收获不少新的认识,受益良多。下一章中我们会看到,这仅仅是情感计算能帮助我们学到的其中一个部分。