狭义AI和物理机器人的结合不仅仅是1+1=2。当它们结合在一起时,你就得到了一个看似很智能的代理,它可以自主工作。这也是“希望”和“恐惧”产生的地方。机器人专家开始制造越来越多的具有狭义人工智能的机器人,当人们第一次接触它们的时候,往往不能确定该如何看待它们。因为这项技术是新的,我们不了解它的局限性,也不了解它可能产生的影响。我们不知道这些设备最终能做什么。
大多数对于这些技术的希望、恐惧和疑问都来源于不知道它们会使未来变成什么样。这是因为我们不知道它们的缺陷,尽管我们在AI和机器人技术方面都取得了巨大的进步,但是对于每天与这些技术互动的人来说,AI和机器人技术的缺陷都是显而易见的。让我们来探讨其中的一些。
AI机器人面临的第一个问题是视觉成像。我们可以在机器人身上安装一个先进的摄像头,但那只能获取数据。机器人还必须把数据全部整理出来。当你看向厨房储藏柜时,你会看到一堆单独的物品。但机器人只能看到像素,好比一个由数百万种的光和颜色组成的万花筒。它不知道什么是盒子,什么是架子,甚至也没物体边缘的概念。它只是看到一堆没有区别的点。作为人类,你是怎么识别物体的呢?你是怎么从这些像素数字里得出那是一罐“豆子猪肉”的?这着实很困难。当你目光落在储藏柜中时,你大脑里进行的处理过程是极其复杂的。要想描述你的大脑是如何完成这个小小的奇迹的行为,需要数页关于多边形、锥体和层的技术呓语。你能够在瞬间识别出一栋房子的建筑风格,识别出一只飞翔的鸽子,分辨出你所认识的双胞胎,或者其他任何你毫不费力就能完成的上百项类似任务,这些能力都令世界各地的AI程序员艳羡不已。我认识一些程序员,如果他们认为可以通过解剖你的大脑找到问题的答案,我想他们会那么做的,那我建议你们不要接受他们调制的鸡尾酒。
假设你解决了视觉成像的问题,机器人能够识别储藏柜里的每一件物品。顺便说一下,它们到现在也不能识别,但是让我们想象它们可以。机器人仍然无法理解它们“看到”的任何东西,那是因为AI不能将看到的事物情景化。如果你开车穿过城镇,看见路上有一只小狗,一个蹒跚学步的孩子正走向小狗,在他身后一个成年女人疯狂地朝孩子跑去想要阻止他,你很容易就把这些场景拼凑起来。但是对计算机来说,这就真的只是一堆改变了颜色的像素,或者说,只是一堆1和0。想想看,对于人类来说,弄清楚一张给定的照片里发生了什么是多么轻而易举:那张是一场康加舞(conga lines)[5],那张是一个为了惊喜派对而藏起来的人,那张是一个家长拍的毕业舞会照片,那张是钢琴独奏会,还有那张是学校演出,这张是洗礼仪式,等等。我们能轻易分辨每一张场景是因为我们有解读它的文化背景。现在,理论上来说,你可以训练一台计算机做同样的事情。向计算机展示足够多的康加舞,它会变得非常擅长识别康加舞,事实上会比人类做得更好。如果生活中除了需要识别的静止照片之外再无他物,那事情就很简单了。但是生活是动态的,“情境”是从一系列静止图像的差异中衍生而来,有无数种可能的组合方式。对于这类信息,几乎没有可用的训练集。当你看到年轻的邻居夫妇,匆忙走向汽车,妻子捂着肚子,丈夫拿着一个旅行袋,一脸的担忧,你很容易就能搞清楚发生了什么。但这对计算机来说很难。或者更进一步,你没看见邻居夫妇匆匆离去,现在已经是两天后了,你注意到他们院子里有两份报纸,他们的车也不见了,你马上就心中有数了。你甚至不需要深思熟虑,只是随意地对你的配偶说:“亲爱的,我想邻居要生孩子了。”如果你的另一家邻居有个儿子,快满16岁了,莫名其妙地,他开始挨家挨户地要求帮忙修剪院子,你可能会推断他想买车。而训练计算机进行以上的推断是相当困难的。
但是,假设你训练一个AI,让它能够从康加舞、怀孕的妻子和16岁的男孩那里获得情境线索。当然我们现在还做不到这个,但是让我们想象我们可以。那么,我们的境况也不会好多少,因为AI只能做这些事情。我们不知道如何教它做迁移学习(transfer learning)。什么是迁移学习?如果我给你看一件物品,比方说是一个大约一英尺高的猎鹰小雕像,然后我要你从给定的十多张照片里找出猎鹰,你可以轻松办到,即使猎鹰被一棵树挡住了一半,或在水下,或倒挂着,或侧卧着,或在头上涂了花生酱。我敢打赌,虽然你从来没有见过一只头上涂了花生酱的猎鹰雕像,但你仍然能认出那是只猎鹰。这是因为人类可以用一生的时间来观察被其他物体遮挡的东西,水下的物体,或者被花生酱之类的物质覆盖的物体,积累经验,获取知识,然后把这些知识应用到新的任务中。这就是迁移学习,我们不知道人类是怎么做到的,更不用说教计算机如何去做了。
假设我们解决了这个问题。当然我们没有解决,可能也不会很快解决。但是让我们想象一下,人工智能可以把它在一个领域学到的东西应用到其他领域,我们仍然没有走得很远,因为人工智能不知道如何随机应变。而每个人类,无论其技能水平如何,都能以一种远远超出任何机器的方式随机应变。如果你弄坏了门把手,尽管在你以往的经验中门把手是用来拧的,从来没有折断过,但现在它断了,你不会怔怔愣在原地不知所措,你会试着想办法把门打开。如果你把自己锁在房子外面,你会想办法进去。如果一阵风把你的伞吹走了,你就会去把它追回来,而从来没有人教过你这些,你可以无师自通。因此,即使计算机可以有视觉、并能够理解它所看到的,从中获得情境背景,并可以将其用于其他领域,它仍然没有创造力。我们人类不仅仅像上文假设的AI一样被动地感知世界,我们对世界的反应形式也超越了迁移学习的水平。
除此之外,还有另外四种感官要考虑。以听觉为例,我们正处于一个伟大的现代社会,当我打电话给我的航空公司,向它的自动系统口述我的会员号,它大约有一半的概率会识别错误。事实证明,识别语音是一个相当困难的事情,尽管在大多数语言中,一个人报会员号可能只说几十个字母或数字。但当你考虑到地方口音和不同声音的音调差异时,从电脑的角度来看,你的“H”发音和我的“8”(eight)发音非常接近。如果线路再受到静电干扰,或者楼下有人在用吸尘器,又或者只是感冒了,问题就会变得更糟。同样,数据不是问题,但处理数据却是问题。屏蔽真空吸尘器的声音是非常具有挑战性,人类却能忽略特定的声音,但是我们不知道这是如何做到的,我们当然也不知道如何让AI做到这一点。
然而,尽管有这些限制,我们早期的AI已经以很多种方式造福了我们的生活。AI为你导航,过滤垃圾邮件,预测天气,推荐产品,识别信用卡欺诈。智能相机用AI来识别人脸,运动队用AI来改进策略,人力资源部门用AI来筛选求职者。AI也可以读取手写文字,将语音转换成文本,并将它们翻译成其他语言。所有这些任务都是纯粹的计算活动。任何拥有大量数据的地方,即使是无序的原始数据,都是AI的用武之地。例如,AI将快速分析我们所有的卫星数据,并帮助我们发掘古城,追踪野生动物的数量,监测植被生长。然后,它将利用所有的交通数据,帮助我们建设更智能的道路,改进交通灯计时使其更有效率,并减少事故。这样的例子不胜枚举。《连线》(Wired)杂志的创始主编凯文·凯利(Kevin Kelly)在推特上总结了这一切:“未来10 000家初创企业的商业计划很容易预测:即X+AI。”
那么为什么AI可以为我们做所有这些事情,但同时又有我们刚才描述的所有限制呢?因为我们擅长每次教AI做一件事。如果你想让人工智能下棋或识别邮件垃圾,那么你就事论事简单教给它就行了。你不会要求它去概括、适应情境、有创造性,或能做任何其他的事情。只要教它那一件事,它会在这方面做得很好。这就是为什么它被称为狭义人工智能。
在第二节中,我们讨论了劳动分工的优点,它是经济学理论中不多的“免费午餐”之一,它使文明和繁荣成为可能,但它也不全是优点。劳动分工告诉我们,当人们被训练成一项专业任务的专家,这会有助于增进社会整体繁荣。这不仅适用于制造业,在其他任何领域也是如此。假设你是一名多面手律师,收入还不错,但是如何提高自己业务收费水平呢?你可能会专攻《著作权法》,除此之外,你还可以进一步专门化。然而这样做,你就埋下了自毁前程的隐患。具有讽刺意味的是,你越专业,你就越容易被机器取代。你越是精通某一个细分领域的知识,这些知识就越容易被计算机编码成一系列的规范步骤。比起X射线技术人员,狩猎采集者的计算机替代品更难制造,就是因为技术人员只做一件狭义的事情。
众所周知,肯·詹宁斯在《危险边缘》(Jeopardy!)[6]上被IBM计算机沃森打败了。肯·詹宁斯说,IBM的工作人员绘制了一幅线形图,以记录沃森在追赶“肯·詹宁斯”的过程中所取得的进展,每个星期,沃森都在缓慢赶上来。随后詹宁斯在他的TED演讲中讲述了这一切给他的感觉:
我看到了这条线。我意识到,这就是未来来临时的样子。它不是终结者的枪瞄准镜,它只是一根细细小小的线,离你最擅长,也是唯一让你与众不同的事情越来越近。
参加《危险边缘》是一件狭义的事情,好吧,实际上是一些狭义的事情。这就是为什么今天的AI可以掌握它。
到目前为止,我们一直在探索AI机器人面临的认知挑战,现在让我们来看看同样艰巨的物理挑战。对于AI机器人来说,物质世界是一个充满难题的地方,但假设它在一个受控的环境(比如工厂)中执行纯粹的重复动作,机器人就可以做得非常好。没有一个人能把10亿个晶体管焊接到邮票大小的计算机芯片上,但机器人可以。如果没有机器人来制造我们每天使用的东西,我们就会以20世纪50年代的技术来推动20世纪50年代的经济发展,充其量也只能以20世纪50年代的生活水平生活。所以,如果你享受现代世界的繁荣和便利,请感谢你将遇到的每一个机器人。然而,就算拼尽我们所有的技术,我们依旧不知道如何制造出一个类似三岁孩童水平的机器人,更不用说造一个比成年人更好的机器人了。尽管最近取得了一些进展,但脱离了工厂环境的机器人仍然是罕见的,它们面临着一系列挑战,包括运动、感知和对环境的操控。正如机器人学家埃里科·圭佐(Erico Guizzo)总结的那样:
几十年来,许多人一直在研究类人机器人,但驱动机器人腿和手臂所需的电动机太大、太重、速度太慢。今天最先进的类人机器人仍然是笨重的大块金属,让它们在人类周边活动是不安全的。
机器人面临的第一个挑战是弄清楚自己所处的地理位置。这既是感官方面的挑战,又是AI方面的挑战。机器人专家还没有真正制订出如何做到这一点的最佳实践方案,因为这一任务千变万化。机器人的任务是绘制出它所在位置的地图,然后跟踪它在地图上的位置。这听起来并不难,因为人类能毫不费力地做到。但请从机器人的角度来想象这个问题,一个机器人被丢进房间,它“看到”一把椅子和一个脚凳,由于椅子和脚凳是可以移动的,机器人不能把它们当成参照物。如果机器人发现自己比前一分钟更靠近椅子了,它无法判断是椅子被移动了,还是它自己被移动了,或者两者都被移动了。因此,它必须不断地重新绘制它的地图。构建一个地图并定位你在该地图上的位置被称为“同步定位与地图构建(SLAM)”,从长远看这不是一个无法克服的难题,它只是机器人专家面临的一项具有挑战性的工作而已。
当然,还有给机器人供电也存在挑战,尤其是电池的续航能力。我们远没有解决这个问题。举个例子,2016年,一个名为Promobot的俄罗斯AI机器人,被编入了自主性,它成功跑到了研究机构的外面,并跑出了164英尺(约50米),直到因电力耗尽而停在了马路中间,由此造成了半个小时的交通堵塞。机器人“起义”到此为止。
机器人面临的另一大问题是与物体的交互。虽然机器人的物理体格比人类强壮得多,可以在更极端的环境中工作,但总的来说,目前人类在更广泛的任务中显得更加灵活。人类的骨骼系统有200块以上的骨头,被600余块的肌肉包裹,仅移动像眼球这样小的东西就需要6块肌肉。在机器上再现这种灵活性是难的。为了让你了解机器人专家在这里面临的困难,请想一想2012年至2015年期间举办的DARPA机器人挑战赛,2015年是其总决赛。为《大众科学》(Popular Science)撰稿的埃里克·索夫格(Erik Sofge)总结说:“多年来规模最大、资金最充足的国际机器人竞赛以失败告终。”
比赛中,机器人必须驾驶汽车,穿越碎石,用门把手开门,找到阀门并关闭,等等。它们不需要只用AI完成这一切。挑战不在于它们能否在没有人类帮助的情况下完成这些物理动作,而是它们能否真正做完这些动作。此外,参赛者事先已经知道比赛项目,但即使有这样的优势,24名参赛者中也只有少数几个完成了整个比赛过程。而这个过程简单到一个在度假的醉酒水手都能轻易完成。这说明了制造一个机器人的难度,更不用说制造一个机器超人了。
对于人类来说,DARPA挑战赛似乎并没有那么难。还有什么比转动门把手开门更容易的呢?事实证明,很多事情都是如此。机器人必须识别门把手,用手握住门把手,然后转动门把手,不能太用力,也不能太轻。机器人还需要确定转动需要的摩擦力,它需要判断手转的时候把手是不是转了。人类可以很容易地分辨出是把手在转动,还是他们的手在把手上滑动,但这对机器人来说很难。人类可以根据阻力判断什么时候停止转动,机器人必须经过训练,才能在它破坏机械装置之前的某一时刻停止转动。然后,机器人必须维持把手处于目前转到的位置,继而去推门。这有多难?很难预先知道门有多重?门是卡住了还是没推开?
而如果门是向内拉的,而不是向外推的,那么机器人刚做的所有动作都是徒劳的。因为不教机器人如何拉门,它是不会凭着直觉就能学会拉门的。想象一下,教一个机器人在废墟中挖掘并寻找地震幸存者会涉及多少麻烦。
触觉对机器人来说是一个很大的挑战。人类的手可以用来抓挠小狗的头,同样还可以用它在酒吧斗殴,这证明了手的用途广泛,也证明了仿制手所面临的挑战。但即使你造出了令人称奇的机器人手指,机器人仍然需要感知手指末端发生了什么。回想下给婴儿换尿布,抱着一只小猫,或者安慰一个受惊的孩子。想想触摸压力的细微差别,以及你每一次“不假思索”就知道什么时候去触碰,但是机器人不思考就什么都做不了,它必须把每一个动作都剖解到最微小的细节。你将如何对这些动作进行编程?将其简化为1和0显然是可能的,但同样显而易见的是,这对于一个只能在内存中操作抽象符号的设备来说是十分困难的。
各种感知问题面临的一个难点是,我们没有用来训练机器人的数据。亚马逊拥有一个庞大的数据库,记录每个人的购买偏好,以此训练它推荐商品的算法。但我们没有100万成年人在1000种情况下抱着100万个婴儿的所有触觉数据。当然,我们可以通过制造CGI(电脑生成动画技术)装备来收集数据,人们通常在制作电影时穿戴类似的CGI装备。我们可以让1000对家长在手和指头上佩戴升级的传感器,历时一年,收集数据。但现在还没有人这么做。加州大学伯克利分校(University of California, Berkeley)的教授彼得·阿贝尔(Pieter Abbeel)还在试图教机器人如何叠衣服,可见机器人与现实世界互动的难度。
这种互动的第一个挑战是识别:当你看到一大堆脏衣服,你是怎么区分衬衫和裤子的?每批衣服都完全不同,乱糟糟的一片。我拒绝挑战将一张床单折叠整齐,因为根据许多数学家的说法,这在理论上就是不可能的。人们可以使用颜色、阴影和纹理作为行动线索,但是我们心不在焉做出的事情对机器人来说具有难以想象的困难。如果你的小狗恰巧在洗衣篮里打盹,会发生什么呢?对于机器人来说,如果小狗在篮子里,那它就跟衣服没有区别,是可以被折叠的。
阿贝尔的团队毫不气馁,多年来一直致力于研究这个问题的简化版,最终他们制造出了一个能在20分钟内折好毛巾的机器人。在这次试验成功后,他们紧接着又把折叠时间缩短到了两分钟以内。然而,相较于其他物品,毛巾是最容易识别和折叠的,因为它们方方正正的。所以尽管做了这么多努力,机器人还是没有能力把里外反的袜子挑出来,并翻过来。阿贝尔总结道:“一旦你开始研究机器人技术,你就会意识到孩子们在10岁之前就学会做的事情实际上对机器人来说是最难做的。”
最终,在通盘考虑人工智能机器人在精神上和物质上的能力时,我们必须做一个额外的考量,那就是即便我们想出了上述问题的解决对策,可当机器人出现故障时会发生什么?个人计算机算不上是一项新兴技术,但我仍然需要在每周的某个时候重启它。那当这些机器人运转失灵时又会怎样呢?当然,人类也会以自己的方式出错。比如飞行员心脏病发作,药剂师不小心装错了药片。但人工智能机器人的错误可能有一些不同。首先,由于软件和机械系统会被复制成很多成品,那么每个成品都将犯相同的错误,这就好比所有的飞行员都有未确诊的心脏问题。其次,随着机械化越来越复杂,错误可能会变得更加系统化,一般人更难发现。例如,系统内部时钟的缺陷可能导致各种灾难性事件发生,但我们不知道到底哪里出错了。最后,我们在这里讨论的各种系统将更加密切地相互联系和依存,导致一个小错误引发的连锁反应可能相当大。这种情况已经发生了很多次。早在1962年,美国国家航空航天局(NASA)的一枚耗资接近10亿美元(换算成今天的汇率)的火箭在飞行中爆炸,原因是代码中少了一个连字符。在另一个例子中,一枚欧洲火箭在飞行中爆炸,造成了70亿美元的损失,原因是64位数字太大,无法转换为16位数字,导致了象征性的和字面意义上的双重崩溃。尽管代价高昂,但这些灾难至少得到了妥善的处理。如果类似的问题出现在自动驾驶汽车、电网或公司的工资系统上,又会引发什么样的灾难呢?
我指出这些问题,并不是建议我们应该重新审视“迈向更加机械化的未来”,总的来说,机器在工作上比人更可靠。然而,一言以蔽之,机器故障可能引发更大的连锁反应。数字系统通常比模拟系统更脆弱。从《了不起的盖茨比》(The Great Gatsby)中删去一个字,它仍不失为一部杰作,而从压缩文件中删除一个字符,你就有了……一锅“字母表粥”。连字符漏写并不会让人爆炸,我们往往会犯错很多次,但只有一点点后果。而机器故障的频率较低,但错误会导致更灾难性的后果。因此,我们应该注意,如何以及在什么地方应用技术。