人工智能三部曲（全三册）(（美）理查德·扬克，（美）拜伦·瑞希，（印）卡尔提克·霍桑纳)_08 技术挑战（1 / 1）_人工智能三部曲（全三册）最新章节免费阅读无弹窗

狭义AI和物理机器人的结合不仅仅是1+1=2。当它们结合在一起时，你就得到了一个看似很智能的代理，它可以自主工作。这也是“希望”和“恐惧”产生的地方。机器人专家开始制造越来越多的具有狭义人工智能的机器人，当人们第一次接触它们的时候，往往不能确定该如何看待它们。因为这项技术是新的，我们不了解它的局限性，也不了解它可能产生的影响。我们不知道这些设备最终能做什么。

大多数对于这些技术的希望、恐惧和疑问都来源于不知道它们会使未来变成什么样。这是因为我们不知道它们的缺陷，尽管我们在AI和机器人技术方面都取得了巨大的进步，但是对于每天与这些技术互动的人来说，AI和机器人技术的缺陷都是显而易见的。让我们来探讨其中的一些。

AI机器人面临的第一个问题是视觉成像。我们可以在机器人身上安装一个先进的摄像头，但那只能获取数据。机器人还必须把数据全部整理出来。当你看向厨房储藏柜时，你会看到一堆单独的物品。但机器人只能看到像素，好比一个由数百万种的光和颜色组成的万花筒。它不知道什么是盒子，什么是架子，甚至也没物体边缘的概念。它只是看到一堆没有区别的点。作为人类，你是怎么识别物体的呢？你是怎么从这些像素数字里得出那是一罐“豆子猪肉”的？这着实很困难。当你目光落在储藏柜中时，你大脑里进行的处理过程是极其复杂的。要想描述你的大脑是如何完成这个小小的奇迹的行为，需要数页关于多边形、锥体和层的技术呓语。你能够在瞬间识别出一栋房子的建筑风格，识别出一只飞翔的鸽子，分辨出你所认识的双胞胎，或者其他任何你毫不费力就能完成的上百项类似任务，这些能力都令世界各地的AI程序员艳羡不已。我认识一些程序员，如果他们认为可以通过解剖你的大脑找到问题的答案，我想他们会那么做的，那我建议你们不要接受他们调制的鸡尾酒。

假设你解决了视觉成像的问题，机器人能够识别储藏柜里的每一件物品。顺便说一下，它们到现在也不能识别，但是让我们想象它们可以。机器人仍然无法理解它们“看到”的任何东西，那是因为AI不能将看到的事物情景化。如果你开车穿过城镇，看见路上有一只小狗，一个蹒跚学步的孩子正走向小狗，在他身后一个成年女人疯狂地朝孩子跑去想要阻止他，你很容易就把这些场景拼凑起来。但是对计算机来说，这就真的只是一堆改变了颜色的像素，或者说，只是一堆1和0。想想看，对于人类来说，弄清楚一张给定的照片里发生了什么是多么轻而易举：那张是一场康加舞(conga lines)[5]，那张是一个为了惊喜派对而藏起来的人，那张是一个家长拍的毕业舞会照片，那张是钢琴独奏会，还有那张是学校演出，这张是洗礼仪式，等等。我们能轻易分辨每一张场景是因为我们有解读它的文化背景。现在，理论上来说，你可以训练一台计算机做同样的事情。向计算机展示足够多的康加舞，它会变得非常擅长识别康加舞，事实上会比人类做得更好。如果生活中除了需要识别的静止照片之外再无他物，那事情就很简单了。但是生活是动态的，“情境”是从一系列静止图像的差异中衍生而来，有无数种可能的组合方式。对于这类信息，几乎没有可用的训练集。当你看到年轻的邻居夫妇，匆忙走向汽车，妻子捂着肚子，丈夫拿着一个旅行袋，一脸的担忧，你很容易就能搞清楚发生了什么。但这对计算机来说很难。或者更进一步，你没看见邻居夫妇匆匆离去，现在已经是两天后了，你注意到他们院子里有两份报纸，他们的车也不见了，你马上就心中有数了。你甚至不需要深思熟虑，只是随意地对你的配偶说：“亲爱的，我想邻居要生孩子了。”如果你的另一家邻居有个儿子，快满16岁了，莫名其妙地，他开始挨家挨户地要求帮忙修剪院子，你可能会推断他想买车。而训练计算机进行以上的推断是相当困难的。

但是，假设你训练一个AI，让它能够从康加舞、怀孕的妻子和16岁的男孩那里获得情境线索。当然我们现在还做不到这个，但是让我们想象我们可以。那么，我们的境况也不会好多少，因为AI只能做这些事情。我们不知道如何教它做迁移学习(transfer learning)。什么是迁移学习？如果我给你看一件物品，比方说是一个大约一英尺高的猎鹰小雕像，然后我要你从给定的十多张照片里找出猎鹰，你可以轻松办到，即使猎鹰被一棵树挡住了一半，或在水下，或倒挂着，或侧卧着，或在头上涂了花生酱。我敢打赌，虽然你从来没有见过一只头上涂了花生酱的猎鹰雕像，但你仍然能认出那是只猎鹰。这是因为人类可以用一生的时间来观察被其他物体遮挡的东西，水下的物体，或者被花生酱之类的物质覆盖的物体，积累经验，获取知识，然后把这些知识应用到新的任务中。这就是迁移学习，我们不知道人类是怎么做到的，更不用说教计算机如何去做了。

假设我们解决了这个问题。当然我们没有解决，可能也不会很快解决。但是让我们想象一下，人工智能可以把它在一个领域学到的东西应用到其他领域，我们仍然没有走得很远，因为人工智能不知道如何随机应变。而每个人类，无论其技能水平如何，都能以一种远远超出任何机器的方式随机应变。如果你弄坏了门把手，尽管在你以往的经验中门把手是用来拧的，从来没有折断过，但现在它断了，你不会怔怔愣在原地不知所措，你会试着想办法把门打开。如果你把自己锁在房子外面，你会想办法进去。如果一阵风把你的伞吹走了，你就会去把它追回来，而从来没有人教过你这些，你可以无师自通。因此，即使计算机可以有视觉、并能够理解它所看到的，从中获得情境背景，并可以将其用于其他领域，它仍然没有创造力。我们人类不仅仅像上文假设的AI一样被动地感知世界，我们对世界的反应形式也超越了迁移学习的水平。

除此之外，还有另外四种感官要考虑。以听觉为例，我们正处于一个伟大的现代社会，当我打电话给我的航空公司，向它的自动系统口述我的会员号，它大约有一半的概率会识别错误。事实证明，识别语音是一个相当困难的事情，尽管在大多数语言中，一个人报会员号可能只说几十个字母或数字。但当你考虑到地方口音和不同声音的音调差异时，从电脑的角度来看，你的“H”发音和我的“8”(eight)发音非常接近。如果线路再受到静电干扰，或者楼下有人在用吸尘器，又或者只是感冒了，问题就会变得更糟。同样，数据不是问题，但处理数据却是问题。屏蔽真空吸尘器的声音是非常具有挑战性，人类却能忽略特定的声音，但是我们不知道这是如何做到的，我们当然也不知道如何让AI做到这一点。

然而，尽管有这些限制，我们早期的AI已经以很多种方式造福了我们的生活。AI为你导航，过滤垃圾邮件，预测天气，推荐产品，识别信用卡欺诈。智能相机用AI来识别人脸，运动队用AI来改进策略，人力资源部门用AI来筛选求职者。AI也可以读取手写文字，将语音转换成文本，并将它们翻译成其他语言。所有这些任务都是纯粹的计算活动。任何拥有大量数据的地方，即使是无序的原始数据，都是AI的用武之地。例如，AI将快速分析我们所有的卫星数据，并帮助我们发掘古城，追踪野生动物的数量，监测植被生长。然后，它将利用所有的交通数据，帮助我们建设更智能的道路，改进交通灯计时使其更有效率，并减少事故。这样的例子不胜枚举。《连线》(Wired)杂志的创始主编凯文·凯利(Kevin Kelly)在推特上总结了这一切：“未来10 000家初创企业的商业计划很容易预测：即X+AI。”

那么为什么AI可以为我们做所有这些事情，但同时又有我们刚才描述的所有限制呢？因为我们擅长每次教AI做一件事。如果你想让人工智能下棋或识别邮件垃圾，那么你就事论事简单教给它就行了。你不会要求它去概括、适应情境、有创造性，或能做任何其他的事情。只要教它那一件事，它会在这方面做得很好。这就是为什么它被称为狭义人工智能。

在第二节中，我们讨论了劳动分工的优点，它是经济学理论中不多的“免费午餐”之一，它使文明和繁荣成为可能，但它也不全是优点。劳动分工告诉我们，当人们被训练成一项专业任务的专家，这会有助于增进社会整体繁荣。这不仅适用于制造业，在其他任何领域也是如此。假设你是一名多面手律师，收入还不错，但是如何提高自己业务收费水平呢？你可能会专攻《著作权法》，除此之外，你还可以进一步专门化。然而这样做，你就埋下了自毁前程的隐患。具有讽刺意味的是，你越专业，你就越容易被机器取代。你越是精通某一个细分领域的知识，这些知识就越容易被计算机编码成一系列的规范步骤。比起X射线技术人员，狩猎采集者的计算机替代品更难制造，就是因为技术人员只做一件狭义的事情。

众所周知，肯·詹宁斯在《危险边缘》(Jeopardy!)[6]上被IBM计算机沃森打败了。肯·詹宁斯说，IBM的工作人员绘制了一幅线形图，以记录沃森在追赶“肯·詹宁斯”的过程中所取得的进展，每个星期，沃森都在缓慢赶上来。随后詹宁斯在他的TED演讲中讲述了这一切给他的感觉：

我看到了这条线。我意识到，这就是未来来临时的样子。它不是终结者的枪瞄准镜，它只是一根细细小小的线，离你最擅长，也是唯一让你与众不同的事情越来越近。

参加《危险边缘》是一件狭义的事情，好吧，实际上是一些狭义的事情。这就是为什么今天的AI可以掌握它。

到目前为止，我们一直在探索AI机器人面临的认知挑战，现在让我们来看看同样艰巨的物理挑战。对于AI机器人来说，物质世界是一个充满难题的地方，但假设它在一个受控的环境(比如工厂)中执行纯粹的重复动作，机器人就可以做得非常好。没有一个人能把10亿个晶体管焊接到邮票大小的计算机芯片上，但机器人可以。如果没有机器人来制造我们每天使用的东西，我们就会以20世纪50年代的技术来推动20世纪50年代的经济发展，充其量也只能以20世纪50年代的生活水平生活。所以，如果你享受现代世界的繁荣和便利，请感谢你将遇到的每一个机器人。然而，就算拼尽我们所有的技术，我们依旧不知道如何制造出一个类似三岁孩童水平的机器人，更不用说造一个比成年人更好的机器人了。尽管最近取得了一些进展，但脱离了工厂环境的机器人仍然是罕见的，它们面临着一系列挑战，包括运动、感知和对环境的操控。正如机器人学家埃里科·圭佐(Erico Guizzo)总结的那样：

几十年来，许多人一直在研究类人机器人，但驱动机器人腿和手臂所需的电动机太大、太重、速度太慢。今天最先进的类人机器人仍然是笨重的大块金属，让它们在人类周边活动是不安全的。

机器人面临的第一个挑战是弄清楚自己所处的地理位置。这既是感官方面的挑战，又是AI方面的挑战。机器人专家还没有真正制订出如何做到这一点的最佳实践方案，因为这一任务千变万化。机器人的任务是绘制出它所在位置的地图，然后跟踪它在地图上的位置。这听起来并不难，因为人类能毫不费力地做到。但请从机器人的角度来想象这个问题，一个机器人被丢进房间，它“看到”一把椅子和一个脚凳，由于椅子和脚凳是可以移动的，机器人不能把它们当成参照物。如果机器人发现自己比前一分钟更靠近椅子了，它无法判断是椅子被移动了，还是它自己被移动了，或者两者都被移动了。因此，它必须不断地重新绘制它的地图。构建一个地图并定位你在该地图上的位置被称为“同步定位与地图构建(SLAM)”，从长远看这不是一个无法克服的难题，它只是机器人专家面临的一项具有挑战性的工作而已。

当然，还有给机器人供电也存在挑战，尤其是电池的续航能力。我们远没有解决这个问题。举个例子，2016年，一个名为Promobot的俄罗斯AI机器人，被编入了自主性，它成功跑到了研究机构的外面，并跑出了164英尺(约50米)，直到因电力耗尽而停在了马路中间，由此造成了半个小时的交通堵塞。机器人“起义”到此为止。

机器人面临的另一大问题是与物体的交互。虽然机器人的物理体格比人类强壮得多，可以在更极端的环境中工作，但总的来说，目前人类在更广泛的任务中显得更加灵活。人类的骨骼系统有200块以上的骨头，被600余块的肌肉包裹，仅移动像眼球这样小的东西就需要6块肌肉。在机器上再现这种灵活性是难的。为了让你了解机器人专家在这里面临的困难，请想一想2012年至2015年期间举办的DARPA机器人挑战赛，2015年是其总决赛。为《大众科学》(Popular Science)撰稿的埃里克·索夫格(Erik Sofge)总结说：“多年来规模最大、资金最充足的国际机器人竞赛以失败告终。”

比赛中，机器人必须驾驶汽车，穿越碎石，用门把手开门，找到阀门并关闭，等等。它们不需要只用AI完成这一切。挑战不在于它们能否在没有人类帮助的情况下完成这些物理动作，而是它们能否真正做完这些动作。此外，参赛者事先已经知道比赛项目，但即使有这样的优势，24名参赛者中也只有少数几个完成了整个比赛过程。而这个过程简单到一个在度假的醉酒水手都能轻易完成。这说明了制造一个机器人的难度，更不用说制造一个机器超人了。

对于人类来说，DARPA挑战赛似乎并没有那么难。还有什么比转动门把手开门更容易的呢？事实证明，很多事情都是如此。机器人必须识别门把手，用手握住门把手，然后转动门把手，不能太用力，也不能太轻。机器人还需要确定转动需要的摩擦力，它需要判断手转的时候把手是不是转了。人类可以很容易地分辨出是把手在转动，还是他们的手在把手上滑动，但这对机器人来说很难。人类可以根据阻力判断什么时候停止转动，机器人必须经过训练，才能在它破坏机械装置之前的某一时刻停止转动。然后，机器人必须维持把手处于目前转到的位置，继而去推门。这有多难？很难预先知道门有多重？门是卡住了还是没推开？

而如果门是向内拉的，而不是向外推的，那么机器人刚做的所有动作都是徒劳的。因为不教机器人如何拉门，它是不会凭着直觉就能学会拉门的。想象一下，教一个机器人在废墟中挖掘并寻找地震幸存者会涉及多少麻烦。

触觉对机器人来说是一个很大的挑战。人类的手可以用来抓挠小狗的头，同样还可以用它在酒吧斗殴，这证明了手的用途广泛，也证明了仿制手所面临的挑战。但即使你造出了令人称奇的机器人手指，机器人仍然需要感知手指末端发生了什么。回想下给婴儿换尿布，抱着一只小猫，或者安慰一个受惊的孩子。想想触摸压力的细微差别，以及你每一次“不假思索”就知道什么时候去触碰，但是机器人不思考就什么都做不了，它必须把每一个动作都剖解到最微小的细节。你将如何对这些动作进行编程？将其简化为1和0显然是可能的，但同样显而易见的是，这对于一个只能在内存中操作抽象符号的设备来说是十分困难的。

各种感知问题面临的一个难点是，我们没有用来训练机器人的数据。亚马逊拥有一个庞大的数据库，记录每个人的购买偏好，以此训练它推荐商品的算法。但我们没有100万成年人在1000种情况下抱着100万个婴儿的所有触觉数据。当然，我们可以通过制造CGI(电脑生成动画技术)装备来收集数据，人们通常在制作电影时穿戴类似的CGI装备。我们可以让1000对家长在手和指头上佩戴升级的传感器，历时一年，收集数据。但现在还没有人这么做。加州大学伯克利分校(University of California， Berkeley)的教授彼得·阿贝尔(Pieter Abbeel)还在试图教机器人如何叠衣服，可见机器人与现实世界互动的难度。

这种互动的第一个挑战是识别：当你看到一大堆脏衣服，你是怎么区分衬衫和裤子的？每批衣服都完全不同，乱糟糟的一片。我拒绝挑战将一张床单折叠整齐，因为根据许多数学家的说法，这在理论上就是不可能的。人们可以使用颜色、阴影和纹理作为行动线索，但是我们心不在焉做出的事情对机器人来说具有难以想象的困难。如果你的小狗恰巧在洗衣篮里打盹，会发生什么呢？对于机器人来说，如果小狗在篮子里，那它就跟衣服没有区别，是可以被折叠的。

阿贝尔的团队毫不气馁，多年来一直致力于研究这个问题的简化版，最终他们制造出了一个能在20分钟内折好毛巾的机器人。在这次试验成功后，他们紧接着又把折叠时间缩短到了两分钟以内。然而，相较于其他物品，毛巾是最容易识别和折叠的，因为它们方方正正的。所以尽管做了这么多努力，机器人还是没有能力把里外反的袜子挑出来，并翻过来。阿贝尔总结道：“一旦你开始研究机器人技术，你就会意识到孩子们在10岁之前就学会做的事情实际上对机器人来说是最难做的。”

最终，在通盘考虑人工智能机器人在精神上和物质上的能力时，我们必须做一个额外的考量，那就是即便我们想出了上述问题的解决对策，可当机器人出现故障时会发生什么？个人计算机算不上是一项新兴技术，但我仍然需要在每周的某个时候重启它。那当这些机器人运转失灵时又会怎样呢？当然，人类也会以自己的方式出错。比如飞行员心脏病发作，药剂师不小心装错了药片。但人工智能机器人的错误可能有一些不同。首先，由于软件和机械系统会被复制成很多成品，那么每个成品都将犯相同的错误，这就好比所有的飞行员都有未确诊的心脏问题。其次，随着机械化越来越复杂，错误可能会变得更加系统化，一般人更难发现。例如，系统内部时钟的缺陷可能导致各种灾难性事件发生，但我们不知道到底哪里出错了。最后，我们在这里讨论的各种系统将更加密切地相互联系和依存，导致一个小错误引发的连锁反应可能相当大。这种情况已经发生了很多次。早在1962年，美国国家航空航天局(NASA)的一枚耗资接近10亿美元(换算成今天的汇率)的火箭在飞行中爆炸，原因是代码中少了一个连字符。在另一个例子中，一枚欧洲火箭在飞行中爆炸，造成了70亿美元的损失，原因是64位数字太大，无法转换为16位数字，导致了象征性的和字面意义上的双重崩溃。尽管代价高昂，但这些灾难至少得到了妥善的处理。如果类似的问题出现在自动驾驶汽车、电网或公司的工资系统上，又会引发什么样的灾难呢？

我指出这些问题，并不是建议我们应该重新审视“迈向更加机械化的未来”，总的来说，机器在工作上比人更可靠。然而，一言以蔽之，机器故障可能引发更大的连锁反应。数字系统通常比模拟系统更脆弱。从《了不起的盖茨比》(The Great Gatsby)中删去一个字，它仍不失为一部杰作，而从压缩文件中删除一个字符，你就有了……一锅“字母表粥”。连字符漏写并不会让人爆炸，我们往往会犯错很多次，但只有一点点后果。而机器故障的频率较低，但错误会导致更灾难性的后果。因此，我们应该注意，如何以及在什么地方应用技术。