永远不要相信任何能够独立思考的东西,除非你看清了它把头脑藏在什么地方。
——J.K.罗琳,《哈利·波特与密室》
2016年5月一个美好的周六下午,北佛罗里达一段阳光明媚的公路上,约书亚·布朗(Joshua Brown),来自俄亥俄州东北部的40岁企业家和技术狂热爱好者,正坐在自己的特斯拉Model S轿车的方向盘后。他刚和家人在迪士尼乐园欢度了一周。那天早晨他们道了再见,此时他正驱车赶往自己五年前建立的公司,那里有个提倡将互联网服务进农村的商务会议。
下午约4点40分时,布朗的车正沿着27A号高速公路疾驰,对面车道中一辆装载着蓝莓的半挂车变道进入左转道,在他之前进入了路口。报告显示卡车司机本应该等待布朗先过,不过那时布朗仍有充分的时间减速。
但布朗的特斯拉已开启了Autopilot自动驾驶模式,没有识别出明亮的天空背景下那辆白色的卡车。布朗自己也未能接管控制权进行刹车。轿车以每小时74英里的速度从侧面撞上了半挂车,穿过卡车车底,直至撞上电线杆旋转后才最终停下。事故调查者们认为特斯拉撞上卡车的那一瞬间布朗就已经死亡了。
布朗的死是自动驾驶汽车已知的第一例死亡事件,在技术和汽车领域都引起了广泛注意。一些媒体评论者和行业分析家将事故归咎于特斯拉在车上部署了还在beta测试中的自动驾驶技术。另一些人则批评特斯拉公司没有采取足够的措施保证司机在Autopilot功能启动时仍主动掌控自己的车辆。就在事故发生前一个月不到的时候,特斯拉的创办人伊隆·马斯克(Elon Musk)曾转发布朗制作的视频,视频里是布朗另一次使用特斯拉自动驾驶技术的经历,那一次车辆成功识别避开了一辆超车的卡车。在这次致死事故后,马斯克辩称Autopilot是能拯救生命的技术,使用得当的话,能够降低总体车祸死亡率。
大多数专家赞同这一说法。传统车辆碰撞事故中,超过90%的事故可归因为人类的失误。根据某些估算,将来50年中,自动驾驶车辆仅在美国就可以拯救多达150万条性命,在全球范围可以挽救接近5000万条性命。然而2018年4月一次民意调查显示,50%的受调查者表示他们相信自动驾驶汽车比人类驾驶员更危险。特斯拉的撞车事故激起了消费者的众怒。“这种危险的技术应该被禁止,滚出街道。公共道路不是用来测试尚未完成的自动驾驶系统的。”一位旧金山市民在论坛中如此评论。显然,人们不是将布朗的死亡看作一个特例,而是一种前兆。机器人要控制我们的道路,必须经过严格的检查。美国国家运输安全委员会(National Transportation Safety Board),负责调查飞机和火车事故,为此特地启动了一次调查。
委员会于2017年6月发布了报告,其中一条结论是布朗在不合适的道路上开启了自动驾驶功能。特斯拉的操作手册上说明了这个功能只能用于“仅能通过上下匝道进出”的高速公路。在这种道路上,卡车是不可能左转穿越两条对向车道的。不仅如此,特斯拉还在手册中说明,即使是在自动驾驶模式,“驾驶员仍须全神贯注”监督车辆的动作,而布朗在车祸前至少分神了30秒。他也许真是分神了,因为他曾经多次顺利使用过Autopilot,对这项功能过于信任了。报告中也包含了给汽车制造商的建议:“在自动驾驶系统成熟之前,驾驶员的参与仍然是自动驾驶系统不可分割的部分。”他们说汽车制造商需要负责开发保证驾驶员参与驾驶的系统。
在运输安全委员会调查的同时,一家帮助人们进行积蓄投资的公司高管们则从机构和个人那里得到了完全不同的信息:让人类的双手远离方向盘(某种比喻)。
2010年上线的Betterment是30岁的乔纳森·斯坦(Jonathan Stein)的主意。他的想法是创办一种服务能“自动应用最佳的投资策略”。就是说,不要挑选股票,也不要多加干预,因为你永远不可能跑赢市场。相反,使用算法将你的投资引导到安全、可获利的方向。将投资流程自动化也有利于降低费用,使更多人能用得起投资管理服务。斯坦的业务一问世就吸引了约400名投资者,一年后增长到了10 000名,到2017年末时,已增长到了270 000名。2017年7月,运输安全委员会的特斯拉事故报告发布一个月后,Betterment成为第一个管理着超过100亿美元资产的独立“智能投资顾问”。2017年底时,诸如Betterment和Wealthfront之类的“智能投资顾问”和先锋集团(Vanguard)之类的传统投资公司,通过自动化的投资平台,管理着总共超过2000亿美元的资产。
不可否认的是,人们跳上这辆公交车恰恰因为是机器人在开车。正如一位博主所说:“Betterment的一个特色功能就是他们的计算机整天盯着股票市场,而你就能得闲干点其他事情……我最近意识到,这个功能运行得超出我的期望。”不仅如此,和斯坦及他的团队原本预计的不同,Betterment的客户不仅仅是千禧一代,根据公司的数据,他们中有三分之一都超过了50岁。
从低风险的活动,例如决定观看奈飞上的哪些节目,到高风险的场景,例如约会和投资我们的积蓄,我们在各种不同的环境中依赖算法已经有一段时间了。我们能够接受推荐算法和智能投资顾问,却对自动驾驶汽车持怀疑态度,这种奇怪的差异引出了一个重要的问题:我们为何在某些情况下信任算法,在另一些情况下却不信任算法呢?为何一些人比另一些人更信任算法呢?
在特斯拉的事故之后,我在《哈佛商业评论》的一篇文章中提出了这些问题。评论者们给出了几种解释,该领域的研究者们也正在进行探索。其中一种假设是,因为自动驾驶算法未被证明优于人类司机,所以我们不信任自动驾驶车辆。逻辑上这也讲得通:除非机器证明自己事实上更为优秀,否则我们为什么不选择更信任自己的双手呢?不过,初步研究已经表明,现有的技术比大多数人类驾驶员都更为安全。虽然一名驾驶员死于交通事故是悲剧,但早期的实证证据确实支持这样的事实,即平均来说,自动驾驶车辆比人类驾驶员更为专心和可靠。
算法决策比人类更为优越不限于自动驾驶领域。1996年,明尼苏达大学的两位心理学家威廉·格罗夫(William Grove)和保罗·梅尔(Paul Meehl)发表了一份关于136份研究的元分析(meta-analysis)报告。报告对一些医疗相关迹象的算法预测和人类预测进行了617份直接比较。案例中只包含了人类专家比机器拥有同样多或更多信息的那些案例。在64份研究中,算法胜过了人类;在64份研究中,两者势均力敌;仅在8个案例中,医生胜过了算法。格罗夫和梅尔写道:“虽然66年来的持续研究结果都偏向于精算(或机械、算法)方法,但大多数专业人员在做预测性决策时仍然使用主观的临床判断方法。”不仅仅在临床医疗领域,研究表明在大学录取、招聘筛选领域,算法和统计学模型都优于人类,这两个领域都依赖相当复杂的未来预测任务的性能和成功率,但在这些场景中,算法的使用仍然相当受限。
另一种解释是,即使我们接受了算法要比普通人优秀的事实,我们还是相信我们自己要优于普通人。这也许能解释我们为什么能够接受Betterment这样的智能投资顾问,愿意高高兴兴地登上基本上由计算机控制的飞机,毕竟这些例子中,算法顶替的是别人。但我们不愿意交出自己的车钥匙,因为我们自信不是那种会被电话分心或转弯过快的鲁莽司机。
这种信念其实早就扎根于一种被充分证实的现象中,社会心理学家称之为“优于常人效应(better-than-average effect)”。1976年,对参加了SAT大学录取考试的约100万名学生进行了调查,其中70%的学生觉得自己的领导力在中位数(即前50%)之上,85%的学生觉得自己和他人的相处能力在中位数之上。不是只有学生才存有这种认识偏差。一次对教师的调查发现,68%的人认为自己的教学水平能排进前25%。和我们的驾驶主题相关的,在一次对驾驶技能的调查中,美国境内93%的受访者都认为自己能排进前50%。[1]
加州大学伯克利分校的研究者珍妮佛·洛格(Jennifer Logg),曾进行一项研究,确认了人们总是认为自己比别人更优秀。她要求受试对象根据美国每个州的主要机场数量、人口统计信息和家庭总收入中位数等信息进行估算,按照航空旅客离港人数对美国各州进行排序。做出预估后,一组受试者被要求从另一位受试者的估算值和算法的估算值中选择其一接受,绝大多数人都选择了算法。另一组受试者则被要求要不接受算法的估算值,要不坚持自己的结果。这些受试者虽然也偏向于算法,但人数没有第一组那么具有压倒性。看上去,比起人类,我们确实更信任算法,尤其是对比的人类不是我们自己时。
从对我文章的回应中我还看到一种说法,我们是否信任算法不是取决于算法和人类的性能比较,而是取决于相关的实际赌注有多大。决策失败导致的成本越高,人类就越不愿意信任机器。毕竟电影推荐得不好只会浪费几个小时和几块钱。而对于救命措施和自动驾驶车辆来说,赌注就高多了。可是人类愿意信任智能投资顾问和自动驾驶的航班,和这个理论不相符:这些都是高风险场景,但我们仍让步给算法控制。
我们再考虑下另一位评论者提出的假设,这个假设基于指定任务的复杂程度。这位评论者声称我们在信任算法上面有困难,是因为我们相信人类和算法不同,会从经验中学习提高。因为程序员不可能预计每一种可能遇到的情况并且预先编写应对程序,我们相信人脑更擅长处理新情况和意外情况。这种观点没显然有考虑到机器学习算法实际上可以“学习”,能和人类一样应付新情况。
另一个有趣的理论由心理学家罗宾·道斯(Robyn Dawes)提出。他认为人们在某些场合觉得使用算法丧失人性,因而不情愿使用算法。举个例子,当我们需要决定解雇谁、留任谁或者给谁升职时,如果通过算法来计算决定,会给人一种“把人贬低为数字”的感觉,做出这种决定会带来道德上的不安。这个观点看上去非常完美,但我还没见到任何能支持这一观点的实证证据。
上面这些例子说明,人们信任算法的原因多种多样。要确定人们何时何地为何信任机器,需要我们接受这样的事实:和人类一样,没有两个算法是一模一样的。商品推荐算法、投资管理工具、约会软件和自动驾驶车辆间存在天壤之别。对于理解信任算法的动力而言,解释清楚这些差别很重要。
我们做个快速的思维实验:写下三个你更愿意向人类而不是向算法咨询的决定。然后,再列出三个你更愿意求助于算法的决定。
我更愿意向人类咨询的前几个决定,都和我的职业生涯相关(找寻职业生涯的新方向等)或和我的个人关系相关(在哪些友谊上投入时间等)。我更愿意求助于算法的决定,则包括选择哪些电影和音乐、投资哪些股票和指数基金。正如上文所述,已经有研究证明对于录取学生和过滤简历,算法要优于人类,那我也能把这几项加入我的列表,但我必须承认虽然我积极参与这几项工作,但我还从未尝试过任何算法。
我们更愿意信任算法(或信任人类)的这些决定类别中存在什么规律性的模式吗?在她早期的一些研究里,珍妮佛·洛格探索过这个问题,她要求研究对象们做了上文所述的思维实验。洛格发现研究对象对于具有客观性的估算和预测结果(即具有准确的、可证实的结果的,例如哪张信用卡的优惠条件最好),更倾向信任算法;而对于主观性的决定(例如是否要和女友分手),则倾向信任人类。算法经常被视为机械性、无情无欲、不带偏见的。基于算法给人类留下的这种印象,人类无法想象它们能够在情感事宜上提供帮助。
当然,这个思维实验也有瑕疵:在我们决定是否依赖算法之前,并没有一个正在运行的算法可供观察。作为对比,我们决定是否继续使用亚马逊的推荐有过或者谷歌的自动驾驶功能是基于我们和这些系统反复的交互。能够反复观察算法的性能——无论是表现出色还是失败——在我们决定是否信任它们时肯定发挥了重要的作用。问题是怎样作用的?
我在沃顿商学院的同事伯克利·迪特沃斯特(Berkeley Dietvorst)、约瑟夫·西蒙斯(Joseph Simmons)和凯德·梅西(Cade Massey),一直都在研究算法犯错时的人类反应模式。换句话说,我们在长时间体验算法的功能时,是如何看待算法的。在一次实验中,受试者被要求扮演MBA录取考官的角色,可以看到申请者的详细信息,例如测试成绩、工作经历和薪资水平。他们也被告知有一个统计学模型,可以基于数百位过往申请者信息预测学生的表现。
在第一轮试验中,一组受试者只查看统计学模型的结果,因此见到了模型的表现和模型犯错的地方。第二组受试者基于学生的表现做出自己的预测,然后查看自己预测准确与否。第三组受试者则可以同时查看自己的预测以及模型的预测准确与否。最后,对照组的受试者没有参加第一轮试验,因此也没见过算法的表现。
在实验的第二阶段,这些受试者被要求预测申请者可能的表现,无论是自己预测还是使用统计学模型都可以。受试者会根据他们的预测准确率获得报酬。结果,和对照组相比,在第一轮试验中观察过模型表现的那两个组的受试者更不愿意依赖模型;对照组中65%的受试者选择使用模型进行预测,而观察过算法表现的受试者中只有大约1/4选择使用算法。与此相反,那些在第一轮试验中观察过自己预测结果的受试者中,和对照组中,依赖自己的判断的人数几乎一样多。这个现象有悖于模型的预测其实比人类受试者更准确的事实。比起算法所犯的错误,受试者们似乎更容易原谅自己犯的错误。
简而言之,人们在观察到人类和算法犯下同样的错误时,对算法会丧失更多信心。
研究者们分享的一个有趣的思维实验完美地阐明了这种思维定式。想象一天早晨你开车去上班,决定要走一条近道,觉得能节省大约20分钟。可是,在这条近路上你却遇上了交通堵塞,你的通勤时间比平时增加了10分钟。你也许会耸耸肩,表示无所谓,不过是下次再也不走这条路线了。但如果是GPS犯了同样的错误,那将来在类似的情形下,可能你会不情愿使用这台设备。很明显我们无法接受算法有时也会犯错的可能性,但却能接受人类可能犯错的事实。
约书亚·布朗的特斯拉事故后,情况似乎就是如此。“死于自己犯的错比死于传感器失效更能让人接受,所以我才不买自动驾驶的车辆。”有人在布朗的YouTube频道里留言。这件事给自动驾驶车辆生产商和支持者的暗示就是,无论总体上技术被证明有多可靠,但只要发生足够多的、类似约书亚·布朗的特斯拉事故,大众对这项技术的信任很快就会丧失。这一推测的进一步证据在2018年3月出现了,优步测试的一辆自动驾驶车辆在亚利桑那州坦佩市撞死了一名行人。2018年1月的一次民意调查显示,36%的受调查者认为自动驾驶车辆比人类驾驶的常规车辆更不安全。优步事故之后不久,同样的调查组织者,同样的调查问卷,持怀疑态度的人数攀升到了50%。
1998年美国食品药品监督管理局批准使用算法帮助放射科医师分析**X光照片找寻癌症症状。在随后的数年里,这项实践的普及程度直线上升。根据2015年的一项研究,2002年中,全国性的乳腺癌监测联合会的诊所中,只有不到5%的诊所使用了计算机进行图像扫描,到2012年时,10次扫描中有8次借助使用算法的仪器分析。结果就是活检数量有了显著提升。
算法是否已经超越了人类同行,能够识别经验丰富的放射科医师都可能漏检的癌性病变呢?很不幸,答案是否定的。一些研究表明,虽然计算机辅助检测将更多女性置于手术刀之下,但活检经常证明这些诊断结果都是假阳性。实际上,那段时期内,小型浸润性乳腺癌的确诊数量下降了。
早期的算法是基于规则的专家系统,这些规则经常用于培训放射科医师。很多时候,这些系统运行良好,但正如我之前提到过的,专家系统的适应性不好,经常无法处理规则之外的异常情况。相反,尽管新放射科医师学习了很多规则,但正如我们所见,他们工作的很大一部分涉及模式识别,这种能力需要大量经验进行磨炼。“资深的医生对自己很多的决定不会过多考虑,他们进行的是一种基于经验的模式匹配。”一名澳大利亚放射科医师如此解释,他同时也是一名计算机科学研究者、一位博主。这种快速的模式识别需要直觉,这正是专家系统的薄弱之处。
而深度学习系统则恰恰相反,它的优点在于直觉,在放射医学和皮肤病学领域应该能做出更好的诊断。早期专家系统所遭受的性能问题可能不会再困扰最近迭代的深度学习系统版本。但早期版本的负面舆论是否会阻碍最新一代的诊断工具的应用?沃顿商学院的研究发现早期系统的缺陷已经破坏了放射科医师的信任,在使用已大大提升的深度学习系统前,得花大量的精力说服他们。这种负面的早期经历对于算法系统在成熟前推广具有警示意义。
早期专家系统的失败之外还有另一个问题。虽然较新的、基于机器学习的算法表现更好,但对这些系统的吹嘘往往夸大其词。新闻报道中盛传机器如今已经在从肿瘤学到糖尿病管理的各医学领域胜过了人类,但事实并非如此。
兰吉娜·拉玛穆提(Ranjani Ramamurthy),曾是一名医生,现在微软从事医疗领域人工智能应用程序的开发,她曾经仔细查看过一些这样的新闻报道和背后的研究,提出我们对医生的工作存在根本上的误解,才导致了我们愿意跳上“把算法当作医生”的游行花车。“医生做的不是预测,而是诊断。”对于一篇关于计算机在预测肺癌病人的存活时间上已经比病理科医生更准的论文,她指出“(病理科医生)不做这种预测,他们查看病人组织,然后告诉你他们看到了什么。大多数时候,你说人工智能打败了医生时,你得先问问这种事情是不是医生该做的事情”。在谈及一项认为机器学习算法能在阿尔茨海默症发病前10年就成功预测的研究时,拉玛穆提指出那个算法在没有出现该疾病的症状时,就使用病人的大脑核磁共振影像做出预测。“这不是标准做法。在病人没有出现任何征兆或者症状前往就医时,没人会做核磁共振来判断是否患上了阿尔茨海默症。”医生通常根据实际症状,例如健忘,来诊断阿尔茨海默症。奥克登·雷纳曾撰文就这个话题做过深入讨论,对于医疗领域中医学报道大肆吹嘘人工智能的胜利,他和拉玛穆提持有同样的怀疑态度:“他们要不就是不懂医学,要不就是不懂人工智能,或者他们根本没有实际比较过医生和机器的区别。”
这并不是说所有比较人工智能和医生的研究都犯了同样的错误。斯坦福大学的研究者们在2017年初于《自然》杂志发表了一篇文章,记录了一个使用130 000张皮肤病图片进行了训练的算法,这个算法能够诊断出潜在的皮肤癌变,准确率和21名持证皮肤科医生相当。拉玛穆提特别指出了这样一个事实,根据皮肤病变的外观识别黑色素瘤确实是医生们使用的识别方法,所以计算机能达到医生平均水平是件了不起的大事。
在一些诊断工作上,算法也达到了医生的平均水平,例如糖尿病性视网膜病变(DR, Diabetic Retinopathy),这是导致可预防性失明的主要原因。这种疾病导致生活质量明显降低,而且影响患者的收入潜力,常常因此致贫。K.钱德拉塞卡尔(K. Chandrashekhar),是位于印度的公司Forus Health的创办者和CEO,造了一台用于检测DR的医疗设备。现有的设备对于印度和非洲的医院而言过于昂贵,所以钱德拉塞卡尔和他的团队研发了一种更经济的设备。
医生通常通过检查眼底照片诊断糖尿病性视网膜病变。解读这些照片需要专业的训练,但在南亚次大陆的小村镇中鲜有合格的医生。钱德拉塞卡尔的方案是通过他的设备拍摄照片,上传至云端,让市中心的医生在远端检查这些照片为病人进行诊断。这个主意很棒,但问题依然存在:即使在城市中也没有多少合格的医生能为全世界数百万发病的患者评估照片。所以当谷歌决定投身到解决这一难题中时,钱德拉塞卡尔和其他医疗诊断行业的从业者都密切关注着。谷歌建立了包含有128 000张视网膜照片的数据集,然后付费让专业的眼科医生根据是否存在DR对照片进行分级。研究者们随后用这个数据库训练了一个检测算法,算法的准确率和另一组查看图片的眼科医生持平。
谷歌的自动眼科医生不是专家系统,而是一个机器学习算法,还是一个深度学习算法。奥克登·雷纳评论道:“如果(一个算法)不是深度学习,可能不会比医生更好。”但单单具备深度学习能力还不够。和很多轰动一时的新闻报道中所描述的其他系统不同,谷歌的算法进行的是一种分类任务,这是医生进行的操作。所以研究者和媒体的焦点应该在:应用算法以支持医生真正在做的决策。
但如果算法的准确率在医生真正进行的操作上也得到了提高,那将来医生的角色又在哪里呢?奥克登·雷纳相信诸如放射学和病理学之类的职业,本质上高度依赖知觉,因为需要查看医学扫描影像或显微镜玻片寻找模式,这些职业的风险最大。计算机科学家杰夫·欣顿,深度学习的教父之一,2016年在一家医院演讲时说道:“我们现在应该停止培训放射科医生。非常明显,未来五年内,深度学习将干得比放射科医生更好。”或者用奥克登·雷纳的话来说,对于医疗领域中的很多职业来说,末日将至。
但其他人对这些领域的未来还是抱有积极的看法。塞巴斯蒂安·特伦(Sebastian Thrun),一位企业家、创新者,同时也是斯坦福大学的副教授,相信人工智能系统将用于辅助,而不是取代人类。“你用电话机时,是放大了人类语言的威力。你不可能从纽约吼到加利福尼亚,”特伦对记者悉达塔·慕克吉(Siddhartha Mukherjee)说道,“但你手中的这个方方的设备能让人类的声音传输到3000英里之外。电话取代了人类的声音吗?没有,电话是一个增强装置。”特伦相信自动化的诊断同样会增强放射科和皮肤科医生的能力,而不是取代他们。
如果先进的算法系统由它们的用户明智地使用,那放射科医生和很多职业都要被重新定义,这一点几乎没有疑问。但我们无法假设用户一定会使用它们,尤其考虑到人工智能在公共场合发生的失败破坏了人们对它的信任。如果我们使用,那我们就是在大踏步进入这样一个世界:这个世界里充满了没有医生愿意使用的超人类诊断系统,或是没有乘客愿意搭乘的安全高效的无人驾驶车辆。