“问题是,”矮胖子说,“哪个才是主宰的——关键就在这里。”

——刘易斯·卡罗尔,《爱丽丝镜中奇遇记》

今年早些时候,我在浏览Facebook推送时,看到了一个朋友的帖子,说他高中时最亲密的朋友不幸离世了。他的文字深深打动了我。我坐着沉思一个年轻生命的凋零悲剧时,往下滑动了屏幕。就在那个帖子下面,是另一位朋友分享的视频,是一段20世纪70年代电影中的欢快打斗场面。那段“太糟了,这电影本来不错”的镜头能够解释为什么今天的制片人需要雇佣专业的武术指导。再往下拉,是一场深夜秀的滑稽片段。10分钟后关闭浏览器时,我才意识到刚才的浏览体验有多矛盾。上一分钟,我还在心烦意乱、多愁善感,下一分钟,我又轻松欢快、心情愉悦。但这些情绪,尤其对我朋友悲痛之情的感同身受,都显得很不真实。新闻推送带来的体验,本身在情感上就很不一致,没有反映出和朋友真正进行社交活动时的感受。相反,这种体验更像是在观看电影,有限的时间里被塞入了大段跌宕起伏的情节。

我的新闻推送中,这绝对不是唯一不自然的地方。朋友分享的今日社会政治问题帖子、他们发的机场商务休息室照片,两者似乎具有同等的权重。我感兴趣的体育明星和赛事的帖子、朋友当晚在餐馆吃饭的食物照片,两者权重似乎也相同。我希望Facebook能有种方法,可以优先显示朋友们的原创故事,或是他们分享的关于艺术、体育、技术和企业家精神的文章。既然新闻推送算法已经在使用规则,决定以什么顺序给用户看哪些帖子,那给用户提供一些扩展功能,让用户可以按照自己独特的口味和偏好个性化设置那些规则,也是符合逻辑的。

我和Facebook的朋友聊过这个话题。毫不意外,我不是第一个想到这个问题的人。2015年Facebook开始询问用户想在自己的新闻推送中看到些什么。答案五花八门:一些人想知道自己的亲朋好友、同事、室友最近在干些什么;另一些人则要求少看到一些细枝末节的东西,尤其是诸如恋爱婚姻关系的变化、简历的更新之类的信息,同时又要在朋友贴了些实质性内容时得到提醒。作为反馈,Facebook上线了一项新功能,让用户可以更大程度上控制自己的推送内容。通过使用一个混音器风格的控制台——那种DJ用来调节音轨、调高高音、调低低音的混音器——用户调节几个滑块就可以设置,接收更多留言板上的内容,或更少状态和简历的更新,反之亦可。用户也能选择了解“更多这些朋友的信息”或者“更少这些朋友的信息”。

“也许你的朋友总是喜欢发昨天吃了些什么的无聊内容,占据了你的屏幕,”关于这个新工具,Facebook的一位工程师在博客中写道,“通过用户偏好设置页面对算法进行微调,我们会尽力避免让你陷入她的烹饪长篇大论中去。”表面上,这是个友好的功能,能够帮助用户屏蔽掉烦人的熟人,只接收他们真正关心的最新信息。实质上,自然有商业上的考虑:如果用户更喜欢使用新闻推送功能,那嵌入广告赚钱的潜力就更大。

在引入这个“混音器”之后,Facebook的工程师检查了使用数据,不幸的是,他们发现使用量(点赞和评论的数目、帖子的点击数和花在Facebook上的时间)反而下跌了。和原本期望的不同,用户和新闻推送的互动量少了。更令人惊讶的是,虽然使用量数字下降了,但定制了新闻推送的用户却对这个算法给出了正面评价。

面对使用量的下降,Facebook不得不删除部分新功能,但这引出了很多有趣的问题。如果Facebook的原算法能够更好地预测用户想浏览的内容,那用户一开始又在抗拒什么呢?为什么使用新算法时,用户的信任度和满意度在提升的同时,使用度却在下降呢?

可以认为,Facebook的算法比我们自己更了解我们想要什么。人类的心理学驱动着我们点击我们以为自己不屑一顾的东西,正如我们愿意相信自己更喜欢有趣的时事短评,却常常屈服于更低层的欲望(看看谁和谁在约会)。也许我们还可以夸一夸使用“混音器”的Facebook用户:也许他们调低了室友恋爱状态报告的“音量”,因为他们知道自己抵挡不住这类帖子的**,会忍不住点击浪费时间。换句话说,他们想减少投入在网络上的时间,所以将算法调整到了达成这一目的的方式。

Facebook不可能接受这样的事实:用户想在他们的产品上投入更少时间。所以事情的解释还有第三种可能。在Facebook用户点进推送偏好设置页面,考虑着想从这个app看到些什么,然后一步步进行个性化设置时,这个解释就能发挥作用了。换句话说,这个解释和控制权有关。

研究者伯克利·迪特沃斯特、约瑟夫·西蒙斯和凯德·梅西,都是我的同事,就是他们证明了这个理论:我们一旦看到算法犯错就不愿意信任它们了。他们设计了一项实验,实验对象被分配了一个任务,估算高中学生在标准化测试中的成绩。只要他们愿意,实验对象可以借鉴算法(一个基于历史模式预测学生成绩的数学模型)的建议,也允许查看算法在做出预测时考虑了哪些因素。

实验对象被分为四组:第一组不允许更改算法提供的估算结果;两个组可以查看算法的估算结果,并允许对算法的建议做出细微的修改;最后一组可以对算法的估算结果做出任意改动。然后实验对象会被询问是否要使用算法的预测结果。研究者想确定的是,是否某些组比其他组更愿意接受算法。

他们发现第一组用户——不可修改算法结果的那些人——是最不愿意接受算法的。那些允许调整算法预测结果的用户显著地更依赖算法。实际上,给予多少控制权完全无所谓。只是允许对算法做一些小调整都能让用户更可能信任算法。

“你不能就这样扔出来一整个模型,然后强求用户说必须如此自动化你的决策。人们会反抗的。”研究的一位共同作者解释。相反,他建议在恰当的时候作为辅助工具引入算法。“(用户)一开始总是会带有怀疑,但时间越长,就会越依赖这个模型。最终,即使给他们自由修改的权力,他们也会对整个模型全盘接受。”

其他研究也得出了类似的结论。明尼苏达大学的计算机科学家团队为一个电影网站构造了推荐算法,对用户进行了测试:如果给他们机会对算法的输入进行个性化设置的话(例如对新上映的电影排序),他们对算法的输出结果是否会更满意。答案是肯定的。

那些使用了“混音器”来调节新闻推送算法,而且对结果感到更满意的用户似乎并不孤独:一点点的控制权,却是提升算法信任度的一大步。所以,似乎应该把这样的控制权让渡给用户,是吗?不对,Facebook回答。在Facebook的例子中,虽然用户满意度是个好东西,但付出的代价是更低的使用度。我们在第一章里见过Match.com的用户行为经常和他们自己所述的偏好矛盾。类似的,Facebook的用户对自己的偏好也有糟糕的认识,公司的算法从数据中反而能推断得更准。所以Facebook决定收回给予用户的控制权。

类似的,谷歌为了一个更为深谋远虑的理由,对另一组用户也拒绝提供控制权。2012年,谷歌的自动驾驶汽车部门认为自己的车辆已经准备好驶出测试道路了。有没有员工愿意驾驶这些车辆通勤上班呢?很多人愿意,于是实验开始了。车辆上安装了摄像头记录车内车外发生的一切事情。实验结果让专家们备受困扰,不是因为车辆出色的表现,而是因为人们在车里的行为。尽管车辆驾驶员被要求保持警惕,时刻准备接管方向盘,但这些谷歌员工还是心不在焉地瘫在座椅中。克里斯·厄姆森(Chris Urmson),当时该部门的CTO,在得克萨斯的“西南偏南大会(South by Southwest Conference)”上告诉一名观众:“我们有些人……看着自己的手机,说手机快没电了,然后转过身去,从包里拖出笔记本,掏出充电线,把手机接到笔记本上,再瞧瞧自己的手机,行了,充电中,然后重新扭头望着窗外的风景——这一切都发生在时速65英里的汽车里。”

厄姆森回想起来,对付这种状况有三种应对方式。公司可以忽略试驾员的这种行为,让他们继续测试,毕竟自动驾驶车辆本身表现良好。也可以创建一种机制,提醒驾驶员注意路况,比如无法放低的座椅、如果驾驶员转身就给以轻微的电击。或者他们也可以接受现实,这种情况不可避免(有人要说了,“人类啊”),然后造出更好的车,完全不需要人类监控的车。谷歌选择了最后一个选项,在2015年11月向美国国家公路交通安全局(National Highway Traffic Safety Administration)询问,是否可以向道路上投放没有方向盘、没有油门也没有脚刹的汽车。在这项提案的国会听证会上,厄姆森说:“我们在内部测试中发现,当车辆鼓励人类驾驶员休息放松时,我们无法永远相信他们能及时介入驾驶任务。”

你也许会问为什么谷歌做了如此极端的选择。你也有理由问,既然研究表明控制权影响信任度,如此过激的设计是否明智,因为这影响到公众会接受还是抵触自动驾驶车辆。谷歌的工程师们不是唯一相信这一点的设计师:端到端的自动化——所有决策都由算法来做,无需人类的指导——才是产品设计的终极目标。

我刚开始研究决策算法时,这些系统还都被称为“决策支持系统”。这里的关键字是“支持”。但算法从支持性角色变化到自主决策者,发展太快了。智能投资顾问用我们的积蓄进行投资时,我们除了把银行账户密码交出去,几乎不需要做什么,也做不了什么。它们做出所有决策,几乎不需要我们的指导——就算研究表明,我们实际上真的很想要一些控制权。通过忽略这个信任度的问题,工程师在保证他们的机器以最优性能运行时,也担上了风险:普通人群可能会彻底抵制他们的创新。

自动驾驶早就在飞机上得到了应用。莱特兄弟的飞机离地之后才10年,就有一个名为劳伦斯·斯佩里(Lawrence Sperry)的布鲁克林本地人游说海军测试他研制的自动系统,这项基于陀螺仪的技术能够保证飞行器在飞行过程中始终保持水平,机鼻始终指向正确的方向。1913年的夏末,测试在纽约州北部仙指湖(Finger Lakes)一角进行,实验很成功。一年之后,巴黎的一场航展上,斯佩里让他的机师在飞行中爬上了飞机右翼,高举着双手,向观众生动地展示了没有人在操纵飞机。这一举动轰动了全场,斯佩里获得了10 000美元的奖金。[2]

这些早期实验(或冒险)都发生在私人或军用飞行器上。自动驾驶系统在商业航班上得到应用是1931年的事,那是往返于纽约市和华盛顿市之间的航班,随后自动驾驶技术的发展很快进入了单行道(还是坑坑洼洼的那种)。今天,一次飞行旅程中,飞行员会在很多阶段使用这项技术。波音和空客公司都宣布了完全自动飞行机的计划——空中的谷歌汽车。但离完全自主、没有飞行员的飞机载着我们穿梭天空还有段时间。一些批评者认为这将造成问题。

2009年春末,一架从里约热内卢飞往巴黎的法航班机一头栽进了暴风雨中的大西洋,机上216名乘客和12名机组成员全部遇难。事故出于人为原因:起飞后约三个半小时,飞机飞入了一片雷暴区域,一只空速传感器被冻住了,导致自动驾驶模式被解除,此时飞行员拥有驾驶飞机的控制权。就在此时,可能飞行员也没有意识到,飞机的电传系统被解除了,电传系统本质上能使飞行员的机动动作更为简单,同时也可预防任何可能造成灾难性后果的动作。这意味着,当三名飞行员中年纪最轻、经验最少的皮埃尔-塞德里克·波宁(Pierre-Cédric Bonin)将机鼻指向上方,让飞机越飞越高时,系统没有——实际上,也无法——阻止他。引擎失速,然而惊慌失措的波宁继续将机鼻指向高空。系统能做的就只是警告飞行员,因为后者获得了控制权。不到五分钟后——根据飞行员间困惑而越来越恐慌的对话,这是驾驶舱内的心碎五分钟——飞机撞向了海面。

事后检查过证据的专家们表示,这是场可以避免的悲剧。但如何才能阻止这场悲剧呢?没有明确的答案,这次坠机的原因间接植根于自动驾驶技术的成功之中,威廉·朗格维采(William Langewiesche)说道,他自己也是飞行员,就这次事故为《名利场》杂志撰写了详细而痛苦的说明。“自动化已经让普通航班飞行员越来越不需要面对飞行中的残酷危机,但一旦遇到这样的危机,他们也越来越无法处理。”

朗格维采认为人类必须得到更好的训练,一旦出现罕见的情况,他们需要从自动驾驶系统手中接管控制权,他们需要知道该如何应付。另一种方案——谷歌的方案——则是一开始就不允许自动驾驶模式被关闭。空中客车,那架飞机的制造商,是不是早就该拆掉飞行操纵杆?

我们对控制权的渴望,使得我们如此憎恶将性命完全托付给计算机的想法,以至于很少有人追求这个目标。然而,并不是没有前例。技术人员指出电梯就是完全自动驾驶汽车的前身。今天我们大多数人都对自动电梯习以为常,可是在电梯刚发明的时候,还需要操作员开关舱门,使用杠杆或绳索把电梯引导到正确的楼层。根据电梯历史学家李·格雷(Lee Gray)的说法,“无人驾驶电梯”刚问世时,人们都讨厌它。他们走进电梯仓,立刻就跨了出来,问道:“电梯操作员去哪儿了?”但20世纪50年代纽约市的一次操作员罢工之后,业主们不得不下定决心。他们抛弃了操作员,让设计师往机器里添加了让人安心的措施,其中最显眼的就是一个写着“停止”的大红按钮。这个按钮不能给用户提供任何真正的控制权,实际上,用户也没有办法在楼层之间开门,或控制电梯操作系统中任何重要的部分。如果真有人按了那个按钮,他也只是被要求使用电话和远程操作员对话。可是,看到“停止”按钮就让人有了一种拥有控制权的错觉,似乎他们能够在必要时中断自动系统获得控制权。这个策略显然起了作用,自动电梯的使用量开始攀升。这个案例和沃顿商学院的研究结论高度一致,对算法的信任和给予用户的控制权多少不是正相关。只要用户享有一些控制权,哪怕是最少的,也能大幅提升信任度。

在谷歌的自动驾驶汽车里,那个红色按钮就该写上“如遇紧急情况,请按这里”。(实际上,谷歌的汽车真的有个红色的“e-stop”按钮,会让所有系统尽快、尽量安全地把车停下来。)

Facebook和谷歌的实验都说明给用户提供大量的控制权反而会影响自动系统的性能。同时,某种程度上的用户控制权也许有助于提升信任度。目前的研究使我相信这两者有办法同时满足。在图中的“甜蜜点”就可以做到——低程度的控制权使用户信任度和系统性能同时接近最佳水平。

但通过让用户、让我们自己误解控制权的真正归属来建立信任,总让人感觉有点不对头。用户错误地认为自己拥有控制权,但现实中,他们对于决定的影响有限。也许还有其他方法。

2013年巴西和法国的研究团队发表了一篇论文,讨论了控制权和满意度的关系,用学术语言来说,用户的“自认为可以显著改变局势的能力(也许会)导致压力下降和激发动力”。他们要求巴西和法国的学生想象购买商品或服务的场景,其中一些人有机会帮助设计这些商品或服务,另一些人则没有。借用心理学名词,研究者将这种对设计的输入称为“行为控制(behavioral control)”,或是“对环境施加直接影响或动作的能力”。那次研究中,拥有行为控制权的学生,相对于那些没有控制权的学生而言,对购买体验更为满意。研究者们还设计了第三和第四组——前者不能控制商品或服务的外形,但是被告知了他们所购买服务的详细信息〔研究者称之为“认知控制(cognitive control)”〕;后者也不能控制商品或服务的外形,但被告知如果他们不满意的话可以退款〔“决策控制”(decisional control)〕。这两组的满意度都比那个没有任何特权的对照组高。

有一个用户控制权的“甜蜜点”,在这个点上,用户信任度和算法性能都足够高。

于是一个框架呼之欲出,产品设计师们可以在不危及顾客(和资产负债表)的同时,为他们的算法建立信任度。用户界面设计师能给予用户的最高一级控制权就是“行为控制”。虽然很难在不削弱性能的前提下,给用户对数据、模型和算法推理过程的完全控制权,但有选择性地让渡一些“行为控制”还是可能的。举个例子,奈飞和Pandora上,用户可以对推荐内容进行“喜欢”和“不喜欢”的评价,这些反馈数据之后会被算法利用以改善将来的推荐。类似的,在假新闻灾难后,Facebook让举报推送内容中的仇恨言论、虚假报道、未授权销售和帖子里的**性内容变得更容易了。当Facebook的算法无法识别攻击性或虚假内容时,它可以从反馈中学习,自我纠正。这是真正的行为控制,影响到新闻推送算法允许放行哪些内容。当然,谁都可以利用这个反馈回路达到自己的目的:如果有个人出于无知或恶意把一个帖子标记为假新闻,还鼓动朋友们一起做同样的标记,那算法有可能受骗而隐藏掉这个帖子。在这样的场景中,提供无监管的用户控制权可能会事与愿违。所以,无论是好意还是恶意,用户虽然没有能力重新编写算法,但对算法所做的选择还是有一定控制力的。

在行为控制有风险的场合,决策控制可以在不削弱算法性能的同时增强信任度。谷歌的搜索引擎能够提供决策控制,每一次查询它都会返回长长的列表,允许用户在其中选择最合适的那一条。就算最前面一两条结果并不准确,列表下面也有其他选择,甚至可以通过翻页来选择最匹配的结果。

决策控制在其他场合也适用。在微软工作的医生兰吉娜·拉玛穆提观察到:“医生希望成为最终决策者,那就让医生来握住方向盘。就像Gmail的智能回复,你从中进行选择一样,人工智能系统可以给医生选项和背后的推理过程,然后医生进行选择。这样他们就会更愿意接受算法。”而且他们也将需要接受算法,她补充,因为医疗行业正在发生多方面的变革,会对医生的效率提出更高的要求。如果没有智能算法,那是万万没有办法做到的。

还有认知控制,指的是对算法行为的确切认识。我觉得把它称为“控制”有点误导,更愿意称之为“透明性”。不过这不代表我认为它不够重要。实际上,透明性正在人工智能研究者和社会科学家群体中成为流行词。让我们瞧瞧为什么透明性成为人工智能领域中的议论话题。