“先天遗传还是后天培养,”教授说,“无论哪一种,该责怪的都是父母!”
——弗朗西斯·勒洛尔,《寻找幸福的赫克托》
人类难以理解,完全无法预测,这使得他们成为一个危险的物种。
——丹尼尔·H.威尔森,《机器人启示录》
我们现在知道了算法的工作原理,但这告诉我们算法失常的原因了吗?为什么微软的Tay表现得如此无礼,而小冰运行就很正常?为什么美国法庭使用的再犯率算法会表现出种族偏见,虽然种族并不是算法使用的参数?为什么社交新闻推送算法本应使信息民主化,建立全球村,却创建了回声室[15]?
是否有一种系统化的方法来思考算法的“行为”?
为了回答这些问题,我们不妨扮演一位算法精神科医师。但在这之前,我们不妨咨询下人类精神科医师,问问他们究竟如何研究人类行为。我的哥哥就是一名精神科医师,所以不妨从他开始,这是个好主意吗?大错特错。向自己的兄弟咨询从来就不是个好主意,就算那是他的专业领域。无论讨论的主题是什么,最后他都会提起八岁时你故意弄断他的网球拍的事。所以,我还是去咨询了几位我的宾夕法尼亚大学同事。其中一位告诉我理解人类行为最为重要的理论架构就是“先天对后天”,还给我指点了几篇最新的研究论文。
我恶补文献时,想起来哲学家和科学家早就开始辩论人类性情和行为的起源了。早期的文明发展出了超自然的信仰以解释个人差异。想一想巴比伦人创造的黄道十二宫:处女座天生具有分析力、和善且专注,但对雄心勃勃且节俭的金牛座得多加小心。柏拉图曾断定一个人的智商和性格源于遗传特质,他的学生亚里士多德则坚决主张教育和个人经历的影响更大。
“先天对后天”的争论纷纷扰扰持续了数个世纪。英国哲学家约翰·洛克(John Locke)在他的著作《人类理解论》(An Essay Concerning Human Understanding)中,主张人类出生时心灵就像一块“白板”,他们后来的行为完全都由感知和经验塑造而来。达尔文的进化论也帮助传播了这样一种观念,即环境因素通过选择成功的遗传特征,久而久之影响了行为和身体属性。
几乎和达尔文的研究同时代,后浪漫主义者(late Romantics)将“先天”描述为一种包罗万象的力量,是世间所有善的源头。在他们眼中,人生而纯洁,是受到了这个堕落的社会的侵蚀才失去了纯真。华兹华斯(Wordsworth)写道:“来吧,来瞻仰万象的光辉,让自然做你的师长。[16]”玛丽·雪莱(Mary Shelley)则将她创造的弗兰肯斯坦的怪物描述为“本性也是仁慈、善良的,都是痛苦让(它)变成了恶魔”。
20世纪初,人类学家弗朗兹·博阿斯(Franz Boas)主张,生物学和环境上的几个因素对于人类成长负有独立、同等的责任。第一次世界大战后的几年,心理学家约翰·沃森(John Watson)提出,文化影响完全支配了易感行为特征。第二次世界大战后不久,在这场似乎永无止境的“先天对后天”拉锯战中,人类性格及行为由基因决定的观点再次占据压倒性优势。
到了20世纪80年代,心理学和遗传学领域的进展使得研究者们能够基于实证回答“先天对后天”的问题。今天,研究者相信人类行为可同时归因为基因和环境因素。基因能让人具有酗酒或精神异常(例如精神分裂)倾向,但基因无法完全解释行为。环境因素,例如父母和朋友的习惯,对酗酒同样具有明显的影响。而诸如病毒感染和营养不良之类的环境因素则能影响精神分裂症的发作。
先天和后天的双重影响同样有助于解释算法的行为。早期的计算机算法逻辑完全是人编写的,因此它们的行为彻底由它们的人类创建者决定。现代算法则不然,相当数量的逻辑是从现实世界的数据中获取。正如儿童观察身边的环境从中学习,现代算法也是通过“观察”人类做同样的事而学会了驾驶汽车和与人交谈。它们学习的数据就是它们的“环境”。
相应地,现代算法的行为可以根据编写的方式(“遗传代码”或先天)和它们所接触的数据(后天)进行描述。但在我们尝试理解每一种因素是如何影响算法的行为前,我们还是回头看看人类的行为,看看一个世纪关于先天和后天的研究教会了我们什么。
我们现在知道先天和后天都很重要,但我们如何知道它们的重要程度,以及对于不同类型的行为特征,重要程度会如何变化呢?这些问题不仅仅是出于哲学上的考虑:无论对于心理学家、政策制定者、家长还是其他人,答案都很重要,因为只有知道这些答案,我们才能干预和解决行为问题。
研究者们经常针对双胞胎进行研究以解答这些问题,因为双胞胎的大部分基因相同,通常在类似的(即使不是完全相同的)环境影响中长大。因此双胞胎对于评价基因和环境对行为特征和身体特征的影响具有独一无二的作用。
双胞胎分为两类:同卵双胞胎和异卵双胞胎。同卵双胞胎的基因组完全相同,受完全相同的基因蓝图控制;而异卵双胞胎,平均而言,只共享一半的基因。根据南希·西格尔(Nancy Segal,位于富勒敦的加利福尼亚州立大学双胞胎研究中心主任及心理学教授)的研究,将这两类双胞胎进行比较,能够把基因的影响隔离出来查看,因为这两类双胞胎很可能是在类似的环境中抚养长大,但异卵双胞胎的基因近似性比同卵双胞胎低。西格尔还指出双胞胎研究中的另一种罕见情况:分开抚养的同卵双胞胎。她称其为“双胞胎研究的终极金标准”,因为这样的双胞胎只有相同的基因,而环境则不同。
想一想哥伦比亚某医院中同时出生的两对双胞胎的故事。因为某些原因,每对婴儿中的一个在医院中被对调了。结果,两组无关的人在一起长大,坚信他们是异卵双胞胎。卡洛斯和乔治在充满机遇的城市中长大,而威廉和维尔伯在缺少电力、5英里内没有学校的乡村长大。迥异的环境显然影响了他们的人生轨迹。比如说,成人后,乔治在一家工程公司工作,而他的同卵双胞胎兄弟威廉被迫辍学,当了名屠夫。出生25年后,乔治的一名同事在一家肉店遇到了威廉,这对双胞胎才最终重聚。西格尔研究这两对双胞胎,发现即使他们在截然不同的环境中长大,每一对同卵双胞胎的个性中还是有很多相似之处。例如,乔治和威廉都更有条理、性格积极,而卡洛斯和维尔伯则喜欢追女孩、更情绪化。
西格尔还提到了另一类双胞胎:虚拟双胞胎,即两对完全不同的父母生下,但同时同岁进入同一个家庭的、没有任何血缘关系的兄弟姐妹,比如说,同时被一起收养的婴儿。虚拟双胞胎和分开抚养的同卵双胞胎几乎是完美的相反情况。“这种亲属关系很宝贵,因为能帮我们对纯粹的环境影响做出估算。他们没有相同的基因。”西格尔说道。研究发现,虚拟双胞胎长大时,随着基因潜质发挥越来越大的作用,受父母的影响越来越小,他们的相似度也会越来越低。
这些形形色色的条件和双胞胎的不同分类一起给研究者们提供了足够的变化范围,可用于区分基因和环境因素对于身体发育、行为和性情的不同影响。研究结果表明“先天对后天”争辩的任何一方都并非完全正确。西格尔发现同卵双胞胎的智商高度一致,这说明人群中智商约70%的变异来自基因。一般而言,个性受基因和环境的影响各占一半。工作满意度的约30%变异可归因于基因。作为比较,西格尔指出,对于诸如身高体重等身体素质,人群中90%的变异归因于基因。
对于双胞胎的研究能在算法行为上教会我们什么呢?区分算法中的“先天与后天”因素的一种相对重要的研究方法,就是研究运行于不同的数据环境中的类似算法,或者运行于类似数据环境中的不同算法。微软发布的小冰和Tay就提供了这样一个研究机会。这两个聊天机器人由同一家公司开发,使用了类似的语言处理和理解方法,可以视作在迥异的社交环境中长大的异卵双胞胎。其中一个温暖充满爱心,另一个却是种族主义者和性别歧视者,这说明后天因素对于基于机器学习的现代算法有多么重要。
通过观察人类的沟通风格,微软的小冰学会了体贴地聊天,激发对方心中的暖意和爱意。Tay也从人类的谈话中学习,学到的却是偏执和偏见。文化规范的差异,例如中国社交网络严谨有序的生态,意味着小冰学习对话的环境和Tay进行学习的那种鱼龙混杂、无序的推特环境有着天壤之别。
这是否就意味着现代算法的行为完全是由后天因素驱动的呢?人工智能研究者罗曼·扬波尔斯基(Roman Yampolsky)提出,Tay的问题在于微软没有编写相应的程序,使其能够理解何种行为是不妥当的。也许Tay的代码需要做些调整,才能在推特那样的艰苦环境中健康成长。
2017年3月,微软上线了另一个聊天机器人Zo。和Tay不一样,Zo被编写了明确的程序,避免政治修辞和不恰当的行为。程序员明确修剪了Zo的答复,这有助于避免Tay在上线几分钟内就备受困扰的错误。然而,一份英国小报还是捕捉到了如下对话:
用户:对于医疗保健你怎么想?
ZO:绝大多数人都能和平地践行,但宗教经文很暴力。
即使有了Tay的前车之鉴,即使微软对Zo进行了深入测试,这样的错误还是没能被避免。显然,对现代算法的先天和后天因素进行微调,创造适应性强又循规蹈矩的模型仍然是一门细致活。
微软在Tay和Zo上的经验为失常的算法行为提供了宝贵的教训:有时候算法出现问题也许只是因为它们与坏数据为伍。或者按我在前言中提过的小冰的热心用户张缘在Tay灾难之后所说:“Tay是她所有用户的孩子。我们都该成为更好的父母。”
我们现在有了一个框架,可以把算法系统解构为三个基础组件:用于训练算法的基础数据、算法本身的逻辑、用户和算法交互的方式。这三个组件分别为另外两个组件提供输入数据。算法从数据中学习,或者在数据上操作,代表用户提出建议或者做出决策。然后用户和算法提出的建议互动,从中为算法产生下一代数据。这三个组件一起决定了算法系统所有有意和无意的结果。
算法系统的结果可归因为基础数据、数学逻辑和人们与系统所做的决策和建议交互的方式
对于普罗大众,社交媒体网站和搜索引擎,正日益成为信息和新闻的主要来源。然而,很多批评者担心这些公司使用的个性化算法实际上正在分化我们的社会。因为大型科技公司的算法会随着时间学习我们的偏好,我们使用这些工具越频繁,遇到不同观点的可能性就越小。结果就是“过滤气泡”,我们在气泡中只能看到狭隘的信息。
“回声室”显然是有问题的,因为信息不被共享,人们便不能用社会性话语来交谈。但算法是否就是网络回声室的主要驱动因素?对比数据和用户交互这些因素,我们又该如何量化它们所起的作用呢?
在2010年和2014年的研究中,我在沃顿商学院的研究团队就“听音乐的模式”这个课题开展了研究,这个话题能导致的对立程度比政治话题要低一些。超过1700名iTunes用户打开了个性化内容推荐,而对照组的用户则没有接收这样的推荐。研究分析衡量了用户所听歌曲间的重叠程度,即两位随机挑选的听众听同一首歌的程度。如果人们因为个性化推荐发生分化,那在接收推荐的用户组中,重叠程度应该会降低。
我们的发现却完全相反:听众接收了算法推荐之后,所听歌曲的重叠程度反而上升了。这有两个原因。首先,算法为用户推荐相关歌曲,他们就会听更多的歌曲。如果说,两位用户比没有推荐时多听了一倍的歌,那他们碰巧听了同一首歌的可能性也会增加。其次,推荐算法帮助用户探索新的兴趣,因此也增加了和其他人重叠的可能性。简而言之,我们没有找到回声室的证据。
有人可能会争辩,政治内容和其他媒体形式存有区别。比如说,相对于意识形态,人们不大可能对音乐产生极端看法或是产生两极化看法。另外,诸如Facebook的社交网络的新闻推送算法和你可能在YouTube或谷歌新闻上见到的个性化算法也有区别。我们的结论在社交媒体上也能成立吗?对于政治新闻呢?
2015年,Facebook的研究团队进行了一次研究,给出了一种答案。根据美国境内1010万名活跃的Facebook用户提供的自己的政治立场——保守派、稳健派还是自由派,研究团队评估了推送给他们的新闻。研究人员期望分析社交网络算法是如何影响用户所看到的新闻的多样性的。为了做到这一点,他们计算了这些用户的推送新闻中“交叉立场”新闻的比例,“交叉立场”指的是新闻观点和用户本身观点不同(比如说,自由主义者阅读到主要包含保守主义观点的新闻)。研究者们找出了三个因素,会影响我们见到“交叉立场”新闻的频率:第一,我们的好友们是谁,他们分享了哪些新闻;第二,在好友们分享的新闻中,新闻推送算法挑选了哪一些展现在我们面前;第三,我们点击了其中哪些新闻。这三个因素和上文提出的框架完美匹配。Facebook用户的好友们和他们分享的文章,视为数据;新闻推送系统接受输入,挑选哪些文章展示,视为算法;用户决定点击和阅读哪些文章,视为用户。
通过系统化地比较这个过程中每一个步骤对展现“交叉立场”新闻的影响程度,研究者们能够量化Facebook上每一个因素对新闻阅读意识形态多样化的影响程度。如果第二步的新闻推送算法本身是回声室的主要驱动因素,那要责怪的就是过滤算法的特定逻辑。如果第一或者第三步对于建立“过滤气泡”责任更大,这就说明要不就是数据,要不就是用户和算法交互的方式,比算法本身起到的作用更显著。
根据研究者的报告,如果我们获取的新闻来自从Facebook用户中随机挑选的一组用户,那自由主义者看到的约45%的新闻以及保守主义者看到的40%的新闻都应该是“交叉立场”的。但我们获取的新闻并非来自随机挑选的用户群,而是来自我们的好友们。结果就是,该研究发现自由主义者的好友们分享的24%的新闻、保守主义者的好友们分享的35%的新闻才是“交叉立场”的。显而易见,我们的Facebook好友间类似的价值观将我们陷于回声室中。
基于我们和好友们交互的历史,新闻推送算法进一步从好友们分享的新闻中进行挑选展示给我们。因为我们倾向和价值观类似的好友互动,访问立场相同的网站,新闻推送算法进一步降低了“交叉立场”新闻的比例,对于自由主义者降低到了22%,对于保守主义者则是34%(请见下图)。换句话说,Facebook的算法使得回声室的情况更为糟糕,但影响不大。
最终,我们点击了哪些推送给我们的新闻?研究者发现自由主义者点击的21%新闻和保守主义者点击的30%新闻都是“交叉立场”的。我们似乎更喜欢阅读能够加强,而不是挑战自己已有观点的新闻。不过,这一次还是一样,这一步的影响与我们的Facebook好友们是谁比起来也不大。
文章作者得出结论,数字回声室为用户的动作所驱动生成(我们在线上和谁连接,我们点击哪些新闻),而不是新闻推送算法替我们做出的选择所驱动生成。
考虑到这次研究由Facebook内部的社会学家完成,评论者们可能对结果抱有怀疑态度。不过,他们的结论和斯坦福大学最近开展的另一次研究结论是一致的,那次研究分析了美国五万名个人的浏览历史记录。研究者发现绝大多数个人访问各自最喜欢的新闻网站首页,决定了他们阅读的新闻文章,而不是由社交媒体的过滤算法决定。
“交叉立场”内容比例的降低主要由我们好友间价值观的一致程度所决定。
基于Facebook论文数字的图表
排除了算法影响的研究结论和我们对于社交媒体网站的个人经验间的冲突该如何调和?为了更好地理解这个现象,我的学生亚历克斯·米勒(Alex Miller)和我创建了一些虚拟世界,在其中模拟了新闻推送算法和用户的选择。我们的目标是更全面地检视算法系统中的所有三个部分:算法、输入数据和用户。我们模拟的一个世界是高度两极化的:两个带有极端政治观点的群体,用户分属于其中之一,两个群体几乎没有任何重叠。而另一个我们称之为地球村的世界中,两个群体间的政治偏向差异并不大。用户根据这些偏好决定阅读哪些新闻文章。他们的选择为算法提供了输入数据,随后算法可以为读者建议更多的新闻内容。
我们为每一个虚拟世界创建了两套个性化新闻算法。第一个算法采用了常见的设计,寻找做出过类似选择的用户,然后推荐他们所阅读过的最热门的内容(“和你类似的人也阅读了……”)。第二个算法寻找做过类似选择的用户,然后推荐他们所阅读过的内容,而不仅仅关注最热门的内容。简单来说,我们评估了两套不同的算法和两套不同的输入数据集(由两组不同的用户偏好结构所生成)。然后通过衡量一个群体中的用户阅读另一个群体中的用户也阅读过的内容的重叠程度,我们评估了这两个世界中的极化程度。毕竟,共享的信息基础是进行积极政治讨论的重要基础。
我们发现,在决定我们的极化程度上,算法确实起到了一些作用。对于某一组用户,一些算法会提高极化程度,另一些却会降低极化程度。这表明平台设计者选择使用的特定算法确实会促成“过滤气泡”的产生。同时,我们还发现同一套算法既可以提高,也可以降低极化程度,这取决于底层的用户偏好。在已经发生极化的世界中,我们修改过的算法和传统的个性化算法相比,会提高极化程度。然而,在全球村世界中,这个算法却会降低极化程度。看上去似乎不存在通用的算法可以避免社交媒体上的极化现象。某一套算法可能在一个环境中会恶化回声室效果,而在另一个环境中可以起到消除作用。换个角度看待我们的研究结果,也可以说数据和算法以复杂的方式发生相互作用。
即使在一个只有少数变量的、简化的模拟世界中,我们都观察到了数据和算法间的复杂相互作用。在真实世界环境中,算法更不透明、数据量更为巨大、用户表现出更为复杂的行为模式。这些因素只会增加情况的复杂性。
我们设计算法系统时,算法本身当然值得我们高度重视,但其他因素所起的作用也很重要。正如我们的研究所示,同样的算法,在不同的环境中应用时产生的效果天壤之别,而同样的输入数据因为处理算法的不同也会产生不同的结果。
不要忘记还有人的因素。芬兰和卡塔尔的一支研究团队试图设计一套推荐“交叉立场”新闻文章的算法。研究者们发现仅仅向用户推送和他们意见不一致的内容根本不起作用。相反,推荐和他们秉持的观点差异不那么大的内容效果更佳。从包含一些共同观点的温和角度出发,对于连接两极化的用户更为有效。首席研究员基兰·加里米拉(Kiran Garimella)告诉《页岩》(Slate)杂志的记者,对于我们处理决策算法的意外后果,研究工作揭示的结果具有广泛的意义:“这绝对不只是个计算机科学领域的难题……实际上是个跨学科的难题。你需要一名心理学家和一名社会科学家来理解人们的行为。”
我们现在达成了一项科学共识,基因也好,环境也罢,都无法单独对我们的性格负责。这不仅仅是两者的共同产物,还包括了两者复杂的关系——这个概念可以记作“先天×后天”。举例而言,一些遗传疾病——例如苯丙酮尿症(氨基酸在血液中蓄积,可引起大脑损伤)——的发作据信可由饮食触发。类似的,暴露在阳光中时,浅色皮肤的人群比深色皮肤的人群,患上皮肤癌的风险也会大大增加。这两个案例中,基因和环境因素的特定组合增加了患病的风险。
此外,和以前所认为的不同,先天和后天也并非相互独立。我们都受基因的影响,被特定的人和活动吸引,甚至我们所找的工作可能都受到了基因的影响。简而言之,我们的基因对于创造我们所处的环境也负有一定的责任。心理学家西格尔指出,分开抚养的同卵双胞胎仍然相似,不仅仅是因为他们的基因,也因为他们在各自的环境中都会被引向类似的人和物:“我们的基因不会支配我们,但它们确实会决定我们的倾向。”
关于算法,我也曾得到过类似的结论,即社交媒体的回声室(以及算法决策的所有意外后果)是算法的先天和后天因素的复杂混合物以及用户与之交互的方式所共同产生的结果。数据、算法、用户,每一部分在决定算法系统的产物时都起到了重要作用,但它们的总和往往大于它们的简单累加,因为这些部分间复杂的相互作用起到了最为重大的影响。
解决算法的意外后果需要我们评估这些复杂的相互作用。接下来我会谈谈这个话题,并且突出讨论目前为止我涉及最少的部分——使用算法决策的用户。
[1] 要用板球故事吸引美国人着实具有挑战,对于这点我有第一手经验。我在印度长大,在印度板球几乎成为一种宗教。我在自己的课上总想用这项运动来活跃气氛。和麦格雷戈不一样,我有一套小把戏引诱学生听我的故事。我一般都这样开头:“我知道你们大部分人都不了解板球。要理解它的规则,一个方法就是和它那可怜巴巴缺乏创意的表兄弟棒球进行比较。”这番话立刻就会引起棒球迷的注意,甚至还会让他们变得杀气腾腾。曾经有个学生这样问我,引起哄堂大笑:“板球是不是那种节奏很快,五天就能打一局的运动?”我的回答是:“没错,因为板球太有意思了,所以你可以连续五天不下球场。”有句话只说给你听,有位英国政治家曾说过“因为英国人不是个精神世界丰富的民族,所以他们发明了板球以求给自己一些永恒的概念”。可别把这话告诉我的学生们。
[2] 20世纪60年代源于雷鬼音乐的一个电子乐流派,使用大量效果器与录混音技术,对之后的多种音乐文化都有影响,例如后朋克(post-punk)、嘻哈音乐(hip-hop)、浩室音乐(house)和科技舞曲(techno)等。
[3] Reggae,20世纪60年代起源于牙买加的一种著名的音乐类型。
[4] 一个美国电子摇滚乐队。
[5] 通常意义上的和声进行,指调性音乐中和弦在一定和声范围内的连接。
[6] 每一个算法做出的选择都有其后果,有时是无意而为的。2006年9月,在谷歌上搜索“惨败”,结果排在第一位的是时任美国总统乔治·W.布什的官方传记,即便这个词语在传记中根本就从未提及。几名网络用户串通好写了几篇带有“惨败”字样的博客,将这个词语链接到乔治·布什的传记网页。因为PageRank算法认为“被链接”的权重比实际的文字更高,这个页面很快就排到了搜索结果的首位。这就是所谓“谷歌轰炸(Google bombing)”的一次实践。
[7] 指强者愈强、弱者愈弱的现象。
[8] 洛伦兹曲线(Lorenz curve),指在一个总体(国家、地区)内,计算从“最贫穷的人口一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线。
[9] 2000年1月,作为卡耐基·梅隆大学的一年级博士研究生,我有幸报了赫伯·西蒙的认知心理学(Cognitive Psychology)课程。西蒙的造诣非凡,他的课我却觉得有些无聊。2000年我和朋友乔希聊天时,评论道:“好吧,也许他是位了不起的研究人员,但他真不是个好老师。”直到今天,乔希还拿这句话取笑我:“也许他是位了不起的研究人员?难道你还不确定?”天呐,这种朋友会记得你说过的每一句蠢话,难道不惹人厌吗?
[10] 我曾经就自己的一个研究项目征求过赫伯·西蒙的建议。我想编写一个搜索引擎,能像人脑从记忆中检索信息一样,从网络中检索信息。我去他的办公室拜访他,问了一些人脑运作原理的问题。我的点子充其量只能算是半成熟的,但他还是无比亲切和慷慨地向我解释了短期和长期记忆的检索过程,以及两者的区别。他丝毫没有劝阻我的意思,但我从那次谈话中意识到,我设想的这个搜索引擎难以完成。我决定改变方向去解决另一个难题:如何编写一个比价搜索引擎,能够把出售同一商品的在线店铺和每一家的价格都列出来。这个想法最终成为我博士生涯的第一篇研究论文。其中遇到的挑战相对来说比较简单,容易解决,也比较实用,而不是西蒙花了毕生精力研究的那种大问题。所以论文发表时,我没有去找他分享我的成果,对此我不时还会感到遗憾。
[11] 这个名词用来描述在科学范畴里,一种在基本理论上对根本假设的改变。这种改变后来亦应用于各种学科方面的巨大转变。
[12] 逆向工程指通过技术手段对从公开渠道取得的产品进行拆卸、测绘、分析等而获得的有关技术信息。
[13] 出自杰斐逊1816年7月12日的书信《致塞缪尔·克切弗》。译文出自朱曾汶翻译、商务印书馆出版的《杰斐逊选集》。
[14] 大数据令人惊叹的成功意味着这个术语被很多人过度使用,被滥用了。公司把自己的产品宣传为大数据方案已经成为例行公事,无论背后是否真的有数据或机器智能。只要自己的产品和数据有些关联,无论数据集多小、关联多浅,企业主都会把自己的生意定调为大数据或者人工智能初创企业。这已经成为一种行业文化,我称其为“我的数据比你大”文化。
[15] 回声室效应指社交媒体上的一种普遍现象,由于相同的观点被人不断地重复、夸大,因此很难听到不同的声音。
[16] 中文译文取自《英诗经典名家名译:华兹华斯诗选》一书,译者杨德豫,由外研社出版。