听力的范围
能够听到声音并不是一件稀奇的事情,因为强大的声音会振动身体,就连单细胞生物也能感觉到。但是,能够像人类一样听得那么清楚,简直就是奇迹。功率10~15瓦的声音移动鼓膜的幅度比氢原子的直径还小,即使是功率这么小的声音,我们也能够轻松听到。
我们能够听到的声音的强度范围也同样令人惊异。人类可以听到的声音中,最安静的声音(听力阈值,0分贝)和疼痛阈值(约130分贝)之间的差距十分巨大——130分贝,这个数值相当于价值1000亿英镑的便士数量(1013)。
我们还可以听到相当广泛的频率范围:大约10个八度,比钢琴键盘还多几个。而对于远远低于和高于这一频率范围的声音,虽然我们无法真正听到,但却可以感觉到,这一点将在第6章做出解释。我们对于声音的频率有非常好的辨别能力:大多数人都能察觉到大约1/4个半音的差异;在理想条件下,我们甚至能够分辨大约1/12个半音的差别。相比之下,我们对声音方向性的判断能力则相当一般。即使在十分有利的条件下,我们也只能确定水平方向10°左右、垂直方向20°左右的声源的方向。在这方面,许多其他动物都远远超过了我们。
也许我们所有听觉能力中最令人惊叹的一点是,即使谈话的声音不到背景噪声水平的10%(假设背景噪声的频率分布很广),我们也能够听清楚:这远远超过任何机器的极限。
我们的耳朵有两种功能:听觉和平衡。平衡完全由半规管负责(见图14)。耳朵的其余部分就可以自由地根据我们的需求演化出最合适的系统。但我们的发声器官却不是这样,作为人类进化过程中出现相对较晚的器官,它必须自己挤进脸颊和下巴之间,并与它们共享之前用于呼吸、进食、舔舐、吮吸、亲吻和战斗的那些身体结构。不过,对一个训练有素的演员或技艺娴熟的歌手而言,他们的发声系统可以像斯特拉迪瓦里小提琴一样完美地工作。
图14 耳朵(中耳和内耳经大比例放大)
耳朵能听到什么
如图15所示,我们的听觉系统还没有进化到可以测量声音的物理功率。例如:短笛的最大功率约为0.08瓦,而长号的最大功率约为6瓦,但长号听起来比短笛更安静,这意味着长号演奏者必须比短笛演奏者更加用力(实际上短笛演奏者从来没有在任何常见乐曲中全力演奏过)。实际上,所有乐器的功率都很低。一个响亮的管弦乐队全力演奏的功率可能达到60瓦。如果这样的演奏持续两分钟,产生的能量足够煮开一汤匙的水。
图15 听力与频率的相关性
此外,这些能量从声源产生后会向各个方向传播,因此,如果你坐在离这样一个管弦乐队10米远的地方,只有不到0.01%的能量会到达你的鼓膜。实际上,鼓膜所探测到的不过是空气带来的一系列快速撞击,除了它们撞击的力度和到达的速度之外,这一过程并没有传递其他任何信息。我们之所以能够体验到一个充满情感和富有意义的声音世界,要归功于解剖学、电化学和神经学上都高度进化的处理系统的精确协调。
外耳:捕捉声音
耳郭是耳朵的可见部分,像漏斗一样,主要起着收集声音的作用。耳郭前后不对称的形式也有助于收集声音在传播方向方面的信息。一些哺乳动物的外耳可以移动,有助于他们感知声音的方向。虽然有些人也有这种能力,但这除了娱乐价值之外没有任何用途。
由于耳道是一个约3厘米长的圆柱体,而共振波长为这个长度的两倍,那么相对应的频率为3000赫兹左右。该频率能量的增加会导致其他频率能量的损失,因此耳道就像一个带通滤波器。
在耳道的末端是鼓膜,一个约1厘米宽的圆形皮肤盘。它与耳道呈一定角度倾斜,以最大限度地扩大其面积,从而接收尽可能多的能量。鼓膜略呈圆锥形,这使得它比扁平形状能传递更多的能量。3000赫兹以上的频率在鼓膜上不会形成共振,鼓膜的表面以一种混沌的方式运动;而对较低的频率而言,由于其波长比鼓膜尺寸大,因此鼓膜会做整体运动。因此,它能够以极小的滤波形式传输尽可能广泛的频率范围。实现这种近乎平坦的频率响应一方面是通过外耳的不对称形状,另一方面则依靠胶原纤维的内部支架。
鼓膜必须紧绷着,但是又不能僵硬,这一点很重要,是通过咽鼓管对内外部压力进行平衡实现的(我们通常将咽鼓管画成开放的,但通常情况下它并不是开放的,除非有明显的压力变化导致其打开,这时会产生一种独特的咔咔声)。
中耳:声音增强
鼓膜与三块被称为听小骨的微小(实际上是最小的)骨骼相连,这些骨骼占据着充满空气的中耳。它们的主要作用是将鼓膜宽而浅的运动转化为对第二层鼓膜的高压“轻敲”,这层膜叫作“圆窗”,也是进入内耳的通道。听小骨起了杠杆的作用,使力增加了1.5倍。然而,这种力增强的主要方式其实是通过鼓膜和圆窗的面积之比实现的,将力集中在一个更小的区域,从而将压力增加大约20倍。听小骨还通过听觉反射为内耳提供一些保护(见第8章)。
内耳:从声音到电流
内耳充满**,就像鼓膜把通过空气传播的声音转化为通过骨头传播的声音一样,圆窗可以将骨骼传播的声音转化成通过**传播的声音。声音将沿着一个被称为耳蜗的长约2厘米的盘管传播。在它的末端有一个孔(螺旋孔),声波通过这个孔后沿着第二根管道传播回来,第二根管道沿着第一根管道的延伸长度与其连接。当声波完成它的双程传播返回时,它必须被消除,否则它会反射回耳蜗干扰新到达的声波。所以,第二管终止于另一层膜——卵圆窗。当声波到达卵圆窗时,卵圆窗向外膨胀,将声能转化成热能,然后消散。
基底膜将声波转换成神经脉冲,它像长棍面包的馅料一样在耳蜗的管子之间流动。如果没有像蜗牛那样卷起来(拉丁语中,耳蜗即蜗牛),耳蜗中并排的管子就会长达5厘米。由于耳蜗的长度与声波的波长有关,因此所有哺乳动物的耳蜗长度都非常类似:大象的耳蜗也只比人类的长50%,所以卷曲可能只是一个节省空间的方式,不具有任何声学功能。小鼠和其他小型哺乳动物无法容纳全尺寸的耳蜗。它们的耳蜗长约1厘米,因此它们只能听到3~4个八度的音程,相比之下,我们和大多数其他大型动物都可以听到8~10个八度的音程。在基底膜上的是柯蒂氏器,其上生长了9排短毛(每排约400个),称为静纤毛(stereocilia)。这些短毛沿着膜的长度延伸,并且有神经纤维与它们相连。这些纤维聚集在一起形成听觉(耳蜗)神经,其将脉冲传递到大脑。
基底膜随着声波的敲击而运动。它的底部比尖端更硬更宽,这意味着较低频率的声音会引起靠近尖端部分的振**。这些振**导致静纤毛移动,然后附着有静纤毛的毛细胞向大脑发送电化学脉冲。由于大脑知道各个毛细胞的位置,它可以通过这种方式确定声音的频率(这被称为听觉系统的位置说)。然而,当声音低于1千赫时,整个基底膜都会振**。在这种情况下,一些其他的机制变得重要起来:静纤毛细胞随着声波脉冲发射信号。举例来说,对一个100赫兹的音调,静纤毛细胞每秒发射100次信号。
然而,细胞无法在一秒内发射超过500次信号。因此,为了应对更高的频率,它们面临的问题与一支装备了燧发枪的军队遇到的问题类似,如果说重新装弹需要一分钟,那么小队怎么能产生间隔10秒的持续的枪声呢?答案是将队员分成6组。第一组发射并开始装弹,10秒后第二组发射,以此类推。在第六组开火10秒后,第一组将完成装弹并将再次开火。毛细胞正是以这种方式分组工作的。假设第一组在声波周期达到峰值时向大脑发出信号,第二组则在该周期已经下降到最小值的一半时发出信号,第三组在周期最小值时发出信号,而第四组则在周期返回至最大值的一半时发出信号。以这种方式,这样的四个单元组可以对频率比其最大发射频率高4倍的音调进行响应。
基底膜上的毛细胞也以一种非常不同的方式协同工作。那些排在基底膜第八排或者更外层的毛细胞通过瞬时改变它们的长度来响应传入的声波。这种运动放大了内层毛细胞(唯一向大脑发送信号的毛细胞)上的立体纤毛的振动,因此产生了显著的放大效果。这样我们能够听到的声音的最低值又降低了40分贝(到了我们原本听觉下限的万分之一)。这种活动会产生微弱的声音,称为耳声发射。因为婴儿太小,无法说清他们是否听到或到底听到了什么,所以耳声发射对于确定婴儿听力系统的功能非常有用。此外,当内耳受到损伤时,耳声发射就会减弱,所以它们也是听力学专家检查听力情况的有效手段。这种声音太安静了(是件幸事),人基本上无法听见,所以要用非常灵敏的入耳麦克风进行测量。
神经与大脑:从客观到主观
从基底膜发出的神经信号并不是模仿声波,而是包含三个信息的编码消息,即:(a)有多少神经纤维在同时发射信号;(b)这些纤维沿着基底膜排了多远;(c)纤维信号发射的时间间隔是多久。大脑通过(a)和(c)可以提取响度信息,通过(b)和(c)可以提取音高信息。
图16 大脑中听觉、语言和言语活动的位置。主听觉区识别声音,布罗卡氏区既分析又生成语义元素,韦尼克区处理的是语音序列(听到的、发出的和记住的声音),缘上回负责发音,角回负责语义处理
我们还没有完全弄清在大脑的听觉和语言中枢(见图16)里发生了什么,但处理过程的第一阶段是从听觉神经的输入数据流中提取显著特征。这些特征被用来不断地更新、修改和精炼我们脑海中关于所听到的事物的模型,比如一个曲调、一句话,或者一段令人烦躁的引擎噪声。大脑通过预测声音接下来会怎么变化来测试模型的准确性。在预测的过程中,大脑会尝试确定声音的每个组成部分对于这段声音的含义所做出的贡献大小,这个过程被称为层次编码。例如,如果有人试图哼出《飞越彩虹》,哪怕他哼错了大部分调调,我们也能识别出这首歌,这也证明了我们在声音预测方面有惊人的能力。哺乳动物的大脑对传到耳朵里的声音的理解速度几乎令人难以置信——对一只狗说“松鼠”,如果它能听懂这个词,它几乎能瞬间对其做出反应。
回归
从进化的角度来说,听音乐对大脑来说是一件相当不寻常且新奇的事情。通常在听音乐的过程中,兴趣的焦点是外部世界的某个物体,因此听觉系统的一个重要功能就是定位那个物体。对于高频的声音,来自左侧的声音将首先到达左耳,同时由于头部对声音的阻挡,大脑会感觉到右耳处声音的音量比左耳低。当声波的长度大于两耳之间的距离时,大脑会比较两耳中声音的变化程度。如果一个长波从左侧传来,它的每一个波腹都会率先到达左耳,所以左耳的压力刚开始是最大的。随着波的传播,左耳的压力下降,而右耳的压力上升,直到波腹通过,压力再次下降。然而,当一个波的波长超过4米时,从左耳到右耳的这段距离不会有什么变化,因此无法判断它的方向。
大脑用头部和肩部形状对声音的影响来确定声源是在双耳水平的上方还是下方。拥有两只耳朵的优势不仅是可以判定声音的方向,还有其他用途,例如,有的时候即使外界没有声音,听觉神经也会发出信号,但如果这些信号只来自一侧,大脑就会拒绝接收。
大脑的处理系统已经进化到会对它接收到的声音做出合理的假设,这导致了诸如优先效应(也被称为第一波前定律或哈斯效应)这样的现象。大脑的假设是,第一秒到达的声音表明了声源的方向。因此,随后的声音被认为与第一个声音来自同一个方向。这使我们能够在黑暗的空间中定位声源,而不会被来自四面八方的回声所混淆。但这样的假设会产生误导,尤其是在那些非自然发生的情况下。比如,让接收者听一个位于偏左45°方向、距离大约1米远的扬声器传来的声音,然后用另外一个更加响亮且完全相同的声音将其逐渐取代,只是这个新的声音来自右侧45°方向的扬声器,但是接收者听到的声音似乎仍来自左边。
对试图在人群中交流的人来说,鸡尾酒会效应会非常有用。在鸡尾酒会效应中,特定的词句(比如一个人的名字)会从嘈杂声中赫然而出。这也适用于非言语的声音:指挥家往往对特定的乐器或乐句高度敏感。这种效果之所以产生,是因为无论我们是否在主动倾听,大脑都在不断地建立模型,优先找出有重要意义的声音,比如人的名字。
听觉是非常丰富且复杂的,正如语言学家罗兰·巴特(Roland Barthes)所指出的那样,声音以三种方式作用于我们的大脑:作为“指示符号”(令人震惊的爆炸声)、作为“符号”(一个单词的字面意思)和作为“能指”(由“结束”这样的单词引发的无意识联想)。根据拉贝尔的说法,听力在很大程度上也是一种社交活动:
丰富且有起伏的听觉内容在很大程度上打破了私人和公众之间的界限。声音起作用是通过形成连接、群组和结合,这强调作为关系投射的个人身份……把一个人编织进一个更大的社会结构中……为实现共享空间的意义做出贡献。
拉贝尔还指出,无论我们喜欢与否,声音都让我们与他人——哭闹的婴儿、吵闹的邻居或欢呼的足球支持者产生亲密接触。正如他所说:“声音创造了一种关系地图,这种关系往往是情绪化的、有争议的、流动的。”
听小骨
鼓膜是造化“工程”的奇迹,但实际上没有鼓膜我们也能听清,因为声波也可以通过头部的骨头——特别是耳后的乳突骨到达内耳。将耳朵没入浴缸,在很大程度上等于切断了空气传播的途径,所以这时声音主要是通过骨骼传播到达大脑的。然而,乳突骨传导系统相当不敏感。使用空气传导,我们可以听到的声音比乳突骨所能检测到的最弱声音还低40分贝左右。但是,另一方面,通过骨传导我们能够听到频率高至30千赫的声音,这远高于空气传导的最大频率。不过,可能过高频率的声音对我们来说没什么价值,它们都以同样的方式编码,那些高频的声音和20千赫的声音听起来音高是一样的。
宽吻海豚的骨骼听觉系统要先进得多。它们的下颚长着牙齿,牙齿间隔有规律,角度相同,形状非常相似,且各自高度取决于它们的位置。这些加起来就构成了一个聚焦阵列,只要声源位于正前方,特定波长的声波就会被显著放大。因此,海豚可以听到非常小的声音,并且可以通过把头转动到响度最大的方向来定位声音。
耳聋
听力系统是一个脆弱的系统,耳膜或听骨受到严重损害的情况并不罕见。当这种情况发生时,我们必须依靠骨传导以及人工辅助。例如,爱迪生用他的牙齿把声音从留声机传到乳突骨,那台留声机上现在仍能看见牙印,述说着当年的故事。
上面这种情况称为传导性听力损失。如果内耳或听神经受损,其结果是感音神经性(或说“神经性”)听力损失,影响的主要是人对高频率低强度声音的听力。在温和的情况下,它会导致一种叫作“响度重振”的情况,在这种情况下,声音的“可听性”会出现突变。在一个声音响度逐渐增加的环境中,有的人一开始什么也听不见,之后会突然听到特别响亮的声音。因此,“没有必要大喊大叫”的抗议活动就是针对那些为了让对方能听到自己的声音而突然提高嗓门说话的人。
感音神经性听力损失是最常见的类型,其最常见的原因是毛细胞受到物理损伤。当声音非常高时,鼓膜会破裂(鼓膜也会因头部受到撞击或感染而受损)。然而,值得庆幸的是,鼓膜破裂不仅可以愈合,而且通常能恢复得和之前一样好。
全世界大约有3.6亿人(超过全球人口的5%)患有“严重妨碍健康”的听力损失。相对于听力较好的人,患病成年人的听力损失大于40分贝,患病儿童的听力损失大于30分贝(儿童约占患者总数的10%),则可以定义为患有严重妨碍健康的听力损失。年龄在65岁以上的人中大约有1/3正遭受着这种听力损失的折磨。
在治疗耳聋方面,根据每位患者的具体情况,可以采取不同的治疗手段。对于传导性听力损失,如果患者还保有部分听力功能,根据佩戴者的特定听力损失模式量身定制助听器是最有效的办法。这种助听器通常也具备降噪功能,并且会使用定向传声器,以便患者能够集中于他正看着的声源。这类助听器还可以加装一个振动元件来刺激乳突骨。助听器在治疗感音神经性听力损失方面不太成功,因为信号会被响度重振效应所扭曲。
对完全失聪的人来说,耳聋治疗困难更大,但在过去几年中,人工耳蜗植入的出现给他们带来了新希望。2012年,通过刺激干细胞生长成毛细胞,失聪的沙鼠能够恢复45%的听力,少数沙鼠甚至恢复了90%的听力。未来的某天,这种方法可能会适用于那些因螺旋神经节神经元受损而丧失听力的人(这类人约占失聪人群的10%)。一些动物失去静纤毛后很容易就能再长出来,如猫头鹰,或许可以通过基因诱导,将这种功能用来造福人类。但猫头鹰听力中其他独有的特性我们并不会使用,比如,猫头鹰的听力在春季时最佳,这很可能是因为春季它们需要为自己的雏鸟捕捉更多的猎物。
除了听力损失,还有其他很多与听力相关的问题。最常见的就是耳鸣,也就是耳朵里嗡嗡响。其成因还不太清楚,而且声音的响度、类型和持续时间很大程度上会因人而异。它通常与过去的感染、用药(特别是某些抗生素)或创伤有关,而且常常伴随着听力损失。
语言的结构
大约100万年前,我们祖先的听觉系统产生了微妙的变化,从而能够分辨语言。人类对自己发声系统的进化知之甚少。虽然大多数动物都有以可控的方式进行发声的能力,但相较而言,人类语言的复杂性却是无法估量的。因此,与研究其他器官(比如腿)的进化不同,我们不能回顾过去那些古老形态,研究其种种发展形势,然后探究人类怎样适应这些变化,并进化出与之相配的系统。
在发声系统最基本的形式中,发出声音非常简单。图17显示了发声所涉及的结构。空气通过一根管子(气管)从肺部排出,管子上装有片状的发声褶皱(声带),它限制空气流动,当肌肉绷紧时就会振动。增加这种张力会增加振动频率,但是褶皱的长度会为频率设置下限,这导致男性声音的基频为125赫兹,女性为200赫兹,儿童则为300赫兹(或更高)。对男孩来说,青春期时的声带长度会突然增加,这就导致了声音的变化,即我们通常所说的变声。
图17 发音器官
低频声音从气管末端发出后,进入由软腭覆盖的声道后部,在声道的前面是硬腭,这样形成了一个腔,其中的声音形成名为共振峰(formant)的共振。元音的特征波长就在这里被设置好,然后通过抬高舌头来改变声道的体积,或将声道分成两个相连的腔来改变元音的波长。
辅音比元音涉及更多的发声器官,通常持续时间较短,而且在许多情况下,辅音在发声过程中就会发生变化。辅音主要有四种类型,分别由它们的发音方式来定义。
爆破音是因气流突然停止而形成的(因此它们的另一个名字是塞音)。摩擦音和流音则分别需要带有和不带有湍流的部分塞音。鼻音把气流转向鼻腔。滑音(半元音)包括从一个元音到另一个元音的快速过渡。如表4所示,这个命名系统的不同寻常之处是可以根据发音的位置对辅音进行细分。它同时也显示了辅音是否发声,也就是说声带是否参与发声。(腹语演员试图发出唇音或唇齿音的这一过程会出现需要抵抗嘴唇不自主开合的障碍。有技巧的腹语艺术家可以通过发这些音时加快语速,来规避这个问题。)
由于声道共振的波长只取决于其结构,所以改变声速就会改变这些波长的频率。因此,吸入氦气(密度为空气的14%)会发出“唐老鸭”的声音,而吸入氙气(密度是空气的4.6倍)会发出更为罕见的沙哑声。
表4 英语辅音
然而,如果我们只是用我们的发声器官说话,生活将是一件枯燥的事情。从生理学上讲,唱歌和说话没有什么不同,只是发声的每一个方面都受到了更精细的控制,音高常常与一个额外定义的值关联。吹口哨则不涉及声带,它需要在嘴唇周围产生湍流,将能量转移到声腔,声腔起着亥姆霍兹谐振器的作用。要大喊大叫,只需从肺部获得更大的空气力量即可。在窃窃私语中,发声器官的工作原理与正常说话时一样,只是这时声带既没有振动,也没有完全放松,因此当空气通过它们时,会产生湍流(这被称为内收)。由于更多的空气可以在声带之间通过,而不激发声波,所以低语必然是相对安静的。
我们的听觉系统比我们最先进的机器都要复杂得多,并且已经进化得非常适合我们,但大自然赋予我们的能力是有限的。除极少部分人外,我们现今所使用的通信技术中的声音,已经大大超过大部分人的发声或收听范围。正是为了满足我们对通信的需求,我们才利用电流,甚至是电子,来满足这一需求。第5章将围绕如何实现这个功能而展开。