牛津通识课：语言学入门(斯蒂芬·安德森)_第五章语言种类统计的一些问题（1 / 1）_牛津通识课：语言学入门最新章节免费阅读无弹窗

在第二章中，我们比较了世界语言的使用人数，还比较了不同语系和地区的语言数目。两次比较的数据来源都是目前最权威的“民族语”，并且两次都假设计数方法相对清晰，计数行为意义深远。但事实上，这些默认的假设是否真正如此，远没有那么简单。

语言使用者的计算

说到语言使用者，有一点不得不提，那就是“民族语”中所列数据实际上是“世界范围内将该语言作为第一语言的使用者人数”。对一些“小”语种来说，这些数据的确可以反映该语言在现代人类中的重要程度，但有时候情况却没有那么简单。“民族语”所列的英语使用人数为3.28亿，这个数字将把英语作为第二（第三，等等）语言的1.67亿人全都排除在外了。印地语使用人数为1.82亿，这一数据也忽视了一个事实，即无论是使用人数还是使用频率，该语言的非母语使用者跟母语使用者均相差无几。

有的官方数据也考虑到了这些复杂情况。瑞士2000年的人口普查就问了两个语言相关问题：你最熟练掌握的语言是哪一种？你日常使用的是哪一种语言？以瑞士第四种官方语言罗曼什语为例，共有3.5万人称其为最熟练掌握的语言，“民族语”即采用了这一数字。但如果算上将其作为日常使用（居家、学校、办公）语言的人，这一数字会增加到6万，普查结果也提及了这一点。

在这方面，阿拉伯语的情况尤其复杂：将各种通俗阿拉伯语的变体全部相加，“民族语”所列数字为2.21亿人，尽管号称是阿拉伯世界第二大用于“教育、官方用途、文字材料以及正式演说”的语言，现代标准（书面）阿拉伯语也并未进入世界“最大”语言的榜单。同样地，因为伊斯兰教的关系，虽然很多人多多少少都会说点古典阿拉伯语，但该语言也未能进入榜单。因此，世界上到底有多少种语言？我们很难给出一个量化的确切答案，因为计数方法在很大程度上依赖于政治和社会因素。

数国旗

说到语言的数量，“民族语”的6909种显然不是一个准确数字，但说这话的前提是我们了解世界语言种类的计算原则。可能有人认为产生误差的原因跟其他普查差不多：可能“民族语”的计数员敲门的时候有的语言刚好“不在家”，或者是有些语言重名弄得我们很难确定它们到底是同一种还是好几种。但从理论上说，这些问题都可以解决，并且这样产生的误差应该不会很大。事实上，区别两种语言更多的是社会和政治因素，而非语言因素，并且“民族语”所列的很多数字所存在的更多是看法而非科学层面上的问题。

“民族语”的编者当然知道这些，他们在前言部分也对此有所说明。例如，关于语言个体的问题，他们提到：

语言的定义取决于定义语言的目的。有些人以纯粹语言学标准为依据，而有的人认为社会、文化和政治因素也应该被考虑在内。除此之外，关于到底什么才是语言独一无二的因素，语言使用者自身都有各自不同的看法。很多时候，相比语言因素，他们会更多考虑与传统和身份相关的因素。

但为了呈现数据，他们总得做些选择，而他们的选择也不无道理。有一点我们必须明确，他们的数据既非完全客观，也并非不可挑战。“6909”是看待世界语言多样性的一种方式，但同时也存在其他方式。本章的目标就在于考察造成这一问题困难重重的一些复杂因素。

已逝的马克斯·魏因赖希（Max Weinreich）过去常说：“a shprakh iz a dialect mit an armey un a flot.”（所谓语言，不过就是拥有陆军和海军的方言）。他这话其实是在说意第绪语，因为没有与任何政治上的重大实体相联系，意第绪语长期以来都被认为是一种方言。把魏因赖希的妙语改一下，可以说：“所谓语言，不过就是拥有国旗的方言。”语言对应的是国家，而方言对应的是部落、城镇或是其他不太重要的群体。所谓欧洲“语言”和非洲“方言”，也存在这样一种暗示。语言要成为“语言”而不只是一种“方言”，通常都要具备国家、经济、文学传统、书写体系以及其他诸如权力、权威和文化等“配置”，纯粹的语言本身反而没那么重要。

例如，中国的广东话、客家话、上海话以及其他“方言”都属于汉藏语系，并且相互之间（尤其是同占支配地位的普通话相比）差异很大，如同罗曼语言中的法语、西班牙语、意大利语和罗马尼亚语之间的差别。这几种语言的使用者相互之间无法交流，但它们都属于“方言”，因为它们都与同一个国家相联系，共享一套书写体系，都在政府明确的政策规定中。同罗曼语言一样，可以将其细化为几个次级分组，归入不同的语系，主要部分见下页图8。这张地图只显示了最高级的语系分类，汉语普通话的使用范围覆盖了几个不同的次级分组。

汉语语言的不同之处涉及语言结构的方方面面，至少包括发音、音系、单词结构、句法和词汇。汉语的方块字对应词汇整体（或部分）而非直接对应其发音，从某种程度上来说，这种书写体系掩盖了上述语言结构的不同之处，发音不同的词在书写方式上完全相同。事实上，某些汉字只存在于某种语言中，书写体系并非如描绘的那般放之四海而皆准。但即便如此，在表达方式的多样性上，这一体系也比世界任何体系都更加包罗万象。

图8.中国汉语方言分布地图（大图请查看P202）

汉藏语言（普通话）——8.36亿（全世界）；晋语（通常与普通话一组）——4500万；吴语——7700万；徽语（通常与吴语一组）——3200万；赣语——3100万；湘语——3600万；闽南话（包括台湾话）——6000万；客家话——3400万（全世界）；粤语——7100万；平话（通常与粤语一组）——2000万）

虽说词汇只是语言的一个方面，但相对更容易呈现。为了说明汉语语言之间的差异，表6列出了一些日常词汇在不同语言中的差异。所有汉语语言的声调都各具特色，且发音与所标注音标也并非完全对应。表6没有呈现出来这些，但还是能帮读者大致了解汉语语言的差别到底有多大。

公认的“中文”（作为一个涵盖所有汉语语言的概念）其实建立在共享的书写体系、作为共通语的普通话的标准形式以及现代中国的政治统一体这些因素之上，单独的汉语方言没有各自的“国旗”“陆军”和“海军”。

相反，印地语和乌尔都语本质上属于同一体系（早先统称为“印度斯坦语”），但二者分属不同的国家（印度和巴基斯坦），拥有不同的书写体系和不同的宗教信仰。虽然在印度和巴基斯坦，受过良好教育的使用者之间的语言差异明显大于方言土语，但这种差别跟普通话和广东话的差别比起来仍然不大，甚至可以说是小巫见大巫。

表6　不同汉语语言词汇发音差异

这方面的一个极端例子是塞尔维亚-克罗地亚语（Serbo-Croatian）。该语言通常（直到20世纪90年代早期）被认为是一种单一语言，拥有不同的地方方言和书写体系，使用区域为南斯拉夫大部。塞尔维亚人（大部分属于东正教）使用西里尔字母，而克罗地亚人（大部分为罗马天主教）使用拉丁字母。南斯拉夫作为一个政治统一体，在分裂后的几年之内至少出现了四种新的“语言”（塞尔维亚语、克罗地亚语、波斯尼亚语和最近出现的黑山语）。但实际的语言学变化微乎其微，只是“陆军”和“海军”数量大幅增加了。

现在这四种语言都分别有自己的字典，虽然这些字典上的语言材料同先前的“塞尔维亚-克罗地亚语”并没有什么区别。塞尔维亚前总统斯洛博丹·米洛舍维奇曾因战争罪在海牙受审，按照程序，他要确认法庭已经用其母语宣读起诉书。他承认他能够理解起诉书中的指控，却否认法庭宣读使用了其母语。很显然，宣读人员带有波斯尼亚口音。

语言和方言

世界语言知多少？答案（假设这个问题有意义并且确实有一个答案）或许介于“民族语”的6909和数十亿之间——每个人的表达和理解能力多多少少都与他人不同，并且很多人会使用不止一种语言。因此，世界上有多少人就会有多少种语言。要想进一步了解具体情况，首先需要分清“语言”和“方言”到底有何差别。

这可不是什么诡辩问题——很多人认为二者的区别会对世界产生实实在在的影响。这一点从1996年加利福尼亚州奥克兰学校董事会决议争议事件中就可以看出来。争议主要围绕非洲裔美国学生的教学语言展开。该决议（1997年修订版）申明：“作为非洲人文化和历史的一部分，非洲裔美国学生拥有并使用的英语在不同的学术场合分别被称为‘黑人英语’[1]或‘泛非洲传播行为’或‘非洲语言体系’；非洲语言体系源于西非和尼日尔-刚果语族而不仅是英语的方言。（强调部分为原文形式）”并在政策声明中阐明了他们所理解的语言上的证据：“一是非洲裔美国人在其语言的基础层面，保留了西非和尼日尔-刚果非洲语言的结构；二是以此为标准可以判定，他们并非黑人语言或其他任何英语方言的母语使用者。”

这件事可没有看起来那么简单。我们无须过于在意诸如当代非裔美国英语与非洲语言的关系，而应注意到上例中，学生使用的语言是自成一个体系的，与通常认为的“标准英语”截然不同。自20世纪70年代开始，语言学研究就从音系学、形态学、句法、词汇等多方面详细对“黑人（地方）英语”或“非裔美式地方英语”进行了探究并得出了上述结论。奥克兰学校董事会决议的争议之处在于，该决议坚称黑人英语并非“仅仅是英语的方言”，而是自成体系的一种语言。因此在教育体制中，该语言应该同西班牙语、日语和苗语一样，享有作为学生中非英语使用者的母语的权利。这一说法可以从两方面得到支撑：一是将该语言同一种独特的文化身份相联系；二是专门将其命名为同“英语”没有关联的“黑人英语”。

由此看来，认可一种语言体系为语言而非（另外某种语言的）方言，具有重大的社会和政治意义，这是完全独立于不同体系之间的语言性差别。将语言与某个独立的政治或社会实体组织相联系，为其单独命名，使其与其他语言的关系最小化等行为，都会将其地位从“方言”变为“语言”，进而使该语言使用者的地位和权利合法化。用“英裔爱尔兰语”代替“爱尔兰英语”即是如此，目的是为爱尔兰裔的英语使用者争取权利。同样，用“南非荷兰语”来称呼南非及世界其他地区荷兰语使用者后裔的语言也是如此。

但是，在计算世界语言种类的时候，我们是否可以基于其同社会和政治实体组织的联系，把“黑人英语”“英裔爱尔兰语”看作独立于“英语”的语言单独计算，而把诸如新英格兰缅因州、阿巴拉契亚山脉、多塞特郡、约克郡等地的（英语）方言仅仅看作“英语”的一部分呢？如果真这样处理，那我们所描绘的绝非真正的语言分类情况，而是一个超出语言学范畴的问题。从严格的语言学意义上说，不同语言、不同方言之间的界限不过是一个程度不同的模糊概念，并不成体系。到现在应该清楚的是，语言体系之间的差异程度各不相同，将有些看作“语言”而把另外一些看作“方言”，对于我们了解这些不同并无益处。

分辨语言

判断我们遇到的是不同语言而非同一种语言的不同形态有一个常识性的标准，即谈话双方是否能互相理解：如果A的使用者能轻松理解B的使用者所说的话，那么A和B肯定是同一种语言。“民族语”在区分语言时主要采用的就是这一标准，不过在实施时没有一以贯之。例如，在记录瑞士的语言时，将“瑞士德语”作为一种独立语言区别于标准德语存在，但同时又标注“每个州又有各自的变体，很多都无法互相理解”。事实上，瑞士德语的变体比瑞士的行政州还多，有的相互之间确实无法理解。如果要将上述标准推行到底，那这些瑞士德语的变体都应该被看作单独的语言。但显然，这样分类是有问题的。

事实上，根据是否互相理解来区分语言与第一章中提到的“生物种”概念类似。基于这个标准，生物在不能共同繁殖时则被归为不同物种。虽然被广泛接受，但这个标准也不是没有问题。有些问题是生物界特有的，例如马和驴分属不同的物种，但二者却可以通过**繁殖出骡子（英语中公驴和母马所生为“mule”，公马和母驴所生为“hinnies”）。而骡子无论是与马、驴还是相互之间，都无法繁殖后代。那这些骡子该归属哪个物种呢？有一小部分母骡确实与公马或公驴一起繁殖了后代，这会对分类有影响吗？幸运的是，在语言中我们无须面对类似的困境。

如同生物物种概念无法将生物清晰分类一样，互相理解力的标准在实际操作中也无法将世界明确划分为不同的语言单位。当然，相似之处远非完全对等。语言间的互相理解更多是一个理解程度问题（说加泰罗尼亚语和说西班牙语的人若不了解对方的语言背景就不能完全理解对方的话，但他们彼此沟通起来肯定比跟只会说日语的游客沟通要容易得多），而生殖隔离却更多是一个绝对问题。即便如此，二者之间仍有一些有意思的相似之处。

有时候，A的使用者可以理解B，但反过来却不成立，或者至少B的使用者会坚称自己不理解A。这种不对称性可能并非虚言。在斯堪的纳维亚语言中，以丹麦语为母语的人通常声称能够听懂大部分挪威语。这倒也不奇怪，因为在16世纪到19世纪初期的300年间，挪威受丹麦统治，丹麦语作为标准语在挪威使用，挪威语即起源于此；但反过来，以挪威语为母语的人理解现代丹麦语的能力却差了很多，这可能是因为在经过了一系列语音变化之后，丹麦语的表层语音形式早已与以往不同。

除了能说明以互相理解力作为语言分类标准存在种种问题，斯堪的纳维亚语还能帮我们理解语言中和生物分类类似的一个问题。相较于瑞典语，虽然历史上丹麦语和挪威语关系更近，但从理解程度来说，瑞典语和挪威语其实更为接近，丹麦语反而不伦不类。同样，物种的生物学概念也和历史没有关系。现在假设有一群人，他们之间的关系如下图所示：

假设以上图中的分支点来表示这群人特征性状方面的突变,这些突变还不足以打破A、B、C、D成员间的繁殖能力。现在假设D进化出一种新的特征并打破了原先的繁殖能力。如此一来，A、B、C之间仍然可以繁殖，但D却遭遇生殖隔离。从生物物种的概念来看这一结果：A、B、C属于同一物种，而D属于另外一个物种。这种分类结果与历史关系完全相反，因为其实C和D之间的关系要比C与A或B的关系更接近。这种情况与刚才讲到的斯堪的纳维亚语言多少有点相似之处。

在另外一些情况下，相互之间不理解与语言自身的客观事实无关，而是植根于社会和文化态度之中。例如，保加利亚人认为马其顿语是保加利亚语的一种方言，但马其顿人认为它是一种独立的语言。1995年，马其顿总统格里戈罗夫访问保加利亚。虽然时任保加利亚总统的哲列夫宣称他可以听懂格里戈罗夫说的所有话，但后者还是带了一名口译员。在签署一项协议时，格里戈罗夫坚持认为该草案应该“用马其顿语言书写”，签字仪式也因此夭折。

再举一个没有那么“高端”的例子。卡拉巴里语和嫩贝语是尼日利亚的两种语言，均被一些学者视为东伊交语（Eastern I·j?）的表现形式。嫩贝人声称可以毫不费力地听懂卡拉巴里语，但相对强势的卡拉巴里人却把嫩贝人当成乡下的“穷亲戚”，认为他们说的话是高贵的卡拉巴里人听不懂的。

我们之所以说无法通过互相理解力的标准确定世界上有多少种语言，还因为方言连续体的存在。在德国、瑞士以及“比荷卢”（比利时、荷兰、卢森堡）的广大地区，人们都使用西日耳曼语，相邻地区之间的语言仅有细微差异，相隔较远的地区之间却差异显著。举个例子，假设你从阿姆斯特丹出发，步行约300英里到达法兰克福，每天约行走10英里。可以确定的是，每天早上为你提供早餐的人和当天晚上为你提供晚餐的人互相之间可以听懂对方说的话。但是，旅行起点的荷兰人和终点的德国人要想互相理解就没那么容易了，他们肯定自认为他们说的是两种不同的（即便是相互联系的）语言。他们会有这种感觉，部分原因在于这中间隔了国界线，国旗不一样了。不过，在他们真正跨过国界线时（比如，经过马斯特里赫特和亚琛之间的时候），语言之间的变化（相对于其他方面，比如公路标志的变化）可能比其他时候也大不了多少。

在世界的某些地区，这样的连续体可以绵延上千英里，连续体上相邻地区的居民可以互相理解，但处于两端的居民之间却是“鸡同鸭讲”，西澳大利亚沙漠地区就是如此。在这种情况下，语言种类又该如何计算呢？

类似的情况在生物界也同样存在。生物界的“方言连续体”是指生物体的集合，被恩斯特·迈耶（Ernst Mayr）称为“族圈”。这方面的典型例子就是俄勒冈州和加利福尼亚州发现的蝾螈亚种（剑螈属）集合。如图9所示，这一物种显然起源于北方，一路沿着加州中央谷向南扩展，扩展过程中虽然形态发生了变化，但种群间的某些基因仍然得以保留。但到了最南端，当内陆品种和海岸品种相遇时，彼此之间却无法**。

族圈的存在还有一个经典例子是北极副极地地区的海鸥（鸥属）族群。目前这一物种的准确数量存在争议，但可以确定的是，西伯利亚鸥同美国鸥**，后者又与英国银鸥**。与此同时，西伯利亚鸥也与欧洲的鸥类**，一路向西延伸到小黑背鸥，整个族圈内都有基因流动。但银鸥和小黑背鸥之间却无法**。

图9.加利福尼亚州蝾螈亚种剑螈属分布（从上到下依次为皮克塔剑螈、俄勒冈西斯剑螈、螺旋藻剑螈、黄花叶剑螈、克洛斯特剑螈、埃施沃尔齐尔剑螈、卡拉贝利剑螈，黑色区域为杂交区域）

青藏高原的亚洲森林中也有一个族圈，语言学家对此颇感兴趣。这个族圈的主要物种为暗绿柳莺（拉丁文学名：Phylloscopus trochiloides），是一种鸣鸟。同上述族圈一样，相邻种类可以相互**，但族圈两端的种类却无法**。对语言学家来说，这个案例中暗绿柳莺**失败的原因很有意思。它们无法**的部分原因在于无法通过识别对方的歌声来判断其所属品种。彼此无法互相理解，因而造成了生殖隔离。

这种相互不理解对语言分类又有什么影响呢？其中一个问题我们在第三章已经讨论过了，那就是语言会随着时间推移而变化，到底什么才是“同一种”语言。我们把乔叟（15世纪）、莎士比亚（17世纪）、托马斯·杰弗逊（19世纪）和乔治·W. 布什（21世纪）的语言统称为“英语”，但毫无疑问，他们之间并非完全可以相互理解。莎士比亚还能勉为其难地和乔叟或杰弗逊说上点话，但杰弗逊（当然还有布什）要想跟乔叟交流，就必须带翻译了。语言会随着时间推移不断演化，相邻时代的人能互相理解，但最终会形成不同的体系。要解决这个问题，必须通过第三章提到的语言的“系统发育”，这和生物学家研究物种进化史非常相似。

如此看来，要想给语言分门别类可没有表面上看起来那么简单。政治和社会因素胜过单纯的语言现实，而以相互理解为标准又困难重重。

[1]　“黑人英语”英语原文为“Ebonics”，音译“埃波尼克斯”与英语“English”发音截然不同。