PǔTōNGHUà
13亿使用者
以汉语(普通话)为母语的人大约有9亿,比其他语言更多,此外还有4亿人以之为第二语言。中国大陆、中国台湾、新加坡和马来西亚是使用汉语(普通话)的主要国家及地区。过去,大多数华裔血统的移民使用普通话之外的其他汉语方言。今天,华人移民大多使用汉语(普通话)。
孔子 自2004年以来,中国通过孔子学院积极推动汉语学习。截至2017年底,孔子学院在142个国家开办了516家分支机构。按该机构的说法,此前13年里,超过700万名学生修读了汉语言课程。从21世纪初以来,在这些机构之外,学汉语的受欢迎度也大有提升。
2 汉语(普通话)
神奇的汉字
如果说,西班牙语是本书介绍的语言里最容易学的,汉语和日语恐怕要算最难学的。掌握汉语的声调,需要坚持不懈的努力,而错综复杂的日语敬语,也不太可能一下子就变成你的第二天性。然而,要不是因为它们书写系统复杂至极,它们大概不会跻身全世界最难学的语言之列。[1]在现代世界,再没有其他语言系统需要小学生和第二语言学习者去记忆更多的书写符号了。毫不夸张地说,汉字就像是围绕汉语的长城——诚然不是坚不可摧,但绝对叫人望而生畏。日语使用的字符尽管较少,但也找到了增加复杂性的巧妙方法,我们将在本章附录部分欣赏这一壮举。
如今,在西方的餐馆、报摊、互联网、包装材料,以及脖子、胳膊、脚踝、后背和人体其他部位(而且这种趋势越来越多)上,西方人很容易看到汉字的身影。用汉字文身却文出了意外的段子,这样的笑料早已众所周知:人们在他们的皮肤骄傲地宣称“疯狂腹泻”或者“棺材老兄”,还有一些人认为文字符毫无意义,或根本是上下颠倒。好在全世界绝大多数人看不出其中的差别。
我们当然没办法认识数百甚至上千个汉字(这需要几年的时间学习),但对其略知一二还是可行的。可不知什么原因,哪怕经过了数百年的接触,西方对中国文字的观念仍然为误解所缠绕。日语教授马歇尔·安戈(J.Marshall Unger)曾写过一本关于汉字的书,他说:“世界上恐怕没有哪门学科像汉字那样有这么多错误信息在传播,产生了那么多的误解。”让误解难以消除的关键在于,它们大多的的确确触及了真相的核心。我会首先提到这些核心,接着剥去不准确的外壳。
汉字(或日语)文身太容易搞错了。但上图是没问题的:这个字符的意思是“梦”或者“雄心”。
1.汉字书写是从上至下的
真实的部分:传统上,中文的确是按从上到下、从右到左的顺序书写的。如果没有纵向空间(比方说某些牌匾上),单行的文字也会从右往左书写。在今天的中国台湾、中国香港和海外华人社区,在报纸和书籍上从右向左纵向书写的方式仍不少见。采用这样排版的书籍,装订线也会在右侧,就跟阿拉伯语和希伯来语书籍一样。
在图书的书脊上,标题从上往下书写,每个字符的方向都是垂直的。这跟英语和其他欧洲语言的做法不同,后者的标题大多会旋转90度:英语、荷兰语和斯堪的纳维亚语的标题大多按顺时针旋转,但法语和西班牙语的标题则通常逆时针旋转,而德语似乎从来没拿准过主意。
但不只如此:如今,大多数中文都是从左往右横向书写和打印的。在中国大陆,别的顺序几乎找不到了;在其他地区,这种做法也越来越普遍。
2.汉字基本上就是图画
真实的部分:有些汉字是格式化的图画或物体,又或是相当直观地形象化表现概念。用不着太多的想象力,就能琢磨出“人”字表现的是一个人的两条腿,“二”字和它含义(两个)之间的关系。虽说不太明显,但我们很容易相信“木”字最开始是为了画出一棵树(这的确就是这个字的含义)的说法。另一些字符比较难以看出根源,比如“水”字。但有充分的历史证据表明,它最初的起源符号,是一条蜿蜒的河流,并以四点水滴或漩涡为装饰。
其他字符不是单一的象形文字或表意文字,而是两个或两个以上的偏旁合成。范例包括用两棵树(两个“木”)表示小树丛——“林”,三棵树表示“大树林”——森[2]。这一类字眼里经常拿来做例子的还有“休”,意思是“树荫”或“休息”:在树的左边,我们看见了“亻”(它是上面的“人”字符斜向一侧)。那么它想要表达的概念就是“人在树荫下休息”——这真是一个简洁而动人的解释,以至于许多专家认为它根本就是个故事。
现存为数不多的象形文字中蕴含着许多有趣的东西。据专家介绍,“蛋”的汉字“卵”所表现的东西,在阿拉伯语、俄语、西班牙语、德语和其他语言里都称作“子”(eggs),而在英语里称为“坚果”(nuts),但又不是从树上长出来的物体。
出于同样不太牢靠的研究,“母”字将“母亲”或“女性”的概念简化为一对立体派风格的胸部,并保留了完整的两颗**。又或者,从童稚领域来到数学,让我们猜猜“八”这个字为什么是这个样子。词源学家都同意,这个符号最初的意思是“分开”。有人声称,“八”也由此有了数字“8”的意思,因为这个数字太好分割了——它甚至能均分三次,因为8=23。这难道不是个十分可爱的解释吗?然而,主流学派认为,在历史上的某个时期,“分”和“八”的中文是同音字——也就是说,它们发音一样。
还有一个由两个象形符号组成的文字:兄(哥哥)。上面的方形是一个常见的元素,意思是“口”,而顶着它的两条腿,是“儿”字的变体。故此,“兄”就表示一个“有大嘴巴”的孩子。显然,在这个定义里,年长的兄弟就是对年幼弟妹发号施令的孩子。
但不只如此:绝大多数(大约98%)的汉字不是象形文字或类似的表意文字。不管你怎么使劲花时间观察它们,也无法根据任何跟现实生活中的相似之处琢磨出它们的意义。如果你能,那你只能感谢自己的创造力,因为它们并不是这么来的。
3.汉字已经存在了3500年
真实的部分:现存最古老的汉字铭文可追溯到公元前1500年,而自此以后,汉语的书面文字一直在发展,从未有过中断。故此,这么说是正确的:在中国,书写已经存在了3500年甚至更久。因为从最古老的出土文物可看出,它不是发明家试探性的不规则涂鸦,而是出自一位自信满满、使用成熟系统的书写者。
但不只如此:现代汉语读者无法理解这些古老的文字,因为最早的字符与今天完全不同(除了极个别的例外,比如“二”)。双方的差异大到在发现了最早的铭文之后,学者们用了好长一段时间才弄清它们代表了汉语书面文字。
但,且慢!如果汉语书面文字有着悠久且从未中断的传统,那么这本身不就证明了汉字已经存在了3500年的说法是正确的吗?没错,这是一种阐释方式。但要是按这种算法,拉丁文字存在的时间更长了——至少3800年,长可至5300年。这是因为拉丁字母从公元前1800年左右的近东地区(埃及或迦南)设计出第一套之后,同样未经中断地一直传承下来。第一套字母表主要由埃及象形文字(准确地说,由埃及象形文字里代表单个发音的一个小子集)构成。如果说象形文字可追溯到大约公元前3300年,照这样算,拉丁文字就有5300年的传承了。
诚然,这里有一点不同:在中国,书面文字和语言都经历了同一个逐渐发展的过程,而“我们”呢,这种说法只适用于书写系统。从埃及到近东、希腊、罗马,再到这本书,西方的书写传统从一种语言跳跃到另一种语言,甚至从一种语系跳跃到另一种语系,而且还跳跃了好几次。
4.汉字有50 000个
真实的部分:50 000这个数字,大概是根据1076年、1716年和1915年出版的3部著名字典计算出来的,它们每一部所包含的汉字都在47 000~54 000个。迄今为止,包含了最多数量汉字的出版物是2004年在中国台湾出版的《中华异体字字典》(Dictionary of Chinese Variant Form),内中收录了多达106 230个汉字。
但不只如此:这些字典里的许多字符仅在当地使用,或是特指高度专门化的含义,例如,只跟帆船匠人或者竹笛演奏者相关的字。还有一些字符是其他较常见字符的罕见或非常古老的写法。把它们都计算在内,就相当于说plough和plow(都是“犁”的意思)是两个不同的英文单词;thilke也是一个独立的单词,因为它在乔叟时代就存在了(它跟ilk相关,意思是现代英语里的“that”或“those”)。在2004年的那部厚厚的大字典里,最多只有1/8的汉字今天还在使用。即便如此,这也并不意味着一个受过教育的中国人能认识13 000个汉字——哪怕他只认识这个数字的1/4,也没什么可害臊的。不过,字体设计师必须确保所有的字都能打出来。
5.方块字无从表明任何发音线索
真实的部分:方块字不是可靠的、系统的发音指南。老师说,刚开始学习汉语普通话的学生,只能一个字一个字地死记硬背正确读音。
但不只如此:大多数方块字都包含了读音线索。当然,不是所有线索都是正确的,而且这些语音线索也并不像人们想的那么牢靠,但至少它有点用。让我们用教科书最喜欢用的例子——“妈”字,来说明这是怎么回事。这里你必须知道的一点是,跟其他大多数方块字一样,它由两个元素构成。其中一部分在本例中,最左边的1/3是一个窄版的“女”字,意思是“女性”。这其实是“妈”字的来源,但还有一点必须要理解的是,如果某样东西来自一个方块字,它就不再是方块字了。一个方块字,包含两个部首(characteristics),它写在纸上,多多少少会变成方形,而且要发音。后者似乎是陈词滥调,但其实反而是问题的核心:“女”字本身要发音,但变成窄版的“女”字旁之后,就不发音了。至于右侧2/3的部分,是一个瘦版的“马”字。
现在,如果你不熟悉中文书写,你可能会怀疑“妈”的意思是“女的马”,也就是“雌马”。但这套系统不是这么运转的。处理这类复合汉字(中国人叫它“形声字”)的正确方法是,找到一个词,发音与它的一个组成部分相似,又有着与另一组成部分相关的含义。在本例中,“女性”元素给出了语义线索,“mǎ”元素提供了有帮助的语音信息:故此,待议方块字的意思是“母亲”,它的发音是/mā/,与“马”相同,只是声调不同。
练习阅读和书写汉字靠的是重复、重复,不断的重复。不过,如今人们越来越多地使用键盘来“写”字了。
当然,中国读者碰到“妈”字,不会每次都这样解决这道谜题,他们打小就把它记住了,所以现在他们就是知道。但至少,这仍是一道待解的谜题,而且它有助于中国孩子和外国学生记住该方块字。(顺便说一句,这种复合字符还澄清了另一个常见误解,也即“大多数方块字并未透露其含义”。)
当然,对不是复合字的方块字(比如“马”字),这种方法就不够用了,用语言学家莫大伟的话来说,它们“悄无声息地在纸面上坐着,威风凛凛”,“只有通过无数个小时的重复练习,才能记住”它们的发音。它们的词义也是一样,除了那些给出视觉线索的方块字。“马”字其实给出了视觉线索,因为它是从一匹马的形状演变而来的。四条腿(馬)依然清晰可见,右下角的笔画曾是一条尾巴。
这听上去似乎很容易(虽然按我的猜想,恐怕没几个人会觉得如此),这套双重线索系统还存在一些问题。其一是,哪一部分给出哪条线索并不清楚。在复合字里,语义成分既可以在左边(如“妈”的“女”字旁),也可以在右边(如“汝”),还可以在下边(如“婪”)、在上边(没找到合适的例子,女字似乎不得在上),甚至可以围在里边(如“威”)。好消息是,语义线索的数量是有限的:大多数线索(包括“女”字旁),都属于一份200来个偏旁部首的清单里。[3]故此,除非一个方块字同时包含了两个语义成分(这种情况并不罕见),否则,语义线索是可以辨识出来的。
另一个问题是,方块字的发音和它语音线索的发音之间,存在很大的可变性。有时,一切很完美,语音线索和实际发音一样。还有一些状况也可以接受两者的辅音和元音都一样,只是声调不同。“妈”就是这样,它的语音线索(“马”)发三声,而不是一声。但两者的相似之处往往存在很大的阐释余地。“闻”就是一个很好的例子。我们看到下边是一个微型的“耳”(它起源于一只耳朵的图画),发音跟英语的ear非常类似,读作ěr。它是“闻”字的语义元素,过去用来指“听”,但现在意思转移到了“气味,嗅”,这种情况真是令人不解。这个字的上半部分是清晰可见的“门”字,如果作为独立的方块字,它读作mén。但现在,它只是个语音线索,而且还是个不合格的语音线索,因为这个复合字读作wén。在历史的某个阶段,这两个方块字的发音大概更为接近,或许分别发音为/mu?n/和/miu?n/。不幸的是,它们渐行渐远,给我们留下了一个非常不完美的语音线索。
这远不是最糟糕的情况。还有些字的发音发生的变化太大了,根本无法识别出最初的相似性是什么。一些人相信,“休”(“荫凉”或者“休息”的意思)字背后的故事就是这样:不是一个人在树荫下休息,而是某个发音上的相似性,只可惜我们再也找不回来了。倒不是说这会削弱故事的吸引力,而是说,作为记忆工具来说,它没那么有用。
6.字就是词
真实的部分:实际上,所有的方块字都是有意义的,不像一些英语音节,比如der,本身并不表达任何意思,只充当单词的一部分(wonder、derby等)。许多方块字,在汉语(普通话)里都可以当作单词使用,或作为复合词的一部分。还有一些字,在现代语言里已不再常用,但在汉语的地域变体或历史变体中是常用的。
但不只如此:大部分汉语(普通话)词汇是复合词,由两个或两个以上的方块字构成。在今天的汉语里,大约88%的词语由不止一个方块字组成。在正文中,两个或两个以上方块字构成的词语所占比例较低,因为代词、介词和其他虚词等数量有限的单字词语出现得非常频繁。但在名词、动词和形容词中,单个方块字是极少的。
以“橡树”一词为例。第一个字“橡”可以单独视为一个词语,意思是“橡树”或“橡子”;第二个字的意思是“树”或“植物”。然而,一般来说,如果要指特定的这种树木,人们通常会使用复合词“橡树”而非单字“橡”。这是因为,“xiàng”这个发音下还包含了其他很多含义,如“雕像”“朝向”“大象”和“脖子”(颈“项”)。不过,因为所有这些同音字都对应着不同的方块字,故此,在纸上光写个“橡”字也就足够了,因为只有它,指的是树(或“橡子”,意思是“橡树的儿子/或橡树的蛋”)。换句话说,“xiàng”有很多不同意思的同音字,说话时必须要阐明澄清,故此,人们为它加上了“树”。在书面上,这不见得随时需要,因为“橡”本身包含了所需的一切信息。但现代汉语(普通话)遵循口语,故此,“橡树”这个词用两个方块字来表示。不过,直到20世纪初,人们在书面语言里仍然经常省略“树”字,因为它当时以古典汉语而非当代口语为基础。
(顺便提一句,请注意,复合字和复合词是非常不同的两种东西。在第5条之下,我们看到指代“母亲”的“妈”字是个复合字,由一个语义成分加一个语音成分构成,但它不是一个复合词,因为它只由一个音节构成:mā。而在第6条下,我们遇到了“橡树”这个复合词。它由两个完整的方块字构成,而且两者都需完整发音。构成这一复合词的两个字,同时也都是复合字,但这只是巧合。)
7.所有的汉语分支,都采用相同的书写方式
真实的部分:直到1956年,各种汉语地方语言的使用者都使用(几乎)相同的汉字,并且通常有着相同的含义。故此,来自两种不同汉语方言地区的两个中国人(比如只会说普通话的北京人和只会说粤语的广东人),就算他们听不懂对方的语言,也能在书面上彼此理解。汉语下的方言差异非常大,人们说不定很难辨识出某个具体的单词,但只要把它写下来,问题就解决了。这就是为什么华语电影要配上中文字幕,比方说,以粤语为母语的人就算听不懂普通话,一般也能读明白。
直到今天,情况仍然基本一样,此外还多了另一个便利因素:所有人都在学校里学过普通话,因此,就算不会说普通话的人,也能读懂普通话。我们不妨用口音差异极大的英语母语人士,比如说阿巴拉契亚美式英语和说利物浦英式英语的人来做个比较。要是他们碰到理解障碍,也会把自己说的话写出来以澄清问题。当然,汉语普通话和粤语之间的差异比英语任何两种地方口音的差异都要大得多。
普通话(加英语)字幕是中国电影的标配。这是中国台湾地区的一部浪漫喜剧片,名叫《我的蛋男情人》(又名《爱情冻住了》),主角是一名厨师和他的狗。
但不只如此:汉语的不同方言,在书写时存在一些语法差异,比如词序和助词的使用。此外,一些方言,尤其是粤语,也针对普通话里没有的词语发展了特殊的方块字。另一方面,汉语的大多数方言很少会被付诸书面。
更重要的是,1956年之后,中国大陆简化了数千个汉字。与此同时,中国的香港和台湾地区保留了传统的繁体字。许多简体字的字形,跟繁体字不一样,有些人认得其中一种,但无法轻松认出另一种。
不过,总体来说,有关书面汉语的这个普遍观点,比本章所罗列的其他观点更站得住脚。
8.方块字很适合用来玩文字双关游戏
真实的部分:汉语普通话是玩文字双关游戏的理想语言,因为它蕴含着丰富的双关语资源:同音异形(义)字。
但不只如此:玩文字双关游戏的绝佳机会,并非来自方块字,而在于除了方块字之外的读音。在书面上,汉语(普通话)里的大多数同音异义词很容易区分。只要写出来,“the duck who orders a beer and tells the bartender ‘to put it on my bill’”[4]这样的双关笑话就根本站不住脚了,因为两个听起来同音的单词(如上文例子中,表示“喙”的bill和代表“账单”的bill),是用不同的方块字来表示的。
另一方面,在汉语(普通话)中,你偶尔可以使用一个不正确的方块字,与你打算说的那个字是谐音字,但仍能传达信息。这就像把The New World写成The Gnu Whirled一样,计算机会被卡住,但大多数人类读者不会,至少不会卡太久。
9.那有没有可能抛弃方块字呢
真实的部分:不可否认,学习读写方块字比学习字母表要花更多的时间,不光把汉语当作第二语言的学习者是这样,对以汉语(普通话)为母语的人来说也是这样。
但不只如此:就算能证明转换到拉丁字母表是一桩极度有益的行动,事情也很难按这个方向发展。这倒不是因为中国文化特别保守(如某些东方学的陈词滥调所说),这是因为所有的文化在书写方面都是保守的。哪怕是极小的拼写改革,也会激发强烈的情绪。重大改革只有在革命时期才会出现——比如凯末尔领导下的土耳其。
中国人坚守他们“糟糕的书写系统”(这是《美国高等教育纪事报》的评价),会不会也有正确的地方呢?替代方块字最显而易见的选择是拼音,这是1949年之后设计出来的一套拉丁音标系统,学习汉语(普通话)的学生(他们使用拼音主要是为了找出方块字的发音)和母语人士(主要用于电话和计算机上输入方块字)对它都非常熟悉。尽管拼音煞费苦心地标明了每个音节的声调,如著名的四胞胎mā、má、mǎ、mà,但它无法区分大量的同音异形字,也即发音(包括声调)完全相同只是写法不同的字。故此,拼音会比方块字的书写方式造成更多的误解。
照道理说是这样。但且慢,别着急下结论:拼音里有一样方块字严重缺乏的东西,那就是空格。在汉语(普通话)里,我们所说的同音异形字,大多是发音相同的音节,而非词语。用方块字书写时,一个字到底是单独的一个词,还是一个更长词语的一部分,并不太明显。而在拼音里却没有这样的歧义。早些时候,我们提到“xiàng”可以是“橡”“像”“向”“象”和“项”,但实际上,汉语(普通话)人士并不光说一个“xiàng”来指代上述任一概念。他们更常用“xiàngshù”来指代“橡树”,用“dàxiàng”来指代“大象”,“jǐngxiàng”指代“颈项”,“diāoxiàng”指代“雕像”,“fāngxiàng”指代“方向”。汉语拼音可以立刻把这些词识别出来,而在方块字文本中,它们有可能只是两个碰巧挨在一起的字而已。故此,拼音产生歧义的余地,比乍看起来要小得多。汉学家威廉·汉纳(William Hannas)引用汉语语言学家的说法,指出只有不超过1%的汉语词语是同音异义的。他们发现了70个单音节词语,总共有164种不同的含义,有可能造成真正的混淆,以及39个同音的多音节词语,涉及82种含义。考虑到拼音是一种高度规律化的拼写系统,发音具有二重性的词语(也即同音异义词),写起来也一样。
然而,这个问题很容易解决。欧洲语言也有同音异义词,想想英语里的there、their和they’re(“那儿”“他们的”和“他们是”), rode、road和rowed(“骑”“路”和“划桨”), here和hear(“这儿”和“听”)。汉语(普通话)的同音字很容易通过书写区分,比如加上一个不发音的字母等方式;morning(早晨)和mourning(哀悼)就是这样用不发音字母“u”来区分的。当然,这种辅助工具会提高孩子们学习拼音的难度。不过,跟记住方块字比起来,这还是太简单了。
甚至,根本就没必要增加这种额外的辅助工具。越南语同样有许多同音异义词。跟拼音不同,越南语甚至根本不对词语的界限做标记,因为音节通常都是分开书写的。即便如此,越南人似乎也对自己的书写方式感到满意。
10.现在,你已经知道关于方块字的所有知识了
恐怕并非如此。方块字跟其他书写系统的差异太大了,它们带来的问题,比我在这短短一章篇幅里能回答的要多得多。例如:在字典里,你会怎么按照某种顺序(请注意,我在这里没有使用“字母顺序”)来排列方块字所写的词语呢?(它涉及数笔画。)不把文字写出来,你怎样区分口语里的两个同音字?(提及使用该方块字的一个常见词语,类似“‘重量’的‘重’,不是‘种植’的‘种’”。)介绍一个方块字却不把它写出来,这能做到吗?(笔画本身有名字,但更常见的做法是将方块字的两个组成部分拆开来说,如本章第5个问题中所探讨。)布莱叶盲文怎么表现汉字?(用布莱叶盲文写拼音。)等等。
一经掌握,汉字可发挥出无限的创意用途:乐高玩具稍有挑战性,咖啡拉花师傅能为自己的艺术找到无限新思路。
此外,还有很多其他的迷思,包括:“每个方块字代表一个音节”(例外的情况有数百个,但官方并不接受大多数的例外),“人们不再创造新的方块字”(并非如此,人们仍在创造新的方块字,有些是正式的,有些是临时性质的)。此外还有一条:“日语同样是用汉字书写的”。
真的吗?这是个值得单独用上一章来探讨的问题。
附录 再谈日语
一套缺乏系统的书写系统
如果伦敦的国王十字车站可以有一个9?号站台(真的不只是在小说里),一本书当然可以有一章叫2b吧?我在这里插入一章的原因是,在进入世界上使用范围最广的语言之前,我想再谈谈另一位小号巨人——日语。这种语言有一个与众不同的地方,它的体系(既非魔法也非虚构)绝对比任何咒语、诅咒或魔符都更难学、更繁复。这里,我说的是日语的书写。我没有在“第13名 日语”一章中讨论它的原因在于,它以中文方块字为基础,我们前面已经看到过,这本身就是一项很大的挑战。
“以中文方块字为基础”,不应阐释为“跟中文方块字几乎相同”,因为日本文字比汉字有着更多的死结和疙瘩——多到人们普遍认为,日语的书写系统是目前最为复杂的书写系统。那么,就让我们直接走近这堵看似不可逾越的日本文字之墙,看看我们能不能神奇地翻墙而过吧。
日语里的汉字(Kanji)以及它们怎样发音
日本最早的文本完全用中文方块字书写,它是公元5或6世纪由韩国学者引入的。和不再使用汉字的越南语和韩语不同,日语从未替换汉字,而是增加了一些插件。建立在中文方块字基础上的书写系统,绝不可能简单。但由于日语和汉语(普通话)在结构与基本词汇上都有着根本性的不同,汉字本来并不特别适合日语。故此,用汉字书写,对日语产生了深远的影响。
那么,日本人决定使用中文方块字之后(也叫作“汉字”,日语发音为“kanji”[5]),发生了些什么情况呢?首先,汉字的发音线索丧失了。如我们在前一章所见,大多数汉字由语义和语音成分(为读者提供了解其意思和发音的线索)组成。在日语里,语义成分保留得很好,但语音部分就不行了。毕竟,这些字符现在要用来表示日语而非汉语单词,在一种语言里发音相似的词语,在另一种语言里可不见得非得发音相似。跟我们回到经典的例子:如果“妈”字在外形上借用了“马”,这是因为在汉语(普通话)当中,“妈”和“马”这两个词的发音类似,可在英语里,它们发音一点也不像——在日语里也一样。故此,跟汉语比起来,孩子和外国学生更难于记住日语里汉字的视觉形象和正确的发音关系。为了让书写变得更容易,第二次世界大战后的若干届政府都公布过“常用汉字”名单,规范汉字的书写,限制汉字的总数量。即便如此,如今的常用汉字仍然多达2136个。在实践中,至少还会用到另外1000个汉字。
那么,学日语的学生必须掌握全部2136个汉字的正确发音吗?如果只需要学这么多个,那就好了。许多汉字都有不止一个“读音”,通常其中只有一个是真正的日语。例如,“手”可以发音为/te/,这是本土日语读法。但在复合词“着手”(按字面意思是“touch hand”,意思是“开始”)中,第二个汉字的发音是/shu/而不是/te/。/shu/来自几百年前的汉语发音,也就是这个词被借用到日语中时的发音。这个词的前半部分“着”,发音是/chaku/,来自一个早已过时的汉字发音/chak/。但还是老样子,这个汉字也可以代表一个本土日语单词,如在复合词“着物”(“kimono”,字面意思是“穿在身上的东西”)当中,它发音为/ki/。
“chakubutsu”是怎么几乎成了“kimono”的
日语里每个汉字都有两种完全不同的发音,一种是本土的,另一种是输入的。挺糟糕,是不是?但实际情况比这还要糟糕。一些汉字的本土读音不止一种,而是两种,甚至更多。更重要的是,很多汉字是从中国的不同时期和不同地区不止一次借用而来的,于是有多种不同的发音。这2136个“常用”汉字虽说不是个个都有多种发音,但很大一部分都有两种日常使用的发音,在专业术语(比如佛教著作当中)里还有另外一两种发音。例如,汉字“泳”,意思是“游泳”,它有一个本土发音,用拉丁方式拼写为OYO,而来自中文的发音是EI。在“泳ぐ”(动词,“游泳”的意思)里,它读作“OYOGU”,而在“泳法”(游泳姿势)中读作“EIHō”。如果用英语来举例,那就像是“swimming”(指游泳这一行为)和“natation”(指游泳姿势)的拼写方式一样。有些汉字以读法众多而著称,这方面的纪录由“生”字保持,它有10多种读音,光是在日语本土单词中就有9种,还有更多种借用自中文,其含义极为丰富:从“出生”到“生丝”,甚至“学生”。
这一切意味着,阅读日语是一个持续不断的决策过程:发音要根据语境来判断。“着物”一词读作“kimono”,也可以读成/chakubutsu/,但读成后者,它就不传达任何意义;读者必须读成/kimono/,它才表示“着物”。英语里也有几十个必须通过上下文来推断正确发音的单词。它们叫作“同形异义词”,其中包括sewer(可以分别跟lower和viewer押韵)、sow(可以分别跟cow和low押韵)、著名的read(可以分别跟bead和bed押韵),以及为祝福我们本章的主人公,sake(可以分别跟make和Iraqi押韵)。但在英语里,一般的文本很少会出现这样的陷阱;而在日语里,绝大多数汉字都有着不同的读法。
是我说得太难,而实际上没那么难吗?毕竟,每当“手”是一个单独的词语时,它就读作/te/;而在复合词“着手” (/shuchaku/)就读作/shu/,因此最好关注整个词语而非单个字符。在英语里,多多少少也是这么做的,我们不知道“cha”这3个字母怎么发音,除非我们在单词里见到它:是CHARACTER(性格,/?k?r?kt?r/, cha读作/k?/)、CHAPTER(章节,/?t??pt?r/,cha读作/t??/)、CHAMPAGNE(香槟,/??m?pe?n/, cha读作 /??/)、CHAOS(混沌,/?ke??s/, cha读作/ke?/)、CHAFE(摩擦, /t?e?f/, cha读作/t?e?/)、CHAISE(双轮马车,/?e?z/, cha读作/?e?/)、CHA-CHA(恰恰舞,/?t?ɑ? t?ɑ?/, cha读作/t?ɑ?/)、CHALK(粉笔, /t???k/, cha读作/t??/),还是GOTCHA(明白了,/?ɡ?t??/, cha读作 /??/)(甚至CHANUKKA或者CHALYBEATE)?没错——只不过,日语不像英语和其他大多数语言那样,在单词之间有界限:日语里没有空格。这也就是说,两个相邻的字符可能属于同一个词语,也可能不属于同一个词语。尽管如此,任何有经验的日语读者仍能分辨出哪些字符属于同一个词语,哪些不属于,只不过,这需要密切留心上下文。读日语就跟读包含了大量SEWER、READ、SOW和SAKE的英语句子一样。
来个快乐的词尾
尽管2000多个汉字是最难掌握的部分,但日语的错综复杂程度可不只如此。汉语里,单词没有语法结尾,故此,也就不需要汉字来书写。反过来说,日语有很多词尾,作者们很早就注意到,忽略词尾,会让日语文本近乎无法理解。该怎么办呢?
他们最初尝试的解决方法是使用一个发音听起来像是结尾的汉字,不管它到底是什么意思。为更好地理解这在实践中是什么样子,这里不妨想象一下我们用英语做同样的事。我们的语言也有一些语法结尾,比如-ing,故此,要是我们出于某种历史偶然采用了汉字书写,我们也会产生跟日本人同样的需求。那么,我们该怎样书写有-ing词尾的单词呢,如buying?“buy”本身是“買”(日语里“买”的汉字写法,汉语普通话的发音是mǎi,但在此处并无关系)。-ing部分有点成问题,因为没有哪个汉字发音是/ing/。但借用一种外国文字必然会涉及一定程度的妥协,所以,我们找一个发音是/ying/的字来对付着用:矨(而且完全不管它在汉语里是什么意思)。故此,買矨就成了“buying”的正确拼写。
说回日本,这种早期的解决方法有两点不便之处。首先,它使人难以判断一个汉字到底是代表它通常的含义还是仅仅是为发音而用。日本作家和读者已经习惯了大量的歧义,所以,要不是因为第二点不便,他们恐怕不会太过在意这个问题:一遍又一遍地添加复杂的字符,却仅仅是为了一个词尾,这是件繁复的苦差事。在我们虚构出来的例子里,矨或/ying/这个字符由9个笔画构成,其他许多字符的笔画还要多得多。
很快,书写者们就想到了点子:简化字符,只保留语法功能,这样它们就跟真正的汉字有了区别。这种做法,一笔(这是个比喻说法,虽然由此产生的符号远比最初的汉字简单,但大多数符号还是由若干笔画构成)解决了上面的两个问题。
今天,这些简化的符号统称为假名[6]。虽然它们的形式和用途随着时间的推移发生了改变,但它们仍然是日语书面文字的重要组成部分,仅次于汉字。从严格的实用角度来看,日语光是用假名就足够了,因为口语的每一个词语和句子都可以用假名书写,[7]不需要使用任何中文字符。1945年—1965年间,日本政府及语言委员会有意完全废除汉字。但文化视角与严格的实用角度很不一样,文学作家们成功地扭转了委员会的立场,进而影响了政府的态度。如今,在日本人眼里,一个人要是完全用假名写作,是缺乏文化修养的表现。情况并非一贯如此:虽然传统上,汉字拥有更高的声望,但1700年前的某一段时期,只使用假名写作,会让作者显得像是个文化水平极高的……女性(我们在第13章中看到的日语性别差异,也包括了当时的书面语言)。由汉字简化而成的假名,如今叫作平假名,是日语目前使用的两种假名系统中的一种。
不同的场合使用不同的书写方式
等一下,两种不同的假名?但我刚才不是说,每一个日语单词,光用假名就够了吗?没错,我的确是这么说的。可日语还是有两种不同的假名:平假名和片假名。它们的样子几乎完全不同,但代表的却是完全相同的声音。46个平假名符号每一个都有对应的片假名,反之亦然。它们的区别(就跟字母表里的大小写字母的区别一样)不在于发音,而在于外表和功能。
从外表上说,平假名之所以叫作“平”(取其“光滑”之意)是有原因的。它的形状不是棱角分明的,而是弯曲的。它们带给书面日语独特的外观:中文是绝对印刷不出来つ、の或者お(分别读作/tsu/、/no/和/o/)的。片假名符号在中文里也不存在,但在他们眼里并不那么扎眼:刚才那三个平假名对应的片假名分别是ツ、ノ和オ。它们之所以称为“片”(取其“部分”之意),是因为它们取自其汉字源头的一部分(片段)。例如,“オ”来自“於”的左半部分。平假名的起源与此类似,但它以汉字草书为基础,而非印刷的方块字。
在功能上,两组假名也明显不同。平假名扮演了我们之前讨论过的重要角色,它阐明了词尾的语法(当结尾表示单词界限时,它也在某种程度上弥补了单词之间没有空格的问题);当字符由于某些原因使用不便时也会用平假名来代替,可能因为书写者不知道正确的字符,也可能是读者(例如儿童)无法识别它;平假名还会被用来书写没有字符的单词;最后,平假名有时会作为一种阅读辅助工具被放置在汉字旁边——有一个叫FURIGANA(“指出假名”)或YOMIGANA(“读出假名”)的练习就突显了字符的可有可无。
日语键盘聪明极了,你可以输入平假名或罗马字母,它们会把单词转换成你想要的任何形式:片假名、平假名甚至是汉字(但如果是汉字的话,一般需要你在若干个同音字里进行选择)。
另一方面,片假名的作用是标记我们认为“困难而陌生的单词”,让它们变得容易理解。这类词来自除了中文之外的外语,通过借用或单纯引用进入日语,如技术和科学术语,包括物种和矿物名称;以及“boom”(嘣)和“swoosh”(嗖)等拟声词。片假名还可以用来强调一个词语。一言以概之,平假名是一种语法和发音辅助手段,片假名在功能上跟我们的斜体字类似。
优雅和不那么优雅的杂技
假名系统的美妙之处在于,每个符号代表一个音节[8]。问题是,在现代日语里,有超过100个不同的音节,而假名数量仅为46个,外加额外的一些符号。两者的不匹配,靠着正字法杂技解决了,只是姿态并不都足够优雅。
娇小的变音符完成了大部分工作,尤其是符号右上角的两种短笔画(在日语里叫DAKUTEN,通俗地说也就是“点”)。它软化了辅音,或者用更专业的说法是,它“增加了声音”。故此,か发音为/ka/(清音),而加上点之后,变成了が,发音是/ga/(浊音)。此外还有一种符号叫作“圈”(handakuten),会以不同的方式改变辅音。
比这些日文变音符更糟糕的是:“一个假名,一个音节”的规则,碰到元音和辅音之间还有个/y/音节的时候,就会失效,比如 /kya/,它写作きゃ,明显包含了两个元素。但娴熟的日语读者这时只看到一个假名:右边的符号比左边小,故此被视为左边符号的一部分。换句话说,这两个元素共同构成了合成符(或连字),跟英语里的ch很像。合成符由两个符号组成,但代表一个声音,有若干种语言(包括日语,但不包括英语)都将它们视为不可分割的整体。
Irashunal, shaw(不可理喻?的确)
2000多个汉字(其中大多数有一个以上的发音);两套假名,各由100多个基本和复合符号构成,有时还会跟汉字并置——这显然足以让日语赢得“全世界最复杂的文字”称号了。但我们还没说完呢。
对我们大多数人来说,日语文本是一大片无法理解的海洋,有着幽暗的汉字波浪,以及颜色较浅的假名波峰。但每隔一阵子,我们又会看到一些熟悉的东西。首先是数字。更出人意料的,还有罗马字母。日语记者、博主、电子邮件写手和其他作者都觉得,偶尔加入用罗马字(他们这样称呼我们的字母表)写的词语完全是小事一桩。毕竟,他们的读者已经掌握了有这么多发音的符号,再加一份小小的附录(也就是我们的26个字母)也算不上什么。大部分用拉丁字母所写的单词,都是首字母缩写,有些是国际通用的,如km(千米)、CD或**S(短信),有些是基于英语的日语创作,如OB和OG(分别指男校友和女校友), OL是“office lady”(白领丽人),也即在办公室工作的女职员。
还有另一项复杂的因素:日文可以垂直书写,此时竖直方向可以从右至左排列,或是在水平方向上从左到右。这也就是说,有些日语书籍是朝左边翻页的,跟欧洲语言一样;另一些日语书籍却是朝右边翻页的,跟阿拉伯语和希伯来语一样。
我可以再问一次,为什么这套复杂的书写系统还没有得到合理的重构?答案跟前文一样:修补书面语言,不管是拼写规则还是文字选择,都会唤起我们大多数人的保守反应,这种反应,只有碰到巨大的社会动**时期才可能被克服。19世纪后半叶到20世纪上半叶,好几个组织都发起了假名或罗马字母运动,但都徒劳无功。到20世纪40年代末,研究得出了明确的证据,采用罗马文字的教科书不会影响小学生的成绩,甚至还可能提高成绩。由于这一结果有悖于研究人员的预期与期待,立刻被雪藏起来。不可理喻是吗?的确。但正如我们所见,语言事关国家认同和文化。
[1] 也可能仍然会。如果汉学家莫大伟(David Moser)的看法信得过,那么汉语(普通话)绝对难学。请务必去读一读他那篇极为有趣的文章——《为什么汉语这么难学》:http:// bit.ly/MoserMandarin。——作者注
[2] 有许多汉字,据说是有意义的,但至少在现代汉语里,它不是一个独立的词。“森”字就是其中之一。英语里也能找到同一现象的一些例子:“were”在“werewolf”一词中的意思是“人”;“quickly”里的“ly”,源自一个意思是“身体”的单词;“receive”和其他一些动词里的“ceive”,据说曾经意味着“攫取、抓住”。有些语言学家喜欢在语言学里使用行话,他们把这些单词元素叫作“黏着语素”(bound morphemes)。——作者注
[3] 严格地说,这份包含201~214个词条的清单里罗列的是“部首”,部首跟语义成分不是一回事,但就当前的目的而言,它是个足够好的近似品了。——作者注
[4] 按照字面直译,这句话的意思是:“鸭子点了一杯啤酒,对酒保说:‘记在我账单上。’”
[5] 在本章中,我会交替使用“字符”和“汉字”。我不会用“字符”来指代书面日语里的其他元素。——作者注
[6] 假名可以指单个符号(一个“字母”),也可以指单个符号所属的整套符号(也可以说是“字母表”)。——作者注
[7] 在书面日语中,有许多从汉语借用来的字词只能从书写上区分,它们的发音相同,但汉字写法不同。也就是说,除非上下文提供足够的线索,否则,大声朗读时,它们可能会让听众感到困惑。有人认为(比如我),让听者感到困惑的句子往往代表写得糟糕。从这个角度看,如果汉字的作用只是为了区分发音相同的词语的意思,那它对日语可谓弊大于利。——作者注
[8] 从技术的角度说,它构成了音节表,就像我们在前文看到的印地语文字一样。但更严格地说,它又不是音节表,因为一个符号并不代表一个音节,而是一个音拍(mora),它指的是时间的语言单位。大多数日语音节都跟音拍一致,但有些以辅音或长元音(用拉丁文写的长音符号是:ā、ō)结尾的词,是两个音拍,故此,Nippon由两个音节组成,但每一个音节分别是两个音拍;Tōkyō也一样。日本人的假名灵感来自梵语所用的婆罗米文字(其中每个符号代表一个音节)。梵语是印度佛教典籍使用的语言。——作者注