“智能”问题是当代计算机和认知科学普遍关注的焦点之一。但当前对人类认知与智能机制方面的认识障碍,使得现阶段的研究出现某种程度的停滞,难以实现理论上的突破。由此,作为实现人与计算机之间用自然语言进行有效通信的核心技术之一,自然语言处理成为研究开发新一代智能计算机的前提和先决条件,主要解决如何在语义层面上对输入的内容进行匹配,并同时具备一定的常识知识和推理能力。这一技术同时涉及计算机科学、语言学、心理学、哲学等多门学科,只有在多学科交叉的领域范围内才有可能获得理论上的突破。尤其是在核心的语义分析及智能推理方面,自然语言处理一直深受相关哲学理论和语言学理论的影响,因此,有必要厘清其发展的关键所在,分析其发展趋势及可能带来的变革。
1.自然语言处理的发展瓶颈
自然语言处理中,传统的知识库只提供单个词语的概念意义或基于真值的形式逻辑来描写语义,这对于实现自然语言处理的智能化远远不够。在经历了语形处理阶段之后,自然语言处理迈向了语义分析阶段。从语形到语义的发展,是语形处理无法满足精确性要求的结果。在语形处理阶段,程序根据用户输入的自然语言进行关键词比对(keyword match),这是一种局限于字词变化以及句法结构的语形匹配技术。它对于被输入的自然语言的概念语义并无确切掌握,处理结果往往精确度不够,常常会出现大量语义不符的垃圾结果或遗漏很多语义相同而语形不同的有用结果。
有鉴于此,人们希望计算机能够通过语义分析来处理信息,从而提供更加精确、更能接近人类语义处理模式的服务。为此,必须探索人脑理解语言的机制,从认知的角度描写语言知识,重视对语言理解的认知加工过程及形式化问题。但是,因为词汇句法方面的问题长期没有得到有效解决,要实现提供人工智能推理所需的知识库并不现实。由此,自然语言处理领域中,开始倾向于面向真实语料的大规模语义知识库的构建工程,这是在经验主义基础上汲取了理性主义优点后,所形成的一种基于功能主义的方法。它为自然语言处理提供了一条现实可行的探索道路,是解决智能问题的必然选择。
但自然语言处理领域一直缺乏统一的理论基础。思维语言(Language of Thought,LOT)框架与认知科学框架(即概念的联结论构造)作为两种对立的指导方法,长期影响着自然语言处理的发展路径。[83]对于认知科学和人工智能来说,无论哪一种指导理论,都建立在计算种类、表述载体种类、表述内容种类以及心理学解释种类这四个分析层次之上。并且,这些层次之间并不相互独立,“每一层次的分析都制约着相邻层次的分析”[84]。建立在联结主义计算基础之上的认知科学框架,以整体论的神经科学为指导,把计算机看作建立大脑模型的手段,试图用计算机模拟神经元的相互作用,建构非概念的表述载体与内容。但由于神经科学尚处于初级阶段且应用范围相对狭窄,使其发展受到了很大制约,至今尚未形成一个有影响力的处理自然语言的模式。
而建立在符号主义计算基础之上的思维语言框架,则以哲学中的理性主义和还原论为指导,并借鉴了语言哲学的研究成果。它把计算机看作是操作思想符号的系统,试图通过句法和语义等形式表述系统来表征世界。由于冯·诺伊曼机的普遍应用及其形式表述系统与自然语言的接近性,使得以思维语言框架为代表的、建立在经典的句法/语义表述理论之上的一批自然语言处理理论和技术得到了广泛发展与应用。在人工智能领域,米勒(George.A.Miller)主持的词网(Word Net)和菲尔墨(C.Fillmore)主持的框架网络(Frame Net)工程最为著名,也最具代表性。二者均采用“经验主义”语义建模的研究思路,主要以构建大规模语料库为研究目标,进而支持建立在其上的人工智能程序。然而,由于二者表述载体、表述内容以及心理学解释的不同,造成它们在处理自然语言的不同应用方面都各有优劣,但非常具有互补性。它们为预测未来自然语言处理的发展趋势提供了基础。从词网和框架网络等大型语义知识库工程中可以看出,现阶段自然语言处理领域的问题集中表现为:
首先,对自然语言的处理一直无法突破单句的界限,进而阻碍了对段落理解和语篇理解的研究。主要表现在对词和单句的分析虽然涉及了语境和语用,但无法将这些方法扩展到对段落和篇章所进行的语义分析中,这是语义分析阶段瓶颈难以突破的关键所在。
其次,同句法范畴比起来,语义范畴一直都不太容易形成比较统一的意见,有其相对性的一面。“层级分类结构”(hierarchy)的适用范围、人类认知的多角度性及其造成的层级分类的主观性,导致了语义概念的不确定性、语义知识的相对性以及语义范畴的模糊性。
最后,目前语义知识库记录的内容以静态语义关系知识为主,而对于基于语义关系约束的形式变换规则知识却研究甚少,这使得自然语言处理在动态交互过程中很难发挥应有的作用。
因此,厘清以上问题产生的原因,是发展自然语言处理所需的下一代大型语义知识库迫切需要解决的首要前提。
2.造成自然语言处理瓶颈的原因分析
社会的信息化进程对计算机智能化提出了强烈要求。然而,自然语言处理作为计算机智能的核心技术,其发展速度相当缓慢,至今尚未取得重大突破。要解决存在于自然语言处理中的上述问题,必然要分析造成这些问题的瓶颈所在,进而才有可能着手解决问题。我们认为,造成自然语言处理发展缓慢的原因主要有以下几点:
(1)自然语言处理的前提假设决定了自然语言处理瓶颈出现的必然性。对于自然语言处理,无论语言学界还是计算机界,都建立在以下假设之上:人类对语言的分析和理解是一个层次化的过程,自然语言在人脑的输入和输出是一个解构和构造的过程,并且,在这个过程中,语言的词汇可以被分离出来加以专门研究。这是一种建立在还原论基础上的前提假设。
自然语言内部是一个层次化的结构,一般可以分为词法分析、句法分析和语义分析等三个层次。这些层次之间互相影响和互相制约,最终从整体上解决对自然语言的处理问题。从自然语言的具体构成来看,一个句子由词素、词、短语、从句等构成,其中每个层次都受到语法规则的约束,而层次关系的实现则直接体现在自然语言句子的构成上。由此,计算机对自然语言进行处理也应当是一个层次化的过程。并且,根据语言的构成规则,在实现人与计算机之间的自然语言通信过程中,计算机除了需要理解给定的自然语言文本,还必须能以自然语言文本的方式来表达处理结果。
因此,对自然语言进行的处理可以分解为:针对输入的自然语言理解和针对输出的自然语言生成两个过程。在输入过程中,系统通过解构文本实现对自然语言的理解;在输出过程中,系统又通过构造生成完整的句子来表达处理结果。这种前提假设从一开始就决定了自然语言处理必须先从分词、句法等语形处理方式入手,而后再通过语义及语用分析来完成对文本意义的理解。然而,目前相关科学的发展,尚不能确定人类在使用语言的过程中是否存在着这种层次关系。不过这种对语言层次的划分,却直接决定了自然语言处理,必然要经历从对词法和句法所进行的语形分析阶段向语义分析阶段发展的路径。
(2)在缺乏词一级的语义知识库的前提下,现阶段的语义分析系统更多程度上主要依赖于统计学等浅层方法,有待于从理论上和实践上进一步完善和突破。词网和框架网络等大型语义知识库工程也主要以词语为描述对象,致力于构建一个词一级的、具有一定层级关系的抽象化的语义网络,无法从理论上突破句法对语义的限制,从而进行段落或篇章一级的语义分析。总的来说,这一现象始终贯穿于自然语言处理发展的两个阶段中:
第一阶段主要建立在对词类和词序分析的基础之上。20世纪40年代末开展的机器翻译试验,大多采用特殊的格式系统来实现人机对话。到了60年代,乔姆斯基的转换生成语法得到广泛认可。在这一理论的基础上,开发了一批语言处理系统。基于层次化的前提假设,自然语言处理从一开始就致力于对语言形式的处理,分析过程中以统计方法为主,主要在分词基础上对单个语词进行处理。这些基于语形规则的分析方法,可以称之为自然语言处理中的“理性主义”。
第二阶段则开始引进语义甚至语用和语境的分析,构建了一批大规模语义知识库,试图抛开对统计方法的依赖,采用了与“理性主义”相对的“经验主义”研究思路。20世纪70年代以后,随着认知科学的发展,人们认识到转换生成语法缺少表示语义知识的手段,因而相继提出了语义网络、概念依存理论、格语法等语义表征理论,试图将句法与语义、语境相结合,逐步实现由语形处理向语义处理的转变。但仍然不能摆脱句法形式的限定,无法灵活地处理自然语言。到了80年代,一批新的语法理论脱颖而出,主要通过对单句中核心词的分析,进而完成对整个单句的语义分析。[85]但是,在缺乏词一级的语义知识库的前提下,要实现对自然语言的语义分析是不可能的。此外,造成自然语言处理困难的根本原因,在于自然语言的语形与其语义之间是一种多对多的关系,从而造成歧义现象广泛存在。这就要求计算机进行大量的基于常识知识的推理,由此给语言学的研究带来了巨大困难,致使自然语言处理在大规模真实文本的系统研制方面成绩并不显著。已研制出的一些系统大多是小规模的、研究性的演示系统,远远不能满足实用的要求。因此,构建基于真实语料的大规模语义知识库(或语义词典),就成为实现自然语言语义处理的必要条件。
基于以上认识,20世纪90年代以来,自然语言处理中的概率和约束问题,引发了新一轮对语言理论问题的思考,出现了一批有实用价值的大型语义知识库。这些大型语义知识库在应用领域取得了一定的成绩,但仍然无法突破单句的限制,过多地依赖于统计学方法,这也是现阶段自然语言处理中最主要的瓶颈之一。然而,从理论方法角度看,基于规则的“理性主义”方法,虽然一定程度上制约了建立在“经验主义”基础之上的语义知识库的发展,但是日益出现在“经验主义”方法中的不足,也需要依靠“理性主义”的方法来弥补,两类方法的融合也正是当前自然语言处理发展的趋势。[86]
(3)目前的大型语义知识库大都构建在以经验主义为基础的方法论之上,具有很大的主观性和不确定性。这在一定程度上会导致语义分析过程中出现不确定现象。以国际上最著名的大型语义知识库词网和框架网络为例:
框架网络以菲尔墨的框架语义学为理论基础,以经验为手段来分析和组织概念。它强调概念与意义对人的经验的依赖,将词语意义跟认知结构或框架相连,通过构建语义框架,寻找语言和人类经验之间的紧密关系,从而有效地把人的理解捕获到语义结构中。它主要采取的是机会主义自底向上的方法,有一定的理论指导但没有明确的框架体系。构成框架网络语义知识库的基本语义框架,是从分析者的直觉判断开始的,一个框架的确立需要经过一些认识上的反复过程。由于分析者与分析者之间、分析者与使用者之间的知识背景不同,他们的思维方式也不可能完全相同,因而对问题的理解和认识也会有所不同。由此造成框架网络在一定程度上必然存在着主观性和不确定性,这是构建经验主义语义知识库所不能避免的。[87]
词网最初源自对词汇知识表示的心理学兴趣。它通过同义词集来表示概念,再由概念间的多种语义关系形成概念网络来构建其知识本体。这是一个高度形式化的、通用的、跨语言的知识表示方法。其目标在于不断地抽象,在语言认知或者纯粹的语言学理论研究中,找到一种跨越不同语言的语法通则。其最大特点是把词语之间简单的同义、同类关系放在非常重要的位置,强调通用、强势的概念体系,从而是一种基于逻辑的理性原则,可视为自然语言处理中的“理性主义”。可见,同义概念和层级分类组织方式,对于词网来说非常重要。然而,对于同义词的衡量标准以及层级的划分,基本上是人为完成的,其同义概念并不能在任何语境中都具有可替换性,否则语言中的同义词就太少了。因此,人为导致的主观性以及由此造成的不确定性,是基于“理性主义”的词网也不能避免的。[88]
从以上分析可以看出,以经验主义为基础的自然语言语义范畴,其难以形成统一意见的根本原因就在于:①并不是所有的事物都适合放在“层级分类结构”中来认识,硬要将某些概念定位到一个语义分类体系中,常常会感到捉襟见肘。人们到底是用什么样的结构去认识这些事物,还需要进一步从人类认知的角度去探索。②由于人们认知角度的不同,即便使用层级分类结构的方法,这种分类也不是唯一的。很多事物可以同时属于多个类别,人们可以从多个角度去构造关于某个事物的不同的层级分类结构。类似于词网这种在一个语义知识工程中,为“本体”做出的语义层级分类,必然会产生语义范畴的相对性,从而造成层级分类的不确定性。这种语义范畴的相对性表现在很多方面,而这些方面又常常交织在一起,体现了语义概念的不确定性。
认识到语义知识的这种相对性,有助于我们树立对一个语义知识体系的“实用主义”评价观,即一个“语义知识体系”的好坏,根本上应该取决于它在某个应用领域中是否够用、好用。从这个意义上说,认识语义范畴最好的办法,就是去深入了解语义知识在自然语言处理中能够发挥什么作用以及如何发挥作用。虽然人们对于语义范畴的界定相对模糊,但其目标却是为了比较严格和精确的“形式变换”提供支持和服务。为此,我们有必要重新认识语义范畴,将其直接建立在“形式特征”的基础之上,从而更好地为自然语言处理服务。
(4)自然语言作为思想交流工具,不能仅仅局限于静止状态的文字交流。随着互联网的发展,其创始人提姆·伯纳斯-李(Tim Berners-Lee)于2000年在《科学美国人》中提出“语义网”(Semantic Web)的概念和体系结构。他希望建立一个以“本体”为基础的、具有语义特征的智能互联网,提供动态的、个性化的、主动的服务。也就是要让具有智能的计算机程序在互联网这种动态开放的无限网络环境中运作,从而实现基于Web的个性化和智能化应用,使得人与计算机之间可以用自然语言顺畅地交流,帮助人类更好地完成工作。基于此种目的,即使是对静态文本进行篇章级别的语义分析,也还远远不能达到信息服务的要求。在更多领域,用户与系统之间以及系统与系统之间,还需要进行大量的实时交流。作为交流的一方,无论是提问、回答还是讨论,都是在双方言语的不断变化过程中完成的。在这一过程中,双方面临的语境是不断变化着的,而每一方的语义应该是连贯的,并且双方都不可能在获得对方的全部言语之后才进行语义分析。这就要求作为交流一方的计算机系统,可以根据交流的进行实时地对双方的语义内容进行新的分析和推理,但现有理论根本无法达到这一点。在语法和句法问题的局限下,人们还不曾探讨动态交互过程中利用语义方法来实现自然语言交流的问题。
因此,突破单句的限制,根据整个动态交互过程中语义和语境的变化情况,对用户实时输入的语句进行处理并生成相应的结果,是实现语义网的必然要求。
3.自然语言处理的发展趋势
从智能互联网的总体目标来看,要实现语义网,就必须首先解决“语义表达问题,即如何使得网络中的各种信息、数据等资源能够有效地表达并被理解,使得它们成为计算机所具有的‘知识’,进而能够被计算机所共享和处理”[89]。要达到上述对智能的需求,自然语言处理就不能停留在现阶段仅仅对语言形式进行处理的水平上,只有深入到语义和语用层面,才有可能使自然语言处理具有智能色彩。“当前,内容处理已成为网络浏览检索、软件集成(Web服务)、网格等计算机应用的瓶颈,语义处理也是下一代操作系统的核心技术。形形色色的软件技术最终都卡在语义上,语义处理已成为需要突破的关键技术。人工智能、模式识别等技术已有相当进展,但内容处理还处于重大技术突破的前夜,究竟什么时候能真正取得突破性的进展现在还难以预见”[90]。可见,语义表达问题,已成为现阶段自然语言处理中最核心的问题之一,自然语言处理从语形学到语义学的转向,业已成为认知科学领域研究的新焦点。
提姆·伯纳斯-李的语义网概念,便是在此背景下诞生出来的一个远景。然而,语义学理论本身的局限性,决定了语义网不可能完全满足未来人们对网络的需求。由于自然语言本身具有的不确定性,使得对单个语句的语义分析,无法实现对用户意图的整体性理解。只有借助于建立在语形和语义基础上的语用思想,才能实现更高层次的智能化服务。因此,构建基于自然语言处理的语用网(the pragmatic web)理论体系,将有可能成为下一阶段智能互联网的核心技术之一。这就使得自然语言处理技术本身的语用化转向成了必要和可能。在这一思想的指导下,我们认为,未来自然语言处理很可能在以下方面有所突破:
(1)从整体到局部的思想转变,将是下一阶段自然语言处理能否取得突破的关键所在。
自然语言处理中大量涉及常识知识问题。20世纪70年代以后,专家系统等人工智能技术的发展,使研究者们逐步认识到常识知识在智能系统中的重要作用,但要通过构建海量常识知识库来实现人工智能是不现实的。在没有搞清楚人类是如何组织常识知识的前提下,如何组织如此庞大的海量常识知识是难以跨越的鸿沟。从认识论的角度来看,常识知识的形式化是人工智能的核心任务,其特点是基于某个透视域对世界进行抽象描述,具有不完全性和不确定性。从本体论的角度来看,常识知识表述形式是对世界的近似表征,必然会忽略某些方面,并且关注的是世界的本质内容而非语言形式,因此所构建的本体具有一定的相对性。从方法论的角度来看,常识知识库将常识知识形式化地表征为一类数据结构,并在其上进行常识推理等运算,且由于应用的可实现性而专注于对某些特定领域知识的描述,具有某种程度的随意性。从现有的常识知识库来看,普遍关注常识知识的表征形式而常常忽略其本质内容,这也是造成语义网研究进度缓慢的原因之一。
基于上述考虑,需要在构建大规模语义知识库的过程中,针对某些有实用价值且应用相对普遍的领域进行构建工作,避免构建大而全的海量常识知识库,从而率先实现在特定应用领域的突破。这一从整体到局部的思想转变,已引起某些人工智能专家的注意,它将是下一阶段自然语言处理能否取得突破的关键所在。
从目前各大型语义知识库的构建工程中可以看出,试图完成所有常识知识的语义描述是不可能的,要想有实用价值,只有针对特定领域才有可能有所突破。以汉语框架语义知识库(Chinese Frame Net,简称CFN)为例,需要做的不是描述汉语全部词语的语义框架,而是着力开发针对一定应用领域的语义框架和应用系统,诸如网上购书系统、旅游问答系统、天气预报系统、法律法规系统等多个应用领域。这些领域的共同特点是有很强的应用价值,并且领域相关的词汇量不是很大,可以在较短的时间内完成研发工作并投入使用,获得可观的社会效益。
(2)尝试在特定领域突破自下而上的经验主义研究路径,实现自上而下的基于篇章语境描写的框架技术。
通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统中的真实语料进行词元提取操作,可以发现,在特定领域数据库中,某类词或短语在文章中出现的频率较其他类别的词语高许多,并且它们在文章中的位置相对固定,用法也较为一致。更为可喜的是,这些领域数据库中的文章在体裁、结构甚至表述方法上都有很强的相似性。由此可以大胆提出,完全有可能突破现有的基于词语来分析单句语义的描写方式,转而通过对高频词与核心词的提取,直接针对一些特殊领域的数据库,构建基于篇章的语境描写框架。这就使计算机在对文章中具体的句子进行语义分析之前,首先对整篇文章有一个语义上的整体认识,构建一个篇章级别的语境,进而再通过对具体语句的语义分析,纠正并完善对该篇文章的意义理解。
应当看到,虽然这是一种机会主义的分析方法,但它突破了原有的从词汇开始进行语义分析的自下而上的技术路线。因为它采取了对整篇文章自上向下的分析视角,排除了在单个词语分析过程中不符合整篇文章意义的歧义内容,使文章中的句子之间产生连贯的语义关系。在此基础之上进行的推理势必可以达到更好的理解效果。现阶段,无论从语言学方面还是计算机技术方面,我们都不可能实现针对某种语言的全部应用构造篇章级别的理解框架。只有在特定的应用领域,才有可能提前实现更具智能化的全文机器翻译。这一思路在自然语言处理的很多特定领域中,都有着广泛的应用前景,可以为许多公共领域实现更具智能化的信息提供服务。
(3)动态语义分析是亟待解决的关键性难题,也是下一阶段自然语言处理的重要发展方向之一。
无论是智能互联网的智能主体还是人工智能中的智能机器人,对段落篇章的语义分析都是它们进行推理和理解的前提。然而,仅仅是对静态文本进行篇章分析还远远不能达到信息服务的要求,在更多领域,对智能互联网的人机动态交流的需求,要求引入语用技术,使得作为交流一方的计算机系统,可以根据实时交流中变换着的语境,对双方的语义内容进行新的分析和推理,而这是现有理论所缺失的。
与篇章分析类似,现阶段我们还不能实现针对某一语言的全部应用来构造基于动态的理解框架。然而,通过对旅游问答系统、网上购书系统、医疗系统、行政系统及法律法规系统的分析可以看出,在这些特定领域,人们的提问意图、提问方式和提问顺序之间有一种内在的必然联系。我们可以根据这种规律性构建基于语境的动态理解框架。其实质就是对一些逻辑思维的程序化抽象,通过与数据库中已经存在的动态框架进行匹配,在逐步判断的基础上,实现系统对情境变化的选择与修正,从而实现对对方意图或语义的理解。由于在这些特定领域内,如天气、旅游、司法等专业领域,人们的意图有很强的相似性且种类非常少,使用的词汇也比较集中,应用价值也非常高,因而可以率先在这些领域中进行动态语义知识的研究。
此外,在语言的动态交流过程中,交流双方都是作为一个独立个体来处理外部问题的,它们本身就是语言的使用者。作为交流一方的计算机系统虽然无生命,但它在某种意义上也应是有立场的,需要站在使用者的立场来分析语言。维特根斯坦曾经指出:“意向是植根于情境中的,植根于人类习惯和制度中的。”[91]从语言的使用层面处理语义问题和意向性问题,可以更好地实现对语言的理解。从这个意义上说,自然语言处理需要从语义阶段迈向语用阶段。
(4)理性主义技术路线与经验主义技术路线的融合趋势
要想满足自然语言处理的应用需要,如机器翻译、问答系统、信息抽取等,必须模拟人类理解语言的认知机制,具备一定的推理能力。然而,认知科学是一门以人工智能、神经生理学、心理学、语言学、哲学为基础的交叉学科,在人类还没有弄清楚人的认知行为之前,自然语言处理的哲学基础是理性主义和经验主义。理性主义认为通往知识的道路是逻辑分析,而计算机中处理的自然语言符号,恰恰是建立在逻辑语言基础之上的,其智能的实现很大程度上要依赖于逻辑理论,经验主义认为知识通过经验来获取,自然语言处理中的很多成果,都应归功于大量的实践基础。然而,无论理性主义还是经验主义,在自然语言处理中都遇到了不可逾越的障碍。
从以上对词网和框架网络的分析中可以看出,目前语义知识库中记录的主要是语义关系知识。传统的结构主义语言学把语义关系类型分为聚合关系和组合关系两类。一般来说,聚合关系反映同质语言成分之间的类聚性质(例如,词网),利用聚合关系构建的语义知识库主要采取理性主义技术路线,而组合关系则体现异质语言成分之间的组配性质(例如,框架网络),利用组合关系构建的语义知识库多采用经验主义技术路线。[92]二者在自然语言处理的不同应用中都可以发挥作用,具有很强的互补性,并且它们都是在计算机对“语言形式”做各种类型的变换(组合)操作时,作为约束(判别)条件来使用的,它们的融合有助于构建功能相对完善的大型语义知识库,是未来语义研究工作的一个重要方向。[93]
(5)自然语言处理正实现着从语形网(The Syntactic Web)到语义网的转向,下一步很有可能向语用网的方向发展。
早在20世纪30年代,美国哲学家莫里斯把语言符号划分为三个层面:语形学、语义学和语用学,之后,德国逻辑学家卡尔纳普也提出了与莫里斯相类似的划分。在自然语言处理中,语义是实词进入句子之后词与词之间的关系,是一种事实上或逻辑上的关系。所谓语义框架分析,就是用形式化的表述方式,将具体句子中的动词与名词的语义结构关系(格局)表示出来。虽然现阶段的框架建立在“场景(scene)”之上,并在一定程度上体现出“立场(standpoint)”的概念,但这仅是局限在单句范围内的“小场景”和“施事”方的“小立场”,还不能反映站在语言使用者角度(或立场),在文章层次或隐喻着社会知识层次的这种“大场景”(即“语境”)下的语义关系。
但是,自然语言中大量存在的歧义性和模糊性等现象,是现阶段以词语为核心,对句子的语义理解所不能处理的。它忽视了作为语言的使用者“人”的主体地位。如维特根斯坦所强调的,人是语言的使用者,语言的使用是同人的生命活动息息相关的。这一思路把语言的使用放在了人类生活这样一个大背景中了。主体的参与性以及不同主体使用语言的不同方式,是考察语言的前提。词语和语句作为工具,它们的意义只能在使用中表现出来。因为语句的意义并不是隐藏在它的分析中的,而是体现在它在具体的语言游戏中的使用。这就消解了存在于自然语言之中的歧义性、模糊性、隐喻等一直困扰语言学家的问题,从而为自然语言处理指出了发展方向:只有引进语言的使用者以及具体的语境描述,才能解决语句的意义问题。
正是在这个意义上,以强调语言使用者的主体性和语境描述为特征,自然语言处理从语义阶段进入到语用阶段,这也是将自然语言处理划分为语义阶段和语用阶段的意义所在。实质上,从语义阶段到语用阶段的转换,实现了将语义和语用统一于一个认知模型的过程。“一方面,语义学通过语言表达式的语法规则提供了语言的编码——解码装置,将物理实在与语言代码有机结合起来,另一方面,语用学则诉诸具体言说和行为语境,通过主体意向性在交流中将思想转化为语言推理过程,形成了对世界的认识和对知识的传达。它们构成了解释人类行为和意义的认知系统。”[94]
总之,自然语言处理正经历着一个从语形到语义、再到语用的逐步递进的发展过程。基于自然语言处理的智能互联网,其发展历程似乎正遵循着莫里斯和卡尔纳普的理论,在经历了前一阶段的语形网之后,正逐步迈向语义网这一新的阶段,最终很有可能迈向语用网这一更高层次。
[1] [美]S.摩根贝塞:《科学解释》,载《哲学译丛》,1987(6)。
[2] 郭贵春:《后现代科学实在论》,170页,北京,知识出版社,1995。
[3] Philip Kitcher,Wesley C.Salmon,Scientific Explanation,Minnesota:University of Minnesota Press,1989,p.5.
[4] Roger Cohen,The Context of Explanation,Dordrecht:Kluwer Academic Publishers,1993,pp.1-4.
[5] Wesley C.Salmon,“The Spirit of Logical Empiricism:Carl G.Hempel’s Role in Twentieth-Century Philosophy of Science,” in Philosophy of Science,Vol.66,September,1999,p.343.
[6] Philip Kitcher,“Carl G.Hempel(1905-1997),” in A.Martinich,D.Sosa(eds),A Companion to Analytic Philosophy,Blackwell Publishers,2001,pp.156-157.
[7] Wesley C.Salmon,Statistical Explanation and Statistical Relevance,Pittsburgh:Pittsburgh Press,1971,p.42.
[8] Philip Kitcher,Wesley C.Salmon,Scientific Explanation,Minnesota:University of Minnesota Press,1989,p.128.
[9] 张志林:《论科学解释》,载《哲学研究》,1999(1)。
[10] Jerrold L.Aronson,A Realist Philosophy of Science,New york:St.Martins Press,1984,p.190.
[11] Michael Friedman,“Explanation and Scientific Understanding,” in Journal of Philosophy,71,1974,p.15.
[12] Bas C.Van Fraassen,The Scientific Image,Oxford:Clarendon Press,1980,p.156.
[13] Thomas R.Grimes,Explanation and the Poverty of Pragmatics,Erkenntnis,27,1987,p.80.
[14] Bas C.Van Fraassen,The Scientific Image,Oxford:Clarendon Press,1980,p.156.
[15] Bas C.Van Fraassen,The Scientific Image,Oxford:Clarendon Press,1980,pp.155-156.
[16] Harmon Holcomb,“Logicism and Achinstein’ Pragmatic Theory of Scientific Explanation,” in Dialectica,41,1987,p.239.
[17] Alan Mycroft,“Programming Language Design and Analysis Motivated by Hardware Evolution,” in Static Analysis Symposium,4634,2007,pp.18-33.
[18] 刘方爱、乔香珍、刘志勇:《并行计算模型的层次分析及性能评价》,载《计算机科学》,2000(8)。
[19] FORTRAN语言是第一个面向过程的高级语言,是科学计算领域最主要的编程语言。1956年面世以来经过不断完善,逐步加入面向对象等现代语言特征,可与Visual C++联合使用。1997年公布的FORTRAN 95标准主要加强了对并行计算的支持。
[20] 刘方爱、乔香珍、刘志勇:《并行计算模型的层次分析及性能评价》,载《计算机科学》,2000(8)。
[21] 韩卫、郝红宇、代丽:《并行程序设计语言发展现状》,载《计算机科学》,2003(11)。
[22] Ada语言是第四代计算机程序设计语言,以历史上第一位程序员的名字命名。Ada语言编程具有高度可靠性,支持实时系统和并发程序设计。Ada95版还加入了面向对象的设计。
[23] Occam语言是以14世纪哲学家William of Occam的著名公设奥卡姆剃刀(“如无必要,勿增实体”)命名,是包含串行处理、通道通信的并行程序语言。PAR结构,即多个串行进程同时执行,是Occam语言的最大特征。
[24] 邵晖:《军用计算机编程语言的选择》,载《电光与控制》,1996(3)。
[25] [英]格林·温克尔:《程序设计语言的形式语义》,宋国新、邵志清等译,258页,北京,机械工业出版社,2004。
[26] 诸昌钤、马永强:《并行处理程序设计语言OCCAM》,92~99页,成都,西南交通大学出版社,1990。
[27] 袁崇义:《Petri网原理与应用》,3页,北京,电子工业出版社,2005。
[28] 袁崇义:《Petri网原理与应用》,1页,北京,电子工业出版社,2005。
[29] 袁崇义:《Petri网原理与应用》,北京,电子工业出版社,2005,内容简介。
[30] [美]B.P.麦克罗林:《计算主义、联结主义和心智哲学》,参见《计算与信息哲学导论》,317页,北京,商务印书馆,2010。
[31] [美]B.P.麦克罗林:《计算主义、联结主义和心智哲学》,参见《计算与信息哲学导论》,319页,北京,商务印书馆,2010。
[32] [英]格林·温克尔:《程序设计语言的形式语义》,宋国新、邵志清等译,前言,北京,机械工业出版社,2004。
[33] Philip N.JohnsonLaird,“Mental Models of Meaning,” in Laird Johnson(eds),Elements of Discourse Understanding,Cambridge:Cambridge University Press,1981,p.28.
[34] Laird Johnson,Meaning and Mental Representation,How in meaning mentally Represented,Indianapolis:Indiana Llniversity Press,1988.
[35] J.Hangeland.Meaning and Cognitive Structure.How Can a Symbol Mean Something ?New Jersey,Ablex Publishing Corporation,1986,p.86.
[36] [意]L.弗洛里迪:《计算与信息哲学导论》,127页,北京,商务印书馆,2010。
[37] 袁崇义:《Petri网原理与应用》,249页,北京,电子工业出版社,2005。
[38] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,1页,杭州,浙江人民出版社,2013。
[39] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,8页,杭州,浙江人民出版社,2013。
[40] [英]丹·克莱恩、沙罗恩·沙蒂尔、比尔·梅布林:《视读逻辑学》,许兰译,103页,合肥,安徽文艺出版社,2007。
[41] [美]斯图尔特·夏皮罗:《数学哲学:对数学的思考》,郝兆宽、杨睿之译,22页,上海,复旦大学出版社,2009。
[42] 陈波:《逻辑学是什么》,引言,54~55页,北京,北京大学出版社,2002。
[43] 陈波:《逻辑学是什么》,引言,37页,北京,北京大学出版社,2002。
[44] 谭永基、俞红编:《现实世界的数学视角与思维》,215页,上海,复旦大学出版社,2010。
[45] [美]斯图尔特·夏皮罗:《数学哲学:对数学的思考》,郝兆宽、杨睿之译,232~233页,上海,复旦大学出版社,2012。
[46] [比利时]伊利亚·普里戈金:《确定性的终结:时间、浑沌与新自然法则》,湛敏译,3页,上海,上海科技教育出版社,2009。
[47] [美]斯图尔特·拉塞尔、彼得·诺维格:《人工智能——一种现代方法》(第二版),姜哲、金奕江、张敏、杨磊等译,731页,北京,人民邮电出版社,2010。
[48] [美]约瑟夫·贾拉塔诺、盖理·赖利:《专家系统原理与编程》,印鉴、陈忆群、刘星成译,119页,北京,机械工业出版社,2006。
[49] Sankar K.Pal,Andrzej Skowron,A Rough fuzzy hybridization:a new trend in decision making,Singapore:Springer,1999.
[50] B.Walczak,D.L.Massart,“Rough sets theory”,Chemometrics and Intelligent Laboratory Systems,47(1),1999,pp.1-16.
[51] Shi Zhongzhi,Dong Mingkai,Jiang Yuncheng et al,“A Logic Foundation for the Semantic Web,” in Science in China,Series F,Information Sciences,48(2),2005,pp.161-178.
[52] [美]约瑟夫·贾拉塔诺、盖理·赖利:《专家系统原理与编程》,印鉴、陈忆群、刘星成译,163~166页,北京,机械工业出版社,2006。
[53] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,26页,成都,四川教育出版社,1986。
[54] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,213页,成都,四川教育出版社,1986。
[55] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,213页,成都,四川教育出版社,1986。
[56] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,207页,成都,四川教育出版社,1986。
[57] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,4页,成都,四川教育出版社,1986。
[58] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,27页,成都,四川教育出版社,1986。
[59] [比利时]G.尼科里斯、I.普利高津:《探索复杂性》,罗久里、陈奎宁译,6页,成都,四川教育出版社,1986。
[60] [比利时]伊利亚·普里戈金:《确定性的终结:时间、浑沌与新自然法则》,湛敏译,3页,上海,上海科技教育出版社,2009。
[61] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,97页,杭州,浙江人民出版社,2013。
[62] [美]斯图尔特·夏皮罗:《数学哲学:对数学的思考》,郝兆宽、杨睿之译,22页,上海,复旦大学出版社,2009。
[63] [英]维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛杨燕、周涛译,27、45、67、97页,杭州,浙江人民出版社,2013。
[64] Engineering Ltd,iSIGHT User’s Guide,Engineering Let,2004.
[65] Serge Abiteboul,Paris Kanellakis,Gosta Grahne,“On the representation and querying of sets of possible worlds,” ACM SIGMOD Record,16(3),1987,pp.34-48.
[66] Jennifer Widom.“Trio:A system for integrated management of data,accuracy,and lineage,” in Proceedings of the 2nd Biennial Conference on Innovative Data Systems Research,Asilomar,2005,pp.262-276.
[67] [美]比尔·弗兰克斯:《驾驭大数据》,黄海、车浩阳、王悦等译,序言,北京,人民邮电出版社,2013。
[68] [美]杰里米·里夫金:《第三次工业革命:新经济模式如何改变世界》,张体伟、孙豫宁译,27页,北京,中信出版社,2012。
[69] Howard Gardner,The Mind’s New Science:A History of the Cognitive Revolution,New York:Basic Books,Inc.Publishers,1985,p.38.
[70] Robert Audi,The Cambridge Dictionary of Philosophy,Cambridge:Cambridge University Press,1999,p.54.
[71] Robert Audi,The Cambridge Dictionary of Philosophy,Cambridge:Cambridge University Press,1999,1999,p.352.
[72] 殷杰、郭贵春:《哲学对话的新平台——科学语用学的元理论研究》,167~168页,太原,山西科学技术出版社,2003。
[73] 殷杰:《语境主义世界观的特征》,载《哲学研究》,2006(5)。
[74] Charles W.Morris,“Foundation of the Theory of Signs (1938)”,Writing on the General Theory of Signs,The Hague:Mouton,1971,pp.21-22.
[75] Charles W.Morris,Signs,Language and Behavior,New York:Prentice-Hall,1946,p.219.
[76] Noam Chomsky,Syntactic Structures,The Hague/Paris:Mouton,1957,p.19.
[77] 尼古拉斯·布宁、余纪元:《西方哲学英汉对照词典》,1018页,北京,人民出版社,2001。
[78] 刘开瑛:《中文文本自动分词和标注》,10~12页,北京,商务印书馆,2000。
[79] Michael Dummett,Origins of Analytic Philosophy,Cambridge,Massachusetts:Harvard University Press,1993,p.5.
[80] 刘丹青:《语义优先还是语用优先——汉语语法学体系建设断想》,载《语文研究》,1995(2)。
[81] Katarzyna Jaszczolt,Semantics and Pragmatics:Meaning in Language and Discourse,London:Longman,2002,p.2.
[82] 殷杰、董佳蓉:《论自然语言处理的发展趋势》,载《自然辩证法研究》,2008(3)。
[83] Jerry Fodor,The Language of Thought,Boston:Havard University Press,1975,p.2.
[84] [英]A·屈森斯:《概念的联结论构造》,出自《人工智能哲学》,394页,上海,上海译文出版社,2006。
[85] Howard Gardner,The Mind’s New Science:A History of the Cognitive Revolution,New York:Basic Books,Inc.,Publishers,1985,pp.28-48.
[86] 史忠植:《智能科学》,2页,北京,清华大学出版社,2006。
[87] Charles J.Fillmore,“Background to Frame Net,” in International Journal of Lexicography,16,2003,pp.235-250.
[88] G.A.Miller,“WordNet:An on-line lexical database,” in International Journal of Lexicography,4,1990,pp.235-312.
[89] 史忠植:《智能科学》,483页,北京,清华大学出版社,2006。
[90] 李国杰:《对计算机科学的反思》,载《中国计算机学会通讯》,2006(1)。
[91] [奥]维特根斯坦:《哲学研究》,李步楼译,163页,北京,商务印书馆,1996。
[92] 由丽萍:《构建现代汉语框架语义知识库技术研究》,上海,上海师范大学博士学位论文,2006。
[93] 冯志伟:《基于经验主义的语料库研究》,载《术语标准化与信息技术》,2007(1)。
[94] 殷杰、郭贵春:《哲学对话的新平台——科学语用学的元理论研究》,97页,太原,山西科学技术出版社,2003。