我们为什么要划分词类?作为一种语法研究方法,词类划分体现了怎样的哲学观和认知观?词类所示意义与话语深层结构有怎样的关系?如何才能摆脱汉语词类划分的困境?本文将从认知心理的视角寻求问题的答案。
一、汉语词类划分的困境
词类划分一般遵循以下几类标准。
1.词法形态标准。具有悠久的欧洲语法学传统,对形态丰富的印欧系语言等适用。它发生于古典希腊语地区,传承于拉丁语地区,又主要发展成熟于法语、德语地区,这些语言都是典型的综合语,语法意义的表达主要依靠繁复的词形变化,词序等句法手段则相对次要,这种语言环境下建立的语法学体系,重词法、轻句法的取向是顺理成章的。只是,形态变化少的语言不适用词法形态标准,须从词的外部另寻标准。
2.句法功能标准。通常,名词充当主、宾语;动词充当谓语;形容词充当定语;副词充当状语,分工明确、职责清晰。但对汉语仍然不适用,试看:你快乐吗?怎样才能拥有快乐?快乐是人生的真谛。我愿做一只快乐的小鸟,快乐地面对每一天,也愿你每天都过得快乐!"快乐"可以充任全部六种句子成分,这是词的兼类?抑或词性活用?无怪乎我们感叹汉语词类研究的困局:若词有定类,则类无定职;若类有定职,则词无定类。既然形式无法解决,就只能求助于意义了。
3.概括语义标准。通常名词表示事物、动词表示过程、形容词表示性质和状态、数词表示数量,等等。概括语义符合人们思维意识中对词项所表达意义的主观感受,在跨语言对比中也有较高的接受度,这反映了词性应该具有超越具体语言的普遍基础,而形态变化等反倒可能仅是一种外在表象。据此标准,"学习"表过程,是动词;"成功"表状态,是形容词,但它们也都有名词性的用法,因为我们赋予了"过程"和"状态"被指称的能力,它们已然演变为一种"事物"了。可见,概括语义也不能完全解决词类问题。
4.分布标准。结构主义把词类看成词的分布,在词的组合和聚合中确定词的地位和价值。实质上这是一种综合标准:聚合关系体现的是同类个体的共性,类似于同类词具有相同的词法形态变化;组合关系则反映了词的搭配成句的能力,实现的正是词的句法功能;而词的概括语义则隐含在这两类关系之中。分布在汉语界的影响力是巨大的,若干重要的语法学著作无不以此作为词类划分的主要依据;然其效果却褒贬不一,原因在于分布综合了太多的标准,依此分出的词类数量往往很大,即便如此,在一个小类的内部,仍然无法保证所有成员的分布特征完全一致;但是,依据分布划出的词类具有描写精确、覆盖全面的特点,这在计算机自然语言处理领域,显示出一定的优势。
针对汉语词类划分的困难,学界也不乏创见,现举影响较广的两例:郭锐(2002)认为,词从本质上说是词的语法意义的类型,即词的表述功能,如陈述、指称、修饰等大的类型以及实体、位置、计量单位、数量、指示等小的类型。语法意义有不同的层次:性、数、格、时、体等表达的是较低层次的语法意义,是对概念意义的抽象;表述功能是较高层次的语法意义,它与语言的使用者关系密切,是在使用中表现出来的功能意义。郭锐进而又将表述功能划分为内在和外在两个层次,内在表述功能是词语固有的表述功能,是历时使用意义经约定俗成后固化的语法意义;外在表述功能是词语在某个语法位置上所实现的表述功能,具有一定的灵活性。例如"小王黄头发","小王"从哪个层面看都是指称;"黄头发"却不一致,它的内在表述功能是指称,外在表述功能则是陈述。
沈家煊(2009)提出了一种与众不同的汉语词类划分方案:名词、动词、形容词在印欧语中是分立关系,仅有少量的交叉;在汉语中则是包含关系,名词包含着动词,动词包含着形容词。这就很好地解释了汉语中动词可以充任主、宾语,形容词可以充任几乎所有句法成分的现象,但是包含关系却不是分类的常规模式,名词内部剔除动词、形容词之外的部分也应有相应的类属,否则就无法构成一个平衡的分类体系。
汉语词类划分的困难依然无法解决,这促使我们反思,词的定类与划分作为一种语法学的研究方法,其科学性如何体现?它是否真能反映语言(特别是汉语)的普遍规律?是否是我们唯一的选择?归结为一个更为本质的问题:我们为什么要划分词类?
二、词类划分是符号主义语言认知观的产物
回答这个问题,要从一种长期主导语言研究(乃至科学研究)的认知心理范式--符号主义(Symbolism)说起,该范式认为人脑的思维活动牵涉三类成员:一是源符号;二是规则系统;三是目标符号。思维过程可抽象为:一是源符号依次进入系统;二是规则对输入符号进行加工;三是生成并依次输出目标符号。符号主义着重于模拟人脑的功能,运用规则和符号的串行处理,就可以实现判断、选择、逻辑推导等思维运算。
上世纪30年代,Turing将符号主义机制抽象为一种架构简单却功能强大的数学模型--图灵机,图灵机的初衷是模拟人们利用纸笔进行计算的行为:一是在纸的某个位置写上或删除一个符号;二是把注意力转移到另一个位置;三是一套模拟人脑判断能力的处理规则;四是一个模拟人脑记忆能力的状态寄存器(佚名,1977)。图灵机架构具有强大的包容性,现实生活的许多问题都可以改写为图灵机可接受的形式,交由其处理。
之后,Kleene在图灵机的基础上定义了有限状态自动机(Finite-StateAutomaton),并证明其等价于图灵机。正则表达式(RegularExpression)是FSA的另一种实现,它由一套表达匹配规则的元字符组成,元字符的组合可以描述一系列特定模式的目标字符串。自此,图灵机作为处理语言现象的标准工具得到广泛应用。
现以RE为例,简述其工作原理:w[a-z]*er[s]可以表示任何以"w"开头,以"er"结尾的单词。其中,w表示以w起始,[a-z]表示任意一个小写字母,*表示[]中的内容可以重复0或任意多次,后面是字母er,er后的[s]意为空字符,表示单词结束。这就限定了一个符合特定要求的字符串,同样,只要稍加改动,我们不难利用RE生成一个符合"SVO"或"NP+VP"的句子来。
作为符号主义机器,图灵机、FSA和RE的基本架构是一致的,归结为有限客体在有限规则控制下经历的`有限状态的转移,包括五个要素:一是有限的输入符号;二是有限的系统状态;三是状态转移函数(有限的规则);四是系统初始状态;五是系统终极状态(正常终止状态、错误状态等)。
这就是符号主义范式认知世界和模拟人脑思维的基本单元。虽然它略显简陋,但多个单元组合成系统后,就具有了强大的处理能力,足以解决生产生活中的大部分问题。我们编写的计算机程序,无论多么复杂,最终都无一例外地分解为单一的图灵机架构,这表明图灵机具有强大的描述和概括能力,Turing因此被尊为"现代计算机科学之父".
需要特别注意的是,图灵机架构中有三处提到了"有限",即:有限的输入符号、有限的状态、有限的转移规则。"有限"在符号主义范式中是十分重要的概念,其作用是把处理对象和处理过程限定在可控的范围内。如果输入符号是无限的,处理对象就不可控;如果状态是无限的,则处理过程不可控;如果转移规则是无限的,则系统将变得过于复杂而失去实用意义。
语言系统中存在若干集合,它们中大都是有限集合,例如音位集合、音节集合、声调集合、词法规则集合、句法规则集合、文字集合等,它们不经任何处理就能够满足图灵机的输入条件,成为图灵机的处理对象。但是,词汇语义却有些特殊,它是无限的、开放的集合(指实词),为了满足符号主义处理机的要求,必须事先经过有限化改写。于是,在符号主义几乎一统天下的语法学界,寻求有效的语义有限化方法自然成了一项重要的基础工作,各类方法也应运而生,其中具代表性的包括:语义场理论及义素分析法、逻辑语义分析、词的定类及划分、语义格分析等,它们都是符号主义语言认知观下的最基础的语义有限化方法。
遗憾的是,各种语义有限化的尝试都不算成功[1],归根结底,这都源于语义的开放性天生地与符号主义机器互不相容:完整的语义系统必须是一个无限元素的集合,而符号主义机器能接受的却只是有限集合。这个矛盾使得任何语义有限化的尝试都显得捉襟见肘,左右为难,以牺牲语义细节为代价的有限化方法也许从根基上就是有缺陷的,我们需要寻找一种可行的替代方案。