汉字字频统计方法的改进的策略(2)
作者:佚名; 更新时间:2014-10-04
2.未能严格规定统计单位,或规定的统计单位不一致,影响到统计结果的科学性,不同的统计结果也无法进行比较。前面提到的北京语言学院语言教学研究所编的《汉字频度表》、北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制的《现代汉语字频统计表》、李波著《史记字频研究》以及北京书同文数字化技术有限公司编写的《古籍汉字字频统计》均未明确界定统计单位。只有收录在《中国语言生活状况报告(2005)》中的《报纸、广播电视、网络用字总表》的调查报告中对统计单位有粗略的说明:“字种数:8128个。这里的字种,指字形不同的汉字。”(11)这里无论是用的“字种”这个术语,还是“字形不同的汉字”,这样对字种的解释,表意都不够明确。首先,使用的字种这个术语与学术界一般的用法不同。周有光在《现代汉字学发凡》一文中曾用具体实例区别“字次”、“字种”和“字形”三个术语,他指出:“‘从群众中来到羣衆中去,是一条群众路线的原理’。这个句子里有几个字?甲答:20个字。乙答16个字。丙答:18个字。为什么答案不同?甲讲的是‘总字次’,有一个算一个。乙讲的是‘字种数’,同字异形合并计算。丙讲的是‘字形数’,同字异形分别计算。”(12)他在《现代汉语用字的定量问题》一文中又指出:“‘定量’是定‘字种’的总量。一个汉字可以繁简不同,形体不同,但是属于同一‘字种’,以‘正字’为标准。”(13)沙宗元在《文字学术语规范研究》一书中根据周有光的研究设立了“字形数”和“字种”两个术语,并分别给出了定义,他给“字形数”下的定义是:“根据汉字字形而不考虑其繁简、正异等字际关系进行统计所得出的汉字数量。”给“字种”下的定义是:“一个汉字即使有多个繁简体、异体字,也只作为一个来计算的汉字统计单位。”(14)该文中所定义的两个术语也存在不匹配的问题。跟“字种”匹配的术语是“字形”,跟“字形数”匹配的术语应是“字种数”。《报纸、广播电视、网络用字总表》中用的字种大致相当于周有光所说的字形。在实际操作中,《报纸、广播电视、网络用字总表》繁简字、异体字、新旧字形都作为不同的统计单位来统计的。在该表统计的8128个统计单位中包括繁体字361个,异体字193个,旧印刷字形47个,另有不合现行规范的类推简化字7个。
前面提到的那些未对统计单位作出明确规定的统计,在实际操作中所用的统计单位各不相同。
北京语言学院语言教学研究所编《汉字频度表》的统计单位大致是按照周有光定义的字种来操作的,统计的语料中包含繁简字、异体字和新旧字形,统计结果中有个别异体字和错误类推简化字,但未见繁体字和旧字形,应该是用简化字替代了繁体字,用新字形替代了旧字形。统计出的异体字,包括《一异表》收录的异体字,如,並(276)、并(1766);黏(1719)、粘(2495);渺(2321)、淼(4336)等;《一异表》未收的异体字,如,沙(649)、砂1756;衖(1901)、巷(2034)等;错误类推简化字,如,4475号“垅”(2189垄);4174号飚(当是技术错误)。
《中国语言生活状况报告(2005)》中的《报纸、广播电视、网络用字总表》的统计单位近似于周有光的字形,繁简字、异体字、新旧字形均作为不同的统计单位进行统计。表中收录繁体字361个(15),异体字193个(16),旧字形47个(17)。
统计单位的不明确、不统一,不仅影响到字频统计的科学性,也不利于统计结果的正确、有效使用。
四、汉字字频统计的改进
根据上述情况分析,我们认为必须加强字频统计的理论研究,完善统计原则,改进统计方法,提高字频统计的客观性和科学性。
首先,要实现字频统计的客观性,必须建设满足文字学研究需要的字料库。所谓字料库“是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础。”(18)只有根据字料库的原则建设字料库,基于字料库进行汉字的字频统计,改变以往基于语料库进行字频统计的做法,才能解决以往字频统计客观性不足的问题,实现字频统计的客观性,使得字频统计能够最大限度地反映社会用字的实际状况。
其次,汉字字频统计必须明确界定统计单位,划分不同层级的汉字统计单位,根据不同需要对汉字的不同层级的统计单位进行分类分层的字频统计。
汉字统计单位的界定与划分是一个非常复杂的问题,必须专门研究,不是本文能够全面解决的问题。本文仅以印刷楷书为例,以字频统计为目标,示范性地讨论字的概念界定与划分方法。
学术界不少学者曾经从文字学的角度对汉字中字的单位做过区分,但是,着眼点又有所不同,有的是着眼于汉字规范对字的单位进行界定,有的是着眼于对汉字使用实际状况的调查对字的单位进行界定。前者,如前文所述周有光在《现代汉字学发凡》一文中曾区别“字种”和“字形”。后者,如北京师范大学汉字构形学系列研究,从文本提取字形进行归纳,实际上也涉及汉字单位。王贵元的《马王堆帛书汉字构形系统研究》是最早从文本中提取字进行构形分析的专著。该书第二章“单字整理”,专门讨论从文本中提取字制作字表和进行统计的单位问题。文中先讨论了异写字、异构字、同形字三个概念,并在此基础上讨论了字样认同与别异、通行体与变体、单字统计原则等问题(19)。李运富在《楚国简帛文字构形系统研究》一书中,也在第二章设立了“单字整理”一章,并进一步把单字整理程序化,专门讨论了字样的提取与辨认问题,在此基础上讨论了字样群的处理,设立了字位与符位等概念,把字的单位区别为同体字样与异写字样、同符位异构字、异符位同形字等,已经有了字单位的层级性的思想(20)。到陈淑梅的《东汉碑隶构形系统研究》和齐元涛的《隋唐五代碑志楷书构形系统研究》,字样提取及不同层次单位的归纳程序基本成熟。王宁先生在为《汉字构形史丛书》写的总序中对此作了理论总结,她说:“对文本中的汉字加以整理,也就是必须对写在文本上实际使用的汉字进行三种性质不同的归纳:(1)字样的归纳。这是将重复出现的汉字字样归纳到一起并进行统计的工作,是将一切文本形式的汉字改变为字库形式第一步要做的工作。(2)字组的归纳,也就是对结构、功能相同书写略有变化的异写字的归纳。这些字属于同字异写,或称同构异写的关系。(3)字种的归纳,也就是对功能相同结构不同的异构字的归纳。这些字或因构件的选择不同,或因构件的增减不同而异形,因而有着不同的构意,但记词的功能是相同的。它们的关系属于同职异字,或称同词异字。”(21)王宁先生所说的“三种性质不同的归纳”如果都把它定义为字的话,信捷职称论文写作发表网,也就是三个不同层次的“字单位”。
从规定的角度可以采纳周有光先生的界定,把字的单位划分为字种、字形两级。
字的单位确定了,字频统计则可以根据不同的统计目的规定统计单位,可以以字型为统计单位统计型频,也可以以字样为单位统计样频,可以以字式为单位统计式频,可以以字种为单位统计种频。这样,不仅统计单位明确、清晰,而且每次特定的统计,统计单位统一、等质,便于统计数据的使用,以及不同统计数据的比较,使得字频统计的科学性得到保障。
注释:
①冯志伟:《现代汉字和计算机》,北京:北京大学出版社,1989年版,第109页。
②苏培成:《现代汉字学纲要》(增订本),北京:北京大学出版社,2001年版,第32页。
③沙宗元:《文字学术语规范研究》,合肥:安徽大学出版社,2008年版,第402页。
④国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,北京:商务印书馆,2006年版,第6页。
⑤北京书同文数字化技术有限公司:《古籍汉字字频统计》,北京:商务印书馆,2008年版,第14-15页。
⑥周有光:《中国语文纵横谈》,北京:清华大学出版社,1997年版,第64页。
⑦王凤阳:《汉字频率与汉字简化》,载《语文现代化丛刊》,北京:知识出版社,1980年第3辑,第92页。
⑧国家语言文字工作委员会、国家教育委员会:《关于发布〈现代汉语常用字表〉的联合通知》,1988年版。
⑨北京语言学院语言教学研究所:《现代汉语频率词典·编辑说明》,北京:北京语言学院出版社,1986年版。
⑩国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第6页。
(11)国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第6页。
(12)周有光:《周有光语言学论文集》,北京:商务印书馆,2004年版,第316页。原载于《语文现代化》丛刊第2辑,1980版。
(13)周有光:《周有光语言学论文集》,第339页。原载于《辞书研究》,1984年第4期。
(14)沙宗元:《文字学术语规范研究》,第401页。
(15)(16)(17)国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第257-261、262-264、266页。
(18)李国英、周晓文:《字料库建设的必要性与可行性》,《北京师范大学学报(社会科学版)》,2009年第5期。
(19)王贵元:《马王堆帛书汉字构形系统研究》,南宁:广西教育出版社,1999年版,第15-24页。
(20)李运富:《楚国简帛文字构形系统研究》,长沙:岳麓书社,1997年版,第22-43页。
(21)王宁:《汉字构形史丛书·总序》,上海:上海教育出版社,2003年版。
前面提到的那些未对统计单位作出明确规定的统计,在实际操作中所用的统计单位各不相同。
北京语言学院语言教学研究所编《汉字频度表》的统计单位大致是按照周有光定义的字种来操作的,统计的语料中包含繁简字、异体字和新旧字形,统计结果中有个别异体字和错误类推简化字,但未见繁体字和旧字形,应该是用简化字替代了繁体字,用新字形替代了旧字形。统计出的异体字,包括《一异表》收录的异体字,如,並(276)、并(1766);黏(1719)、粘(2495);渺(2321)、淼(4336)等;《一异表》未收的异体字,如,沙(649)、砂1756;衖(1901)、巷(2034)等;错误类推简化字,如,4475号“垅”(2189垄);4174号飚(当是技术错误)。
《中国语言生活状况报告(2005)》中的《报纸、广播电视、网络用字总表》的统计单位近似于周有光的字形,繁简字、异体字、新旧字形均作为不同的统计单位进行统计。表中收录繁体字361个(15),异体字193个(16),旧字形47个(17)。
统计单位的不明确、不统一,不仅影响到字频统计的科学性,也不利于统计结果的正确、有效使用。
四、汉字字频统计的改进
根据上述情况分析,我们认为必须加强字频统计的理论研究,完善统计原则,改进统计方法,提高字频统计的客观性和科学性。
首先,要实现字频统计的客观性,必须建设满足文字学研究需要的字料库。所谓字料库“是指以文字的整理和文字学的研究为目标,按照语言学和文字学的原则,收集实际使用中能够代表特定文字或文字变体的真实出现过的文字书写形态,运用计算机技术建成的具有一定规模的大型电子文字资源库。字料库是在大规模真实文本的基础上生成的真实的文字书写形态的有序集合,是利用计算机对文字形体进行各种分类、统计、检索、综合、比较等研究的基础。”(18)只有根据字料库的原则建设字料库,基于字料库进行汉字的字频统计,改变以往基于语料库进行字频统计的做法,才能解决以往字频统计客观性不足的问题,实现字频统计的客观性,使得字频统计能够最大限度地反映社会用字的实际状况。
其次,汉字字频统计必须明确界定统计单位,划分不同层级的汉字统计单位,根据不同需要对汉字的不同层级的统计单位进行分类分层的字频统计。
汉字统计单位的界定与划分是一个非常复杂的问题,必须专门研究,不是本文能够全面解决的问题。本文仅以印刷楷书为例,以字频统计为目标,示范性地讨论字的概念界定与划分方法。
学术界不少学者曾经从文字学的角度对汉字中字的单位做过区分,但是,着眼点又有所不同,有的是着眼于汉字规范对字的单位进行界定,有的是着眼于对汉字使用实际状况的调查对字的单位进行界定。前者,如前文所述周有光在《现代汉字学发凡》一文中曾区别“字种”和“字形”。后者,如北京师范大学汉字构形学系列研究,从文本提取字形进行归纳,实际上也涉及汉字单位。王贵元的《马王堆帛书汉字构形系统研究》是最早从文本中提取字进行构形分析的专著。该书第二章“单字整理”,专门讨论从文本中提取字制作字表和进行统计的单位问题。文中先讨论了异写字、异构字、同形字三个概念,并在此基础上讨论了字样认同与别异、通行体与变体、单字统计原则等问题(19)。李运富在《楚国简帛文字构形系统研究》一书中,也在第二章设立了“单字整理”一章,并进一步把单字整理程序化,专门讨论了字样的提取与辨认问题,在此基础上讨论了字样群的处理,设立了字位与符位等概念,把字的单位区别为同体字样与异写字样、同符位异构字、异符位同形字等,已经有了字单位的层级性的思想(20)。到陈淑梅的《东汉碑隶构形系统研究》和齐元涛的《隋唐五代碑志楷书构形系统研究》,字样提取及不同层次单位的归纳程序基本成熟。王宁先生在为《汉字构形史丛书》写的总序中对此作了理论总结,她说:“对文本中的汉字加以整理,也就是必须对写在文本上实际使用的汉字进行三种性质不同的归纳:(1)字样的归纳。这是将重复出现的汉字字样归纳到一起并进行统计的工作,是将一切文本形式的汉字改变为字库形式第一步要做的工作。(2)字组的归纳,也就是对结构、功能相同书写略有变化的异写字的归纳。这些字属于同字异写,或称同构异写的关系。(3)字种的归纳,也就是对功能相同结构不同的异构字的归纳。这些字或因构件的选择不同,或因构件的增减不同而异形,因而有着不同的构意,但记词的功能是相同的。它们的关系属于同职异字,或称同词异字。”(21)王宁先生所说的“三种性质不同的归纳”如果都把它定义为字的话,信捷职称论文写作发表网,也就是三个不同层次的“字单位”。
从规定的角度可以采纳周有光先生的界定,把字的单位划分为字种、字形两级。
字的单位确定了,字频统计则可以根据不同的统计目的规定统计单位,可以以字型为统计单位统计型频,也可以以字样为单位统计样频,可以以字式为单位统计式频,可以以字种为单位统计种频。这样,不仅统计单位明确、清晰,而且每次特定的统计,统计单位统一、等质,便于统计数据的使用,以及不同统计数据的比较,使得字频统计的科学性得到保障。
注释:
①冯志伟:《现代汉字和计算机》,北京:北京大学出版社,1989年版,第109页。
②苏培成:《现代汉字学纲要》(增订本),北京:北京大学出版社,2001年版,第32页。
③沙宗元:《文字学术语规范研究》,合肥:安徽大学出版社,2008年版,第402页。
④国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,北京:商务印书馆,2006年版,第6页。
⑤北京书同文数字化技术有限公司:《古籍汉字字频统计》,北京:商务印书馆,2008年版,第14-15页。
⑥周有光:《中国语文纵横谈》,北京:清华大学出版社,1997年版,第64页。
⑦王凤阳:《汉字频率与汉字简化》,载《语文现代化丛刊》,北京:知识出版社,1980年第3辑,第92页。
⑧国家语言文字工作委员会、国家教育委员会:《关于发布〈现代汉语常用字表〉的联合通知》,1988年版。
⑨北京语言学院语言教学研究所:《现代汉语频率词典·编辑说明》,北京:北京语言学院出版社,1986年版。
⑩国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第6页。
(11)国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第6页。
(12)周有光:《周有光语言学论文集》,北京:商务印书馆,2004年版,第316页。原载于《语文现代化》丛刊第2辑,1980版。
(13)周有光:《周有光语言学论文集》,第339页。原载于《辞书研究》,1984年第4期。
(14)沙宗元:《文字学术语规范研究》,第401页。
(15)(16)(17)国家语言资源监测与研究中心:《中国语言生活状况报告(2005)》,第257-261、262-264、266页。
(18)李国英、周晓文:《字料库建设的必要性与可行性》,《北京师范大学学报(社会科学版)》,2009年第5期。
(19)王贵元:《马王堆帛书汉字构形系统研究》,南宁:广西教育出版社,1999年版,第15-24页。
(20)李运富:《楚国简帛文字构形系统研究》,长沙:岳麓书社,1997年版,第22-43页。
(21)王宁:《汉字构形史丛书·总序》,上海:上海教育出版社,2003年版。
上一篇: “差点儿”和“差不多”的语文意义分析