汉文化资料库不同层次的实用要求(3)
作者:佚名; 更新时间:2014-12-11
品可以借鉴,无须多说。?
但有一点需要特别强调一下,由于“普及库”的功能主要是面向大众,起传统文化的普及和传播作用,所以它除了在形式上的美观、生动外,更要求内容上的准确和可靠,否则以讹传讹,将贻害无穷。?
补充?
由台湾财团法人印顺文教基金会发行的《印顺法师佛学著作集》3.1版,也是一部值得特别提出一说的汉文专题资料库精品。本数据库的主要内容是印顺法师的全部佛学著作,但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本,以及丁福保的《佛学辞典》等内容。在技术表现方面,它采用Accelon全文检索系统制作,功能相当强大,齐备、方便、快速。一般研究所需要的检索功能,如全文字词检索(包括用and、or、not,以及万用字元替代检索等)、字(词)频统计(分别显示总数和各册数)、逐条显示(显示的长度和行数等可以自定义)、调阅全文等全部具备。?
又,凡印顺法师著作中引用的佛典原文,主要的也都给出了连接,点击该处系统即会自动弹出一个新窗口,连接到相关的《大正藏》原典内容。在阅读印顺法师著作或《大正藏》时,如遇到难解的名相,则只要点中它,系统立即会自动弹出一个新窗口,连接到《佛学辞典》相关的词条,以供参考。该系统也提供了引用复制的功能,选取若干文字(预设9字以上,若9字以下则将自动连接至《佛学辞典》)后,便能自动储存于剪贴版上,然后可粘贴至任何文字编辑器上,更重要的是它同时会标出所选文字的出处(书名和页码)。诸凡印顺法师著作中的各种图表,也能极方便地调出显示。整个系统设计真是考虑得十分周到,使用也极为方便。?
此外,该系统还有几个特点值得一提:一是该系统基本上是一个绿色系统,装卸方便。二是,该系统既可装在硬盘上使用,也可直接在光盘上运行。三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。四是该系统有良好的扩充性,如辞典还可以添加,文本数据库也可以不断增加(从其说明中知道,原来还有《中国古典文学名著》一种)等等。
附录:中文字符集问题?
在现行的几套中文字符集中,在处理古典文献时都存在着这样那样的不足,有不少问题值得探讨。现有中文字符集的情况如下:?
GB2312—80含6763汉字(全部简体)?
GBK(CJK)含13345汉字(6763+6582〈扩展A〉)?
(简、繁体重复、混用)?
GB18030—2000含27484汉字(大字库,含6000多个藏、蒙、维字符)(同上)?
ISO10646(Unicode3.0)含70275汉字(超大字符集)(同上)?
(现提供的方正宋体字库为65531汉字)?
Big5含13000左右汉字(全部繁体)?
此外,还有Big5的扩展,“汉字库”(含54000左右汉字)?
日本的“今昔文字镜”(含100000左右汉字)(大量异体字,甲骨文、金文、越南汉字、梵文字体等)?
以上几种字符集中GB2312、GBK和Big5是通用的,其余都需特别安装,而且输入法一般也只有内码区位法一种,很不方便。?
在简体中文系统中,GBK已是通用的标准字符集。但GBK是由GB2321扩充出来的,除了扩充一部分GB2321中没有的字外,相当部分是与GB2321字符集中简体字相对应的繁体字,并且扩充GB2321中没有的那部分字中,也有一些是繁简两存的。因此,GBK字符集中至少存在以下几方面的问题:一,繁简重复字以及部分异体字占去了数千个码位(据我粗略检查,至少有3000个左右);二,输入法上繁简转换或选择的麻烦;三,最大的问题是,扩展部分的字中,大部分只有繁体而没有简体,这样在一篇简体写作的文章中,如果用到了扩展部分只有繁体的字,就会出现繁简混杂的现象(这种现象在古文献,或引用古文献写作的文章,用简体显示时最为明显),很不规范。?
鉴于GBK字符集的通用性,以及汉字量的适中,能否考虑在现有GBK字符集的基础上,改造制作一个古籍专用的GBK字符集。具体设想如下:?
一,全部为繁体字和通用规范字。去掉重复的简体字和异体字(最多的如“剑”字,在GBK字符集中有繁简异体共7个之多:“剑”、“剑”、“?FDA1?”、“?FDA2?”、“?FDA3?”、“?FDA4?”、“?FDA5?”),可以空出3000个左右的码位,再加上GBK字符集中原有的空码位(约1300个左右),这样至少可以再增加4000个左右的汉字,如果制作汉文资料库一律遵循使用通用规范字的话,改造后的GBK字符集应该够用的了。?
二,为保持与原字符集的兼容性,改造的原则是尽量保持原字符的区位。首先,GB2321部分和GBK扩充部分中为原来GB2321中没有的字,或是与GB2321中简体字对应的一对多的繁体字部分,全部按原区位不动,只把其中的简体字形改成繁体字形。其次,增加部分的汉字,按原扩充部分编码原则按部首和笔画插入相应的区位中,个别部首增加的字多,原相应区位空位不够的话,再作特殊处理。?
三,原GBK字符集中的符号区,所收符号不能满足古籍数据需要,需要增加(符号区的空位约有700个左右)。如古籍中最常遇到的周易卦爻象,太极阴阳鱼,以及平仄韵符号,古乐谱符号等等。?
四,按照改造后的、全部繁体字的GBK字符集,做一套相应的全部简体字的字库。这样,把繁简之间的转换,变成如同字体之间的转换。那么显示繁体时全是繁体,显示简体时全是简体,不会再有繁简混杂的现象。?
五,输入法也要调整,输入为繁体,有些码位变化的字和新增加的字需要重新编写。所以要求输入繁体,是为了保证转为简体时的准确性。如输入简体,在转为繁体时会产生许多错误和麻烦(当然也是可以想一些办法来减少错误的)。?
以上设想有些异想天开,也许不切实际。但如能实现,对古籍数据的处理,我想是有其方便之处的。如能再附加一个小程序,使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用,那么对沟通两岸汉文古籍数据库之间的交流,将更加方便。
但有一点需要特别强调一下,由于“普及库”的功能主要是面向大众,起传统文化的普及和传播作用,所以它除了在形式上的美观、生动外,更要求内容上的准确和可靠,否则以讹传讹,将贻害无穷。?
补充?
由台湾财团法人印顺文教基金会发行的《印顺法师佛学著作集》3.1版,也是一部值得特别提出一说的汉文专题资料库精品。本数据库的主要内容是印顺法师的全部佛学著作,但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本,以及丁福保的《佛学辞典》等内容。在技术表现方面,它采用Accelon全文检索系统制作,功能相当强大,齐备、方便、快速。一般研究所需要的检索功能,如全文字词检索(包括用and、or、not,以及万用字元替代检索等)、字(词)频统计(分别显示总数和各册数)、逐条显示(显示的长度和行数等可以自定义)、调阅全文等全部具备。?
又,凡印顺法师著作中引用的佛典原文,主要的也都给出了连接,点击该处系统即会自动弹出一个新窗口,连接到相关的《大正藏》原典内容。在阅读印顺法师著作或《大正藏》时,如遇到难解的名相,则只要点中它,系统立即会自动弹出一个新窗口,连接到《佛学辞典》相关的词条,以供参考。该系统也提供了引用复制的功能,选取若干文字(预设9字以上,若9字以下则将自动连接至《佛学辞典》)后,便能自动储存于剪贴版上,然后可粘贴至任何文字编辑器上,更重要的是它同时会标出所选文字的出处(书名和页码)。诸凡印顺法师著作中的各种图表,也能极方便地调出显示。整个系统设计真是考虑得十分周到,使用也极为方便。?
此外,该系统还有几个特点值得一提:一是该系统基本上是一个绿色系统,装卸方便。二是,该系统既可装在硬盘上使用,也可直接在光盘上运行。三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。四是该系统有良好的扩充性,如辞典还可以添加,文本数据库也可以不断增加(从其说明中知道,原来还有《中国古典文学名著》一种)等等。
附录:中文字符集问题?
在现行的几套中文字符集中,在处理古典文献时都存在着这样那样的不足,有不少问题值得探讨。现有中文字符集的情况如下:?
GB2312—80含6763汉字(全部简体)?
GBK(CJK)含13345汉字(6763+6582〈扩展A〉)?
(简、繁体重复、混用)?
GB18030—2000含27484汉字(大字库,含6000多个藏、蒙、维字符)(同上)?
ISO10646(Unicode3.0)含70275汉字(超大字符集)(同上)?
(现提供的方正宋体字库为65531汉字)?
Big5含13000左右汉字(全部繁体)?
此外,还有Big5的扩展,“汉字库”(含54000左右汉字)?
日本的“今昔文字镜”(含100000左右汉字)(大量异体字,甲骨文、金文、越南汉字、梵文字体等)?
以上几种字符集中GB2312、GBK和Big5是通用的,其余都需特别安装,而且输入法一般也只有内码区位法一种,很不方便。?
在简体中文系统中,GBK已是通用的标准字符集。但GBK是由GB2321扩充出来的,除了扩充一部分GB2321中没有的字外,相当部分是与GB2321字符集中简体字相对应的繁体字,并且扩充GB2321中没有的那部分字中,也有一些是繁简两存的。因此,GBK字符集中至少存在以下几方面的问题:一,繁简重复字以及部分异体字占去了数千个码位(据我粗略检查,至少有3000个左右);二,输入法上繁简转换或选择的麻烦;三,最大的问题是,扩展部分的字中,大部分只有繁体而没有简体,这样在一篇简体写作的文章中,如果用到了扩展部分只有繁体的字,就会出现繁简混杂的现象(这种现象在古文献,或引用古文献写作的文章,用简体显示时最为明显),很不规范。?
鉴于GBK字符集的通用性,以及汉字量的适中,能否考虑在现有GBK字符集的基础上,改造制作一个古籍专用的GBK字符集。具体设想如下:?
一,全部为繁体字和通用规范字。去掉重复的简体字和异体字(最多的如“剑”字,在GBK字符集中有繁简异体共7个之多:“剑”、“剑”、“?FDA1?”、“?FDA2?”、“?FDA3?”、“?FDA4?”、“?FDA5?”),可以空出3000个左右的码位,再加上GBK字符集中原有的空码位(约1300个左右),这样至少可以再增加4000个左右的汉字,如果制作汉文资料库一律遵循使用通用规范字的话,改造后的GBK字符集应该够用的了。?
二,为保持与原字符集的兼容性,改造的原则是尽量保持原字符的区位。首先,GB2321部分和GBK扩充部分中为原来GB2321中没有的字,或是与GB2321中简体字对应的一对多的繁体字部分,全部按原区位不动,只把其中的简体字形改成繁体字形。其次,增加部分的汉字,按原扩充部分编码原则按部首和笔画插入相应的区位中,个别部首增加的字多,原相应区位空位不够的话,再作特殊处理。?
三,原GBK字符集中的符号区,所收符号不能满足古籍数据需要,需要增加(符号区的空位约有700个左右)。如古籍中最常遇到的周易卦爻象,太极阴阳鱼,以及平仄韵符号,古乐谱符号等等。?
四,按照改造后的、全部繁体字的GBK字符集,做一套相应的全部简体字的字库。这样,把繁简之间的转换,变成如同字体之间的转换。那么显示繁体时全是繁体,显示简体时全是简体,不会再有繁简混杂的现象。?
五,输入法也要调整,输入为繁体,有些码位变化的字和新增加的字需要重新编写。所以要求输入繁体,是为了保证转为简体时的准确性。如输入简体,在转为繁体时会产生许多错误和麻烦(当然也是可以想一些办法来减少错误的)。?
以上设想有些异想天开,也许不切实际。但如能实现,对古籍数据的处理,我想是有其方便之处的。如能再附加一个小程序,使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用,那么对沟通两岸汉文古籍数据库之间的交流,将更加方便。