汉文化资料库不同层次的实用要求(3)

作者：佚名；更新时间：2014-12-11

品可以借鉴，无须多说。?
　　但有一点需要特别强调一下，由于“普及库”的功能主要是面向大众，起传统文化的普及和传播作用，所以它除了在形式上的美观、生动外，更要求内容上的准确和可靠，否则以讹传讹，将贻害无穷。?

补充?
　　由台湾财团法人印顺文教基金会发行的《印顺法师佛学著作集》3.1版，也是一部值得特别提出一说的汉文专题资料库精品。本数据库的主要内容是印顺法师的全部佛学著作，但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本，以及丁福保的《佛学辞典》等内容。在技术表现方面，它采用Accelon全文检索系统制作，功能相当强大，齐备、方便、快速。一般研究所需要的检索功能，如全文字词检索(包括用and、or、not，以及万用字元替代检索等)、字(词)频统计(分别显示总数和各册数)、逐条显示(显示的长度和行数等可以自定义)、调阅全文等全部具备。?
　　又，凡印顺法师著作中引用的佛典原文，主要的也都给出了连接，点击该处系统即会自动弹出一个新窗口，连接到相关的《大正藏》原典内容。在阅读印顺法师著作或《大正藏》时，如遇到难解的名相，则只要点中它，系统立即会自动弹出一个新窗口，连接到《佛学辞典》相关的词条，以供参考。该系统也提供了引用复制的功能，选取若干文字(预设9字以上，若9字以下则将自动连接至《佛学辞典》)后，便能自动储存于剪贴版上，然后可粘贴至任何文字编辑器上，更重要的是它同时会标出所选文字的出处(书名和页码)。诸凡印顺法师著作中的各种图表，也能极方便地调出显示。整个系统设计真是考虑得十分周到，使用也极为方便。?
　　此外，该系统还有几个特点值得一提：一是该系统基本上是一个绿色系统，装卸方便。二是，该系统既可装在硬盘上使用，也可直接在光盘上运行。三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。四是该系统有良好的扩充性，如辞典还可以添加，文本数据库也可以不断增加(从其说明中知道，原来还有《中国古典文学名著》一种)等等。

附录：中文字符集问题?
　　在现行的几套中文字符集中，在处理古典文献时都存在着这样那样的不足，有不少问题值得探讨。现有中文字符集的情况如下：?
　　GB2312—80含6763汉字(全部简体)?
　　GBK(CJK)含13345汉字(6763+6582〈扩展A〉)?
　　(简、繁体重复、混用)?
　　GB18030—2000含27484汉字(大字库，含6000多个藏、蒙、维字符)(同上)?
　　ISO10646(Unicode3.0)含70275汉字(超大字符集)(同上)?
　　(现提供的方正宋体字库为65531汉字)?
　　Big5含13000左右汉字(全部繁体)?
　　此外，还有Big5的扩展，“汉字库”(含54000左右汉字)?
　　日本的“今昔文字镜”(含100000左右汉字)(大量异体字，甲骨文、金文、越南汉字、梵文字体等)?
　　以上几种字符集中GB2312、GBK和Big5是通用的，其余都需特别安装，而且输入法一般也只有内码区位法一种，很不方便。?
　　在简体中文系统中，GBK已是通用的标准字符集。但GBK是由GB2321扩充出来的，除了扩充一部分GB2321中没有的字外，相当部分是与GB2321字符集中简体字相对应的繁体字，并且扩充GB2321中没有的那部分字中，也有一些是繁简两存的。因此，GBK字符集中至少存在以下几方面的问题：一，繁简重复字以及部分异体字占去了数千个码位(据我粗略检查，至少有3000个左右)；二，输入法上繁简转换或选择的麻烦；三，最大的问题是，扩展部分的字中，大部分只有繁体而没有简体，这样在一篇简体写作的文章中，如果用到了扩展部分只有繁体的字，就会出现繁简混杂的现象(这种现象在古文献，或引用古文献写作的文章，用简体显示时最为明显)，很不规范。?
　　鉴于GBK字符集的通用性，以及汉字量的适中，能否考虑在现有GBK字符集的基础上，改造制作一个古籍专用的GBK字符集。具体设想如下：?
　　一，全部为繁体字和通用规范字。去掉重复的简体字和异体字(最多的如“剑”字，在GBK字符集中有繁简异体共7个之多：“剑”、“剑”、“?FDA1?”、“?FDA2?”、“?FDA3?”、“?FDA4?”、“?FDA5?”)，可以空出3000个左右的码位，再加上GBK字符集中原有的空码位(约1300个左右)，这样至少可以再增加4000个左右的汉字，如果制作汉文资料库一律遵循使用通用规范字的话，改造后的GBK字符集应该够用的了。?
　　二，为保持与原字符集的兼容性，改造的原则是尽量保持原字符的区位。首先，GB2321部分和GBK扩充部分中为原来GB2321中没有的字，或是与GB2321中简体字对应的一对多的繁体字部分，全部按原区位不动，只把其中的简体字形改成繁体字形。其次，增加部分的汉字，按原扩充部分编码原则按部首和笔画插入相应的区位中，个别部首增加的字多，原相应区位空位不够的话，再作特殊处理。?
　　三，原GBK字符集中的符号区，所收符号不能满足古籍数据需要，需要增加(符号区的空位约有700个左右)。如古籍中最常遇到的周易卦爻象，太极阴阳鱼，以及平仄韵符号，古乐谱符号等等。?
　　四，按照改造后的、全部繁体字的GBK字符集，做一套相应的全部简体字的字库。这样，把繁简之间的转换，变成如同字体之间的转换。那么显示繁体时全是繁体，显示简体时全是简体，不会再有繁简混杂的现象。?
　　五，输入法也要调整，输入为繁体，有些码位变化的字和新增加的字需要重新编写。所以要求输入繁体，是为了保证转为简体时的准确性。如输入简体，在转为繁体时会产生许多错误和麻烦(当然也是可以想一些办法来减少错误的)。?
　　以上设想有些异想天开，也许不切实际。但如能实现，对古籍数据的处理，我想是有其方便之处的。如能再附加一个小程序，使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用，那么对沟通两岸汉文古籍数据库之间的交流，将更加方便。

上一篇：体察·赞颂·同情——《聊斋志异》反映的中国农民问题

下一篇：“王道政治”、“文化意义的中国人”和读经