汉文化资料库不同层次的实用要求(3)
作者:佚名; 更新时间:2014-12-11
品可以借鉴,无须多说。?
  但有一点需要特别强调一下,由于“普及库”的功能主要是面向大众,起传统文化的普及和传播作用,所以它除了在形式上的美观、生动外,更要求内容上的准确和可靠,否则以讹传讹,将贻害无穷。?

补充?
  由台湾财团法人印顺文教基金会发行的《印顺法师佛学著作集》3.1版,也是一部值得特别提出一说的汉文专题资料库精品。本数据库的主要内容是印顺法师的全部佛学著作,但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本,以及丁福保的《佛学辞典》等内容。在技术表现方面,它采用Accelon全文检索系统制作,功能相当强大,齐备、方便、快速。一般研究所需要的检索功能,如全文字词检索(包括用and、or、not,以及万用字元替代检索等)、字(词)频统计(分别显示总数和各册数)、逐条显示(显示的长度和行数等可以自定义)、调阅全文等全部具备。?
  又,凡印顺法师著作中引用的佛典原文,主要的也都给出了连接,点击该处系统即会自动弹出一个新窗口,连接到相关的《大正藏》原典内容。在阅读印顺法师著作或《大正藏》时,如遇到难解的名相,则只要点中它,系统立即会自动弹出一个新窗口,连接到《佛学辞典》相关的词条,以供参考。该系统也提供了引用复制的功能,选取若干文字(预设9字以上,若9字以下则将自动连接至《佛学辞典》)后,便能自动储存于剪贴版上,然后可粘贴至任何文字编辑器上,更重要的是它同时会标出所选文字的出处(书名和页码)。诸凡印顺法师著作中的各种图表,也能极方便地调出显示。整个系统设计真是考虑得十分周到,使用也极为方便。?
  此外,该系统还有几个特点值得一提:一是该系统基本上是一个绿色系统,装卸方便。二是,该系统既可装在硬盘上使用,也可直接在光盘上运行。三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。四是该系统有良好的扩充性,如辞典还可以添加,文本数据库也可以不断增加(从其说明中知道,原来还有《中国古典文学名著》一种)等等。

附录:中文字符集问题?
  在现行的几套中文字符集中,在处理古典文献时都存在着这样那样的不足,有不少问题值得探讨。现有中文字符集的情况如下:?
  GB2312—80含6763汉字(全部简体)?
  GBK(CJK)含13345汉字(6763+6582〈扩展A〉)?
  (简、繁体重复、混用)?
  GB18030—2000含27484汉字(大字库,含6000多个藏、蒙、维字符)(同上)?
  ISO10646(Unicode3.0)含70275汉字(超大字符集)(同上)?
  (现提供的方正宋体字库为65531汉字)?
  Big5含13000左右汉字(全部繁体)?
  此外,还有Big5的扩展,“汉字库”(含54000左右汉字)?
  日本的“今昔文字镜”(含100000左右汉字)(大量异体字,甲骨文、金文、越南汉字、梵文字体等)?
  以上几种字符集中GB2312、GBK和Big5是通用的,其余都需特别安装,而且输入法一般也只有内码区位法一种,很不方便。?
  在简体中文系统中,GBK已是通用的标准字符集。但GBK是由GB2321扩充出来的,除了扩充一部分GB2321中没有的字外,相当部分是与GB2321字符集中简体字相对应的繁体字,并且扩充GB2321中没有的那部分字中,也有一些是繁简两存的。因此,GBK字符集中至少存在以下几方面的问题:一,繁简重复字以及部分异体字占去了数千个码位(据我粗略检查,至少有3000个左右);二,输入法上繁简转换或选择的麻烦;三,最大的问题是,扩展部分的字中,大部分只有繁体而没有简体,这样在一篇简体写作的文章中,如果用到了扩展部分只有繁体的字,就会出现繁简混杂的现象(这种现象在古文献,或引用古文献写作的文章,用简体显示时最为明显),很不规范。?
  鉴于GBK字符集的通用性,以及汉字量的适中,能否考虑在现有GBK字符集的基础上,改造制作一个古籍专用的GBK字符集。具体设想如下:?
  一,全部为繁体字和通用规范字。去掉重复的简体字和异体字(最多的如“剑”字,在GBK字符集中有繁简异体共7个之多:“剑”、“剑”、“?FDA1?”、“?FDA2?”、“?FDA3?”、“?FDA4?”、“?FDA5?”),可以空出3000个左右的码位,再加上GBK字符集中原有的空码位(约1300个左右),这样至少可以再增加4000个左右的汉字,如果制作汉文资料库一律遵循使用通用规范字的话,改造后的GBK字符集应该够用的了。?
  二,为保持与原字符集的兼容性,改造的原则是尽量保持原字符的区位。首先,GB2321部分和GBK扩充部分中为原来GB2321中没有的字,或是与GB2321中简体字对应的一对多的繁体字部分,全部按原区位不动,只把其中的简体字形改成繁体字形。其次,增加部分的汉字,按原扩充部分编码原则按部首和笔画插入相应的区位中,个别部首增加的字多,原相应区位空位不够的话,再作特殊处理。?
  三,原GBK字符集中的符号区,所收符号不能满足古籍数据需要,需要增加(符号区的空位约有700个左右)。如古籍中最常遇到的周易卦爻象,太极阴阳鱼,以及平仄韵符号,古乐谱符号等等。?
  四,按照改造后的、全部繁体字的GBK字符集,做一套相应的全部简体字的字库。这样,把繁简之间的转换,变成如同字体之间的转换。那么显示繁体时全是繁体,显示简体时全是简体,不会再有繁简混杂的现象。?
  五,输入法也要调整,输入为繁体,有些码位变化的字和新增加的字需要重新编写。所以要求输入繁体,是为了保证转为简体时的准确性。如输入简体,在转为繁体时会产生许多错误和麻烦(当然也是可以想一些办法来减少错误的)。?
  以上设想有些异想天开,也许不切实际。但如能实现,对古籍数据的处理,我想是有其方便之处的。如能再附加一个小程序,使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用,那么对沟通两岸汉文古籍数据库之间的交流,将更加方便。
核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com