题记:这是我2002年9月参加“汉文化联盟”第二届汉文化资料库国际学术研讨会提交的论文。近因人索要,网上未见下载,故刊于此。
原文写作之时,正值google被封,随后又逢“七一”,搜罗资料颇为不便,故文章最后一部分没有最后完成。特别抬出罗先生一文,实行文需要,非谓笔者对此无有所思也。事过境迁,目今焦头烂额,已无心再去“遐想”当年了。载文网上,聊示纪念而已
数字图书馆(电子图书馆、虚拟图书馆)和大型电子文献资料库的开发和建设,近年来业已成为学术界和相关技术部门的一个热门话题。在这个话题中,古籍的数字化也得到了高度重视。并且,伴随着一些重要产品的发行,数字化的古籍在学术研究中的利用率也在不断提高。而古籍数字化的价值,也正是在这样的使用中一点一点体现出来。
然而,仅就笔者个人的专业应用来看,古籍数字化在技术处理和用户的使用需求之间仍然有一些距离。本文即拟对此谈一点粗浅的看法,供有兴趣者参考。因笔者对中国大陆以外地区的相关产品了解很少,取例有所偏重,尚祈读者谅之。
一、现状一瞥
目前古籍的数字化可谓“繁花似锦”,除专门的制作公司外,一些单位和个人也投放了不少注意力,并且也确实在各自的工作领域取得了一些重要成果。兹据笔者涉猎所及,将相关情况略述如下:
(一)丰富多样的文件格式 从文件格式上来看,目前的数字化古籍除常见的txt、doc、html格式外,还有exe、pdf、wdl、pdg、ebk、edb等。
1.exe格式。所见有秦昌荣(秦堤居士)的“家庭百宝箱”系列(含诸子百家、二十五史、资治通鉴三种)(中华文史软件网)。另外,北京天安亿友公司()出品的《二十五史》、《资治通鉴》也包含了这种格式,详见2688阿里巴巴网站()的“芝麻开门”图书系列。
2.pdf格式。所见有红旗出版社()的“家庭藏书集锦”所包含的部分古籍。博库()图书也采用了这种格式。需要pdf格式文件专用浏览器,如Adobe公司的Adobe Reader、北大方正的Apabi Reader。
3.wdl格式。北京华康信息技术有限公司()开发的电子读物文件格式。所见有博库图书采用了这种格式。它保留了原来的版面设计,可以在线阅读,也可以将下载到本地机阅读。需要该公司的专用阅读器DynaDoc Free Reader。
4.ebk格式。所见有深圳市百博有限公司()出品的“金博览掌上读”(电子书下载地址),等等。
专用电子书阅读器虽然并非专为古籍数字化开发,但因其体积小、容量大以及携带方便、无特殊阅读条件的限制,而相应的电子书籍中又包括不少古籍,其对一些古代经典著作的传播无疑会发生积极作用。
尽管在这些传播方式中,有些并不需要太高的技术(如网上书库、个人网站的建设),但它们在推进中国古籍数字化上的作用还是不应被忽视。就广大的中国文化爱好者甚至是专业研究者而言,其对古籍数字化之价值的认识,并非靠专门制作的大型数字化系列图书,而恰恰来自他们简单的网页浏览。
(三)恢宏阔大的开发规模 从上面的罗列中可以看出,中国古籍的数字化主要依赖于学术研究机构(如台湾中央研究院)和学校(如北京大学),专门技术公司(如超星、北京书同文)和出版社(如迪志、汉文化联盟),图书馆(如北京图书馆、上海图书馆),并且已经有了不少优秀的成果问世。此外,就笔者浏览所及,目前正在开发的古籍数字化相关工程还有:
1.北京大学刘俊文先生主持的“中国基本古籍库”光盘工程()。这是中国目前最大的一个古籍数字化工程了。该工程1998年正式启动,全套光盘库共500张,分哲学、史地、艺文、综合4个子库20个大类,范围涉及先秦至民国的重要典籍1万余种并提供多重检索功能,每种典籍有1个通行版本的全文信息,另附1-2个珍贵版本的图像数据,预计全文20亿字,版本图像2千万页。应该说,这个项目具有很好的前瞻性,一旦开发成功,将基本上可以满足文史和其他方面研究者的研究需求。
2.汉文化联盟的“汉文化资料库”(),内容涵盖历代重要古籍,按照经、史、子、集进行分类,精选底本勘校而成,与单纯的全文检索不同。资料库中包含《龙藏》(部分)、《历代书法全集》(图、文)和“汉文化考证检索系统”,极富特色。
3.中国中医药文献数字化。国家科技部基础工作项目。该项目由中国中医研究院中国医史文献研究所()承担,山东中医药大学、南京中医药大学、上海中医药大学以及浙江省中医研究院、天津中医研究院等十四家中医药教育、科研单位协作。
4.《历代石刻史料汇编》、《永乐大典》全文检索。北京书同文数字化有限公司开发,预计不久即可见成果。该公司亦将地方志的数字化列入了规划。
5.中国数字图书馆工程()。该工程由中国国家国家图书馆倡议于1998年,2001年10月正式国务院批准立项。目前已成立了“中国数字图书馆联盟”,联络了41家公共图书馆、30家高校图书馆、8家科研机构图书馆、7家其他类型的图书馆和14家技术公司。该工程的总体目标是在宽带IP网上形成超大规模的、高质量的中文资源群,支持国家整体创新体系的形成与发展,通过国家骨干通信网络系统向全国乃至全球提供服务。其工程的重要内容之一,就是发掘历史遗产。
6.“中国教育科技数字图书馆”(China Education and Research Digital Library,简称CERDLIB)工程。该项目由美国卡内基-梅隆大学教授Dr. Raj Reddy和西蒙学院陈刘钦智博士、中国科学院研究生院常务副院长高文博士共同发起,旨在建设面向教育和科研的包含100万册(中、英文书籍各50万册)图书的数字图书馆,由教育部“211”工程建设办公室归口管理,浙江大学和中国科学院研究生院等单位共同承担建设任务和运行管理。计划通过4年的时间,建成2个数字图书馆技术中心(浙江大学,中国科学院研究生院)和12个数字资源中心(北京大学、清华大学、吉林大学、武汉大学、西安交通大学、中国科学院研究生院、浙江大学、复旦大学、南京大学、中山大学、四川大学、上海交通大学),开发出30个左右的大型特色数字资源库。项目中包含了古籍数字化的内容。
7.台湾典藏数位化计划。2001年启动,参加机构有台湾中央研究院、台湾故宫博物院、台湾历史博物馆、台湾大学等。
8.中国历史地理信息系统(CHGIS)。复旦大学历史地理研究中心(#)、美国哈佛大学、哈佛燕京学社、澳大利亚格林菲斯大学亚洲空间数据中心等机构合作开发,主要资助单位是美国罗斯基金。项目目标是建立中国历史时期基础地理信息系统数据库,使其成为中国历史GIS数据的基础平台。这是一种研究性、工具实用性都很强的开发项目,与单纯的把古籍转化成图片或检索文本的数字化不同,也显示出古籍数字化的另外的发展方向。
9.“国际敦煌学项目”(The International Dunhuang Project,简称IDP)()。英国图书馆开发,开始于1993年。项目中包括了英国(并计划扩展到世界范围内)的敦煌文献数字化。目前可线上查看英国图书馆收藏的3万余件中亚写本和印本文件,以及15000余件残片的高质量彩色图片()。
10. “古藤堡计划”(Project Gutenberg,简称PG)(),美国伊林诺斯大学文理学院米歇尔·哈特(Michael S. Hart )倡始于1971年。计划对世界上的一些经典古籍进行数字化,其中包含了中国经典、文学、历史和地图等方面书籍和资料的数字化内容(主要为英文),如《论语》、《桃花源记》、《三国演义》等。现可在网络上进行目录检索(可使用中文,)。相关信息可通过在北京大学哲学系网站下载(ftp://elib.phil.pku.edu.cn/pub/gutenberg/),另有它还在中国设立了一个限中国境内访问的镜像站(ftp://ftpbook.dhs.org/mirrors/gutenberg/)。
此外,像超星数字化图书馆和地方上一些公共图书馆等也在其数字化图书中不断增添新的古籍,一些古籍研究机构和个人也在工作中将相关文献变成电子文本,也是古籍数字化队伍中的不可小视的力量。
合现在已有的成果而观之,中国古籍数字化规模之宏,形式之夥,数量之多,范围之广,都标示出其良好的发展路向。这些产品的开发,不仅更加有效地保护了古籍,而且在丰富人们的学习资源、提高学术研究的质量以及扩大中国文化的影响上,无疑也会发挥积极的作用。
二、存在的问题
毫无疑问,古籍数字化的最终目的,是更大范围、更便捷、更有效地使这些文献为人们所利用。而由于用户群体及其需求的差异,这个“用”也显示出不同的层次。因此,满足这些用户群体的需求,也应该是古籍数字化所需要考虑的问题。从这方面看,目前的古籍数字化产品还有不少可以完善的地方。
(一)选题内容重复,分散了数字化资源开发的力量 选题的好坏直接关乎一个产品的成功与否。在这方面,《四库全书》的原文电子版(图像,济南)、《四库全书》的全文检索版、《四部丛刊》全文检索版,以及超星图书馆中的北大古籍等“馆藏”(pdg图像格式),等等,从解决用户的迫切需求上而言,都是成功的。但也无庸讳言,在今天的各种数字化产品中,内容的大量重复也是一个不争的事实。这种重复不仅存在于一些小规模带有普及性的电子书制作上,而且也同样存在于一些大型的数字化工程中。最明显的例子是《二十五史》,几乎现在称得上数字化项目的产品都全部或部分包含了它们。这种重复在人力和财力上都是一种浪费,它提高了开发成本,相应减少了对其他可开发项目的投入。
造成这种重复的原因,除了有些文献本身属于基本之基本的典籍,制作单位需要利用它们以获得基本的用户外,资源共享上的隔膜恐怕也是一个重要原因。特别是在电子文献资源、技术资源和信息资源上的共享上,这种隔膜对更多更好项目的开发是相当不利的。这方面的例子可以列出许多,其大而又大者如《四库全书》原文图像版就有两种,超星图书馆和国家图书馆及其他公共图书馆在图书内内容上的大量重复。特别是对后者拥有的数字化资源在互利互惠的前提下进行合理合法的利用,使致力于OCR、全文检索引擎等数字化技术和实用工具开发的公司将更多的精力投向相关技术开发,对产品质量的提高无疑是有重要作用的。
(二)文件格式繁多,造成了阅读和资料提取的麻烦 数字化图书格式之繁多,从上文的相关罗列中就可以看出。由于不同的图书阅读器互相难以兼容,因而给读者带来了许多麻烦。颇为有趣的是,有一个数字图书馆采取pdf文件存储格式,却只能使用acrobat reader去阅读,连adobe acrobat也不支持。事实上,没有一个读者会愿意在自己的电脑上安装七八个不同的阅读器去阅读图书。以笔者个人为例,笔者曾经是许多网上图书馆或书库的注册用户,但因为烦不胜烦,现在常常光顾的只剩下超星数字图书馆了。
不仅如此,由于许多图书采用了图片格式,也给使用者提取资料带来了许多困难。这当中,超星因其巨大的影响而常常成为批评的对象。笔者无意于否认超星保护版权之努力的必要性和合法性,但因其相关技术开发不同步,其本应发挥更大作用的大量图书资源并未得到很好的利用。限制打印页数(每次10页)、浏览器所带的截图工具每次只能截取页面的1/4(最新版本已经改成可整页截图)徒自给合法用户(读书卡注册用户)增添麻烦(因为其浏览器的破解版本完全可以破除这些限制),而且其所提供的OCR工具,对当代标准印刷的直排繁体图书的文字识别已经无能为力,更谈不上识别古代写、刻、钞、稿本的文字了。在这一点上,超星以及类似的数字图书馆似乎仅仅把自己定位在为读者提供普通的图书阅读,而对专业研究者所需要的快速检索、并将检索结果直接转换成编辑文本方面还关注不够(超星提供的全文检索工具颇差)。
(三)队伍组织、项目规划单调,导致了产品开发缺乏连续性 在队伍组织方面,多数项目的开发以计算机技术和图书馆人员为主,技术公司和图书馆之间的合作,更多的是因为图书馆拥有原始文献资源。而图书馆本身对馆藏图书的数字化,又常常拘泥于传统图书馆的图书借阅形式,而只是将过去的人工手段转化成计算机通讯(这可能也是现在的数字图书馆多数采取图片存储格式的一个原因)。在这一点上,现在的一些项目的开发与用户的需求之间还有相当的距离。
应该说,在队伍组织和项目规划方面,目前并非没有比较成功的范例可以借鉴。台湾中央研究院的系列电子化项目、元智大学的“网路展书读”、汉文化联盟的《汉文化资料库》采取的都是专业研究专家与技术人员、图书馆三方合作的方式,使得开发的项目与用户(尤其是专业研究者)的实际需求相切合。北京大学的《中国基本古籍库》在设计思路上也采取了这种方式。而超星数字图书馆目前在其浏览器设计中已加入了可由用户编辑专题的虚拟图书馆,使资源开发者与用户之间建立起一种动态合作关系,也显示出一种可喜的变化。
在项目的整体规划方面,也有不少可以挑剔的地方。按照我个人的理解,一个项目的开发至少应该包含这样的一些步骤:
开发者对自身开发能力的合理评估和发展目标的合理定位-根据前者选择选题方式、进行市场调查和确定选题-选题可开发内容的信息搜集-确定开发的具体目标(主产品和副产品)-采样-技术处理过程-测试-修改与完善-发布-市场反馈-补丁。
可以看出,从选题开始,项目开发就是一种多方互动的活动。从选题方式上看,单纯依赖开发者自己的想像,或者依赖文献资源拥有者的倡导,或者依赖部分学者的评议,甚至依赖权威的一两句断言,显然都是不合适的。最根本的一点,就是项目开发应该根据“什么最需要”而非“是否有价值”(如果考虑到开发公司自身的生存问题,还应该加上“是否能够盈利或具有盈利的希望”)的原则去选定,而专家学者的看法通常着眼于“价值”,这种价值认定又往往因其专业限制而难免有局限。
选题确定以后,对选题可开发内容的信息搜集直接关乎项目开发的连续性。尤其是一些具有“原创”性质的开发项目,其本身所具有的系列开发内容就很丰富。仅我个人所思及,就有这样一些方面:
其一,版本信息(版本类型、年代、版式、字体、刊刻地点、刻工姓名等)。这部分内容可以通过扫描而得到影象资料而进一步开发。
其二,全部书籍的详细目录汇总(用以满足不能购买整套软件但希望掌握相关信息的用户的需求)。
其三,最常用或极具价值的书籍资料(单行或选编进一类专用书籍中,以满足一般用户的需求)。
其四,项目中所包含的各类专题资料(用以满足专题研究者需求,或引导一般用户进行相关查询)。
反观现在的一些开发项目(特别是全文检索项目),除了所谓“单机板”、“网络版”之类的“系列”外,在其他方面的开发几乎为零。项目开发者常常抱怨开发出的好产品没有更多的用户使用,却往往忽略了另外一个问题:为什么不利用已有的开发成果,而再开发出能适应不同用户群体需求的产品来?
除以上三方面外,技术处理上的缺陷、成果推广上的迟缓、开发成本过高导致产品价格过高等,也都对成果的更大范围的应用有着一些影响。
三、“我”需要什么:《四库》全文检索案例分析
选择《四库全书》全文检索版作为案例,是因为它是目前古籍数字化的一个非常突出的代表。而对它进行分析,只是想根据我自己的使用感受回答这样一个问题:用户究竟需要什么?
(一)信息容量 包含3400余种书的《四库全书》全文检索,无疑是现在容量最大的一个古籍数字化工程了。虽然《四库》本身因编纂、版本等方面的问题而为学者所诟病,但因其文献集中,而影印本又可以很快解决扫描底本问题,信捷职称论文写作发表网,选择它进行数字化在目前无疑是非常正确的。比较一下它和《中国基本古籍库》的工作进度,就可以发现《四库》全文检索在解决用户的最迫切需求上厥功甚伟。《中国古籍基本库》自1998年启动,至今将近四年,尚未见到成型的产品面世。而《四库》前后仅三年就完全开发成功。甚至当初极力反对这项工程的学者,现在也成为它的积极的使用者,这本身就说明了这项工程的价值所在。
《四库》全文检索之受到欢迎的一个重要原因,就是其信息量的巨大。这种情形,也反映出另外一个问题:倘若在版本与信息容量上不能兼顾,是选择版本好但容量少,还是选择版本稍差但信息容量大的图书进行数字化?据笔者本身以及所知的一些情况来看,恐怕多数人还是选择后者。举例说来,笔者的一位学友想搜集历史上蝗灾的资料,每日前往图书馆翻阅图书(逐页翻查,苦不堪言),犹恐遗漏,后通过笔者检索《四库》“蝗”字,即刻得4535卷、11329个匹配。由此把节省的大量时间转入资料的考订和搜集《四库》所无之书中的资料,较之其先前的工作方式,优劣判然。
也因为如此,笔者深感已经大大超越同类数字化工程容量的《四库》全文检索,在容量上仍然不能满足要求。比如笔者目前正在进行《明儒学案》的文献学研究,想查证其中的传记资料和黄宗羲摘编的学术资料的原始来源,《四库》全文检索对多数人物无能为力。《四库》中宗教类资料很少,明代著作未收者颇多,而清代因修书时代限制几乎无法利用,这些缺憾都还需要其他数字化项目来补充。
(二)显示模式 《四库》电子版采取了检索结果、原文图像、全文阅读三种显示模式并可快速切换,亦属独创。这种显示模式的确有它的好处。原文图像和全文阅读的精确对应,在两者之间建立起了直接的勘校关系,可以解决全文阅读时的部分文字错误。特别是对古今字、异体字、避讳字等的关联检索没有达到完善匹配的时候,原文图像在补字和校正错字方面就有重要作用。
但是,这种方式也存在诸多问题,汇总如下。
1.检索结果方面
1)单机版的检索结果能打印但不能复制(网络版可以通过网页拷贝方式复制),有卷数、书名而无其他可显示该条资料的内容,使得在缺乏随身携带全文检索的情况下无法与其他的书籍内容进行比对。(这一点在书同文《四部丛刊》的开发中已经得到修正。)
2)检索结果必须通过阅读原文才能知晓具体内容,不能集中显示,也给用户使用带来了一些麻烦。比如“朱子”的检索结果就高达9133卷、37910个匹配,若将此外的“文公”(13180卷,33153个匹配)、“晦庵”(1665、3293)、“朱熹”(1839、4508)加在一起,计有25817卷、78864个匹配。至于“孔子”,更是高达23757卷、111641个匹配。假定每个匹配的阅读时间平均为1分钟(加上复制相关资料、标点,实际一条资料的处理时间远远超过1分钟),每天八小时不间断地阅读,则“朱子”等条资料需要花164天、“孔子”需要花233天才能阅读完毕。如果是通过网络阅读,其麻烦会更大些。(台湾中央研究院的《汉籍电子文献》、陈郁夫先生的“寒泉”检索系统都采用了可以分段显示的方法,甚是便利。)
2.原文阅读方面
1)原文显示上区分正文和注文,一方面将有些并非注文的小字误作注文,另一方面在拷贝时将注文置于页末,颇为不便。(后者在《四部丛刊》全文检索中已经得到纠正。)
2)未妥善解决异体字等关联问题,导致有些文章在拷贝后必须补充大量空缺的文字(四库自带了方正楷体大字库,但并非所用使用者的本地机上都有这种字库,因而在无此字库支持的电脑上阅读和编辑都不方便)。
此两者可举《晦庵集》中一条为例。原文截图如下:
拷贝到相关编辑器中的结果如下(截图):
3.原文图像方面
笔者无意否认附带原文图像的价值,但这种做法事实上造成了产品难以在更大范围推广。《四库》的全文检索安装盘仅16张光盘,而图像盘高达167张,这无疑也提高了制作成本,从而相应带来了价格的提高。国内不少用户对《四库》全文检索心向往之,却最终没有去购买,高昂的价格大概是使他们望而却步的一个重要原因。
(三)检索模式 《四库》提供了全文检索、分类检索、书名检索、著者检索以及“开启当前检索条件”用以修正当前检索的内容。全文检索还可分部、分书或分著者进行,并支持复合检索。而在全文阅读状态下,还可以通过选择当前阅读页面中的文字进行再检索。分类、书名、著者检索提供简单、具体、详细三种显示方式并提供了相关链接以进行切换。此外,在全文检索、书名检索、著者检索中还增添了一些辅助功能设计,分类检索中则包含了部、类、书、目录的层级搜索方式。这些检索方式,可以满足用户不同的检索要求,使用也很方便,非常值得赞赏。而附加的联机字典、添加笔记、放大镜等工具也颇具实用价值(其联机字典犹具价值,惜释义稍简)。
感觉不方便的地方是:原文的卷次显示于页面的底端,位置不当。有些著作的卷次显示尤有问题。比如别集类明代的一些著作,标成“集部,别集,洪武至崇祯,?…”(?为书名的第一个字),显示了前面一堆无用的信息,而关键的卷次信息却被省略。
(四)检准率 从整体上看,《四库》全文检索的命中率应该是很高的。笔者利用它考证一些概念的演变、人物的生平、古籍整理上引文的查核以及校勘等,都取得了满意的结果。甚至偷闲的时候胡乱检索一些字词,也常常得到意想不到的结果。比如“爱情”两字,检索得159卷163个匹配,虽然其中许多都是两字碰巧排在一起,但也确实有两字连用者。如《礼记集说》“若爱情在心,则声和柔”、《续资治通鉴长编》卷一六九“伏望陛下断以大义,稍割爱情”、《清河画舫录》卷一二上“自亦不堪属目,以徇爱情而已”之类,虽意思与现代的男女情爱邈不相关,亦颇见古今词义之变化。尤为有趣者,现代人通常把历史上的礼制想像得非常可怕,而且似乎历久不变,然检索“离婚”两字,得172卷192个匹配,其事件可追于春秋,而《晋书》即屡屡见“离婚”二字,若辅以其他记载,诸资料内容颇有可判今人认识之误者。
要求《四库》全文检索在命中率上达到完全无误,显然是一种太过苛刻的要求。但从完善产品的角度言,《四库》在检索的准确率上的确还有待提高。由于版本不同,笔者无法用其他的全文检索产品来进行对比,在此仅列举一个事例以作说明。
检索“讲会”二字资料,得36卷、37条。然通过个人所知者复核,发觉《四库》脱漏甚多。比如《法苑珠林》一条,另载于《广博物志》卷五、《太平广记》卷九九两条未检出;《东都事略》卷一一四、《宋名臣言行录外集》卷三所载“赴讲,会”条,另载于《续资治通鉴长编卷》四0四、《太平治迹统类》卷二五、《伊洛渊源录》卷四、《二程遗书》附录、《近思录集注》附说、《御纂朱子全书》卷五三、《晦庵集》卷九八诸条未检出。《晦庵集》检索得一条,但笔者所知另一条《白鹿讲会次卜丈韵》诗(卷七)未能检出,而此诗又载于《江西通志》卷一五四、《性理大全书》卷七0、《御纂朱子全书》卷六六、《宋诗钞》卷六0,亦未检出。此外,史部正史类无一条检出,而《旧唐书·萧俛》附萧仿传,《明史》沈懋学、史孟麟、吕维祺传及顾宪成等传赞、儒林传之陈时芳传中均有“讲会”字。一条检索出现如此多的失误,对一个成熟的产品来说是不应该的。
此外,《四库》全文检索中还有不少错字,也影响了它的质量。(《四部丛刊》全文检索版允许用户在本地机改正错字,值得提倡。
应该说,《四库全书》全文检索版的开发,为中国古籍的大规模数字化提供了一个成功的先例。虽然从用户的实际需求方面言,这个产品还存在一些问题,但是,不能要求一种产品完成用户所想做的所有事情,也应该是合理对待这类产品的态度。而正因为如此,《四库》以及类似数字化产品依然为未来的数字化工作留下了很大空间。
四、趋势
关于古籍数字化的发展趋势,台湾元智大学罗凤珠先生(“网路展书读”的开发者)《台湾地区中国古籍文献资料数字化的过程与未来的发展方向》()一文言之甚详,已无需笔者班门弄斧。唯个人觉得:大型综合性可提供全文检索等功能的、建立者与用户动态合作的网络数据库(或网络图书馆)的建设,以及投资商、技术开发公司、图书馆和专业研究机构合作开发更多、更专门的数字化产品,或许是发展的主要趋势。此外,谋求同国外一些机构的合作,以多种方式将数字化产品推广出去,借以传播中国优秀之文化,亦当在考虑之列。