试论数字图书馆跨库检索的现状和发展
作者:佚名; 更新时间:2014-12-05
【论文关键词】:跨库检索; 异构数据库; XML; 中间件
【论文摘要】:数字图书馆的跨库检索是一种近几年才兴起的服务方式,但也已成为数字图书馆领域的研究热点,无论是在功能还是技术上都发展迅速。文章探讨目前数字图书馆跨库检索的相关技术及其发展。
1. 跨库检索简介
跨库检索也称联邦检索(Federated Search),数据库检索(Multi-Database Search)或集成检索(Integrated Access),是以多个分布式异构数据源为对象的检索系统,这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式并发地检索本地的和广域网上多个分布式异构数据源,并对检索结果进行整合,在经过去重和排序等操作后,以统一结果呈现给用户。跨库检索的发展不仅方便了用户的信息获取,而且还在一定程度上提高了数据库的利用率,促进了资源共享。
目前,国内外已经有不少跨库统一检索系统,美国在这个领域处于领先地位,他们早先在跨库统一检索领域的研究成果之一就是提出了三个数字图书馆系统模型。第一个是伊利诺依大学的Interspace系统,第二个是斯坦福大学的Infobus系统,第三个是密执根大学的UMDL系统。另外还有后来的美国新墨西哥州莫斯阿拉莫斯国家实验室研究图书馆研究开发的FlashPoint系统,加利福尼亚大学的SearchLight系统等。
我国的数字图书馆研究起步较晚,但是也研究开发出了多个数字图书馆跨库检索系统,主要有清华大学的同方异构统一检索平台(USP)、中国科学院文献情报中心开发的集成检索系统(CSDL)、中国高等教育文献保障系统(CALIS)统一检索系统、CNKI知网技术有限公司开发的CNKI跨库检索系统等等。
2. 跨库检索的相关技术
跨数据库检索需要用到数据的整合技术,目前对异构数据源的数据整合方式主要有以下两种:
一种是将各种异构数据库的部分数据导入一个数据库系统中,为了整合不同类型的数据,必须将一些非传统的数据类型转化成新的数据类型。这种方法的优点是检索反应速度快,不会因个别数据库访问失败而影响整体检索效率。缺点是收录的数据库数量不能太多,信捷职称论文写作发表网,只能实现对有限数据库的集中和检索。
第二种方法是利用中间件技术进行异构数据库数据整合,这种方法不需要改变原始数据的存储和管理方式。采用中间件技术,对来自用户的查询请求,分解成对不同原始数据库的独立访问请求,通过标准或非标准的数据访问接口对原始数据库进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。这种方式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据库的原文发布服务;但应用局限于原始数据库必须提供访问接口,而且由于各数据库的速度问题而影响到用户得到结果的时间。目前用于异构数据库数据集成的数据库中间件技术使用较为广泛的有:
2.1 公共网关接口技术CGI
利用CGI可实现Web与数据库的连接,CGI(Common Gateway Interface)是最早的Web程序设计方式,它提供一个外部应用程序与Web服务器交互的标准接口,遵循CGI标准编写的Web服务器端的可执行程序称为CGI程序。CGI最大的用处之一是其与浏览Web站点的用户之间的交互能力,使信息网关、反馈机制、访问数据库、查询等一系列灵活复杂的操作得以实现。利用CGI实现与数据库的连接,最大的优点在于其通用性。目前几乎所有的HTTP服务器都支持CGI。
2.2 开放式数据库互连技术ODBC
ODBC(Open Database Connector)是由Microsoft推出的基于C语言的开放数据库互连技术,主要针对客户端/服务器结构的数据库。它包含访问不同数据库所要求的ODBC驱动程序及驱动程序所支持的函数,应用程序通过调用不同的驱动程序所支持的函数来操纵不同的数据库。若想使应用程序操作不同类型的数据库,就要动态地链接到不同的驱动程序上。
2.3 JAVA 数据库互连技术JDBC
JDBC(Java Database Connector)是JavaSoft公司设计的Java语言的数据库API(应用编程接口),主要针对浏览器/服务器结构的WEB数据库。JDBC的出现是Java编程中最重大的突破之一,它使得Java程序与数据库服务器的连接更加方便。与其他的数据库存取技术相比,JDBC继承了Java语言的所有特点,不仅具有独立于平台运行、面向对象、坚固性好的优点,而且具有多线程、内置检校器来防止病毒入侵等功能,更加适合网络应用。JDBC的这些特点也特别适合于实现对Web异构数据库的访问。 JDBC是连接Internet上异构数据库的最好方法。使用JDBC能够方便地向任何关系数据库发送SQL语句。浏览器从服务器上下载含有JDBC接口的Java Applet,由浏览器直接与数据库服务器连接,自行进行数据交换。
2.4 ASP技术和JSP技术
ASP(Active Serve Page)是Microsoft公司于1997年推出的一个功能强大的WEB应用程序开发技术,ASP在Web服务器上解释脚本,可产生并执行动态交互式、高效率的站点服务器应用程序。ASP可以胜任基于微软Web服务器的各种动态数据发布。ASP脚本是在Web服务器端解释执行的,当遇到访问数据库的脚本命令时,ASP通过ActiveX组件ADO(ActiveX Data objects)与数据库对话,通过ODBC与后台数据库相连,由数据库访问组件执行访库操作。并将执行结果动态生成一个HTML页面,返回web服务器端,以响应浏览器的请求。在用户端浏览器所见到的是纯HTML表现的画面,例如用表格来表现的后台数据库表中的字段内容。由于ASP结合了脚本语言,可以通过编程访问ActiveX组件,并且具有现场自动生成HTML的能力,所以它成为建立动态Web站点的有效工具。在结构关系上,ASP是通过ODBC与数据库打交道。因此,可向上层兼容各类数据。
上一篇:基于隧道技术的VPN技术初探
热门论文