基于RDF的数据集成
作者:佚名; 更新时间:2014-12-05
[摘要]数据集成关注解决异构信息资源的共享问题,致力于将一个一个信息孤岛连接起来。基于RDF技术的数据集成,解决传统数据集成方法不能解决的复杂数据的问题。解决的方法被抽象成三层的逻辑结构,这三层逻辑结构可以集成包括文本格式的数据源、XML格式数据源、html格式数据源以及其它类型的数据库等。
[关键词]全局模式 中间模式 本地模式 RDF 数据集成
一、引言
数据集成是网络发展的要求,是数据共享的要求,是企业应用的要求。由于不同用户提供的数据可能来自不同的途径,信捷职称论文写作发表网,其数据内容、数据格式和数据质量更是千差万别,有时甚至会遇到数据格式不能互相转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。为了改善这个局面,利用数据集成的方法在各种数据之间架起信息沟通和交换的桥梁已经越来越受人们关注。
现在最常用的方法是使用XML作为数据集成的工具。虽然XML已经有了各种版本的解析器,但是XML书写的随意性使得文件中的词汇不具有通用性,必须同时拥有一个处理器来处理词汇的语义。很显然这些程序之间并不存在互换性和通用性。在RDF(Resource Description Framework,简称 RDF)文件中,大家趋于用统一词汇,这使得拥有各种版本的解释器成为可能。XML虽然已经具备了类的某些特点,例如封装,但是与还同时拥有继承性特点的RDF相比XML能表达的数据就简单的多。
XML存在问题的根本原因是XML不具备语义描述能力。为此,W3C推荐以RDF标准来解决XML的语义局限。RDF提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示Web上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便地描述对象(或者资源)以及它们之间关系。RDF的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的二元关系,因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。
二、数据集成模型设计
在构建新系统的过程中,经常碰到以下的问题。系统1数据服务器到系统n数据服务器所对应的系统1到系统n的数据正是新系统所需要的数据,而在当时构建旧系统的过程中所使用的数据的设计是按照对应系统的要求设计的,不会也不可能考虑到集成使用的问题。基于RDF的数据集成正是致力于解决以上的问题。
在基于RDF的数据集成的模型设计中,模型被设计成三层,三层模型从高到低分别是:全局层、中间层和本地层。三层模型分别对应于全局模式、中间模式和本地模式。全局模式是面向应用的最终的模式,是应用直接访问的模式,这种模式已经消除了各个本地模式的差异,全局模式对应的数据是通过应用和、差、并、投影等集合运算将中间模式的数据转换成用户可以直接使用的数据,数据的格式是RDF。中间模式是将本地模式的数据转换成公共元数据模型表示的模式,中间模式对应的数据是通过将一个数据源对应成一个对象再根据自定义的对应规则将局部模式的数据转换而成,数据的格式也是RDF。它存在的目的是为将异构的本地数据转换成可实现共享的全局模式做必要的准备。本地模式就是各个数据服务器上存在的异构的数据模式。
三层模型中各个层次为比自己为更高一层提供服务。三个模式之间存在着两级映射,即全局模式/中间模式间的映象,中间模式/本地模式间的映象。在基于RDF的数据集成中,全局模式/中间模式间的映象是唯一的,它确定了数据的中间结果与最终用户调用的数据的对应关系。中间模式/本地模式间的映象也是唯一的。它确定了数据的中间结果与具体的局部的数据存储结构之间的对应关系。
三、建立本地模式
在基于RDF的数据集成中,本地模式的数据可以以多种数据格式存在,包括以各种关系数据库形式存在的数据格式和以RDF为首的文本格式存在的数据格式。基于RDF的数据集成的任务就是要把这些数据格式统一成RDF的形式。
上一篇:教育数字视频的应用现状及制作原则
热门论文