基于数据分组方法的数据仓库并行预计算和查询
作者:佚名; 更新时间:2014-12-05

  论文关键词:数据仓库 并行计算 消息传递接口 商立方体

  论文摘要:目前很多数据仓库的原始数据量已经超过了T字节级,在单处理机机器上运行数据量如此庞大的数据仓库是十分困难。因此,并行计算技术对于数据仓库技术的介入是无法避免的,并行计算技术为提高运算能力和存储能力这影响数据仓库性能的两大重要因素提供了技术基础。本文详细介绍了基于数据分组方法的数据仓库并行预计算和查询的方法,其主要思想是将数据仓库基表中的数据进行分割,分发到各台计算机上后,并行地对数据进行预计算,并根据预计算完成后,立方体数据存储的分布性,并行地进行查询。本文首先介绍了数据仓库和并行计算的基本概念,并根据商立方体的特点提出了基于数据分组方法的数据仓库并行预计算和查询的方法。本文对该方法的具体实现进行了描述,并分析了在刀片服务器上运行后得到的各项结果。基于数据分组方法的数据仓库预计算和查询方法的并行策略相对较简单,但在现实应用中,通过实验观察和对实验数据的分析,证明了这种方法是可行的,数据仓库的预计算性能于查询性能都得到了令人满意的提高。

  第一章  绪论

  随着计算机应用的普及,人们的社会活动已经越来越多地依赖于计算机的使用。人类的各种社会活动,例如商品交易、科学实验都产生了巨大的数据量。这些长年累月积累下来的数据量极为巨大,虽然看似杂乱无章,但是里面却隐含着社会科学和自然科学的各种规律。如何更好地去利用这些数据,从数据中寻找出这些规律来造福社会,是人们面临的另一个重要问题。传统的信息处理方式,如数据库,是以单一的数据为中心的事务处理,它可以让人们在可以接受的时间范围内完成对数据的各种事务操作,但是对于发掘数据中的规律却是无能为力。为此人们发明了很多新的计算机技术从这些数据中寻找出其隐含的规律,数据仓库便是其中的一种。

    为了更好、更快速地执行用户对数据仓库的查询,需要对原始数据集进行预计算。预计算就是将人们会在查询中希望得到的,将很多记录依照其某项属性进行某种聚集操作(和、最大、最小等等)后的结果,进行预先的计算处理。这样便可以提高查询的响应速度,减少响应时间,提高人们数据仓库的利用效率。由于预计算所产生的数据集合必须考虑到每条记录的聚合,所以产生的数据量是原始数据集的数百倍甚至千倍。人们对于预计算的计算量要求也是巨大的。

    目前很多数据仓库的原始数据量已经超过了TB级,在单台机器上是根本支持不了数据量如此庞大的数据仓库,因此,并行计算技术的介入是无法避免的,它为提高运算能力和存储能力这两大重要因素提供了技术基础。并行计算是唯一能够处理这么大量信息的计算技术。

    本文将研究如何把并行计算技术引入到数据仓库的预计算和查询中,并通过实验来支持这种做法的有效性。希望可以为数据仓库的并行处理技术提供一种新的思路。

  1.1 目标

  本文的研究目标是提出一种数据仓库并行处理技术,它使用MPI实现,能够在多种平台上运行,能有效地实现立方体预计算加速以及查询加速。

  1.2 本文安排

  本文的余下部分将如下安排:

  第二章是介绍本文研究的相关背景,将描述本文中涉及的关于数据仓库和并行计算的概念。

  第三章概括性地介绍了MPI,包括MPI标准发展史,MPI编程中经常使用到的点对点通信原语和通信模式以及MPI程序的基本结构。

  第四章将介绍商立方体提出的目的,商立方体的特性,预计算算法以及查询算法。

  第五章描述了基于数据分组方法的数据仓库并行预计算和查询方法的基本思路与实现步骤,并对该方法的正确性做了初步的证明。

  第六章详细描述了并行预计算程序和并行查询程序的具体实现与工作流程。

  第七章通过实验测量的数据来说明本文提出方法的有效性和对于预计算和查询性能的提高。

    第八章对本文的工作进行了总结,说明了本文的主要成果和存在的不足,并为进一步的工作进行了展望。


  第二章  背景

  自计算机发明后,人类文明进入了一个前所未有的高速发展阶段。计算机技术的应用缩短了许多新技术的研发周期,新技术往往意味着更高的生产力、更好的产品和更低的成本。计算机自身也得益于这些新技术,越来越多的商业公司和个人可以负担得起计算机的使用费用,计算机逐渐普及。

   随着计算机技术应用的广泛性日益增加、性能不断地提高,加上互联网等革命性技术的出现,人们开始进入信息化社会,信息已经成为人类社会不可或缺的重要资源。社会信息化使得社会活动如:商业交易,科学实验,数据统计等所产生的数据急剧地增长,而在这些数量巨大,看似杂乱无章的数据中,隐藏着社会活动和自然科学的规律。例如人们的购买习惯、DNA的作用。分析数据,学习其中的规律成了人们迫切的目标。但是,数据的数量级已经远远地超过了人脑所能处理的范围,因此,人们只能将希望寄托在计算机上。

  2.1   数据仓库

  面对爆炸性膨胀的数据和不断提升的应用要求,数据库技术也在不断地提高

核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com