网络大数据的现状与展望
作者:佚名; 更新时间:2017-10-18

  [摘 要]网络大数据的形成和扩大给IT构架和计算能力提出了更高要求,网络大数据的发展为人们深度挖掘大数据功能和价值带来了重大机遇,因此加强大数据可续研究,总结网络大数据发展规律,结合定性、定量分析方法全面研究网络大数据的复杂性具有重大意义。本文就网络大数据的发展现状进行分析,有针对性地探讨网络大数据带来的机遇与挑战,并对网络空间感知以及网络大数据存储管理等主要问题展开详细论述,最后展望网络大数据的发展前景。

  [关键词]存储;网络大数据;现状;科技;展望

  近年来我科学技术高速发展,互联网科技、云技术、IT通信技术等迅猛发展,给各行业领域带来了重要影响。但与此同时数据的快速发展也成为行业领域应用科学技术过程中的挑战。信息时代高速发展背景下,我国已步入大数据发展阶段,大数据的发展应用给人们带来了较多积极影响,对企业发展运作等也起到了关键作用。网络大数据给社会发展和人们生产生活带来机遇和挑战,因此加强大数据研究至关重要。本文首先论述对网络大数据研究的必要性,其次对网络大数据发展现状展开详细论述,最后展望大数据发展前景,实现大数据时代发展与科技的有机结合,促进网络大数据规模进一步扩大,以给人们带来更大的便利。

  1、网络大数据研究必要性分析

  网络大数据应用广泛,无论是经济发展领域还是军事、文化发展领域,网络大数据都发挥着重要作用。加强网络大数据研究对维护国家网络空间数字主权,保证经济、文化稳定持续发展,提高国民经济竞争力,实现科技突破等都有着至关重要的作用。无论是直接影响还是间接影响,加强网络大数据研究十分必要。

  1.1 加强网络大数据研究,实现网络空间数字主权保护

  近年来我国已步入信息化时代,国家综合实力的竞争也包括信息时代下网络大数据的规模及运用能力的竞争。我国大数据规模发展逐渐壮大,且对大数据的运用和管理能力也逐渐提高,这使我国掌握了网络空间数字主权,即作为一个发展大国重要的博弈空间。若我国网络大数据应用落后,就会直接影响我国占领产业战略制高点,出现网络空间发展不足的情况,影响国家数据使用安全。就2013年3月美国投资启动的“大数据研究和发展计划”来看,美国政府加大对大数据的重视和研究,并强调“大数据的应用关系到美国国家安全,对科学技术发展进程有着直接影响,同时对教育改革等领域都有一定影响”。这说明网络大数据已上升到国家意志领域,对国家信息安全、经济发展、社会稳定等都有着关联影响。

  1.2 网络大数据与国民经济核心产业有着直接关联

  “人、机、物”三元世界的交互发展产生了大量数据,为充分实现对网络大数据的感知和利用,国民经济发展过程中要有效解决对大规模数据的测量和应用,以促进经济发展中各行业数字化和信息化,解决行业发展过程中出现的网络大数据爆炸阻碍。因此加强网络大数据研究,解决大数据基本共性问题十分重要。例如,针对非结构化数据的统一表示和分析,现阶段尚未采取有效的工具和手段,而通过对大数据问题的研究分析,能够增强企业处理网络大数据的能力,使企业更全面认识大数据处理的成本,促进企业进一步实现数字化。这也是网络大数据研究的重要意义,有助于促进新一代信息技术融合,推动信息产业经济增长值高速发展,是各行业提升综合实力的新动力。

  1.3 网络大数据研究与新兴产业发展相关联

  信息时代背景下在科学技术上实现网络大数据技术研究突破,能促进数据服务以及数据材料等相关战略性新兴产业的兴起与发展。实现网络大数据的技术研究和科技突破,能使人们更清楚地认识数据交互连接的复杂问题,并准确把握数据冗余与缺失等不确定性特性,以更好地实现对高速增长数据的驾驭。对大数据不确定性和涌现性的把握,能使大数据应用者从数据中挖掘到实际需求信息,实现对网络数据的充分利用。网络大数据并非行业发展过程中的副产品,而是行业发展各环节的关键纽带,其能够通过网络数据信息的分析和把握,提高行业生产效率,实现对成本的有效控制,同时,在大数据驱动下,能促使数据能源、数据制造等战略性新兴产业的崛起与发展。

  2、网络大数据现状

  2.1 网络大数据特点

  网络大数据主要是指“人、机、物”三元世界在网络空间交互过程中产生的大量数据,可通过互联网进行查询使用,即称为网络大数据。据IDC报告发布,根据近年来大数据增长形势来看,到2020年将实现35 ZB。IBM针对网络大数据特点来看,主要包括大量化、多样化、快速化3个明显特点。

  在信息化时代背景下网络空间数据增长迅猛,数据集合规模已实现从GB到PB的飞跃,网络大数据则需要通过ZB表示。在未来网络大数据的发展中还将实现近50倍的增长,服务器数量也将实现近相同数量的增长,以满足大数据存储。网络大数据的类型多样化,例如结构化数据、非结构化数据等。在互联网时代背景下网络大数据越来越呈现非结构化数据增长,据相关调查统计,在2012年底非结构化数据在网络数据总量中占77%左右。这种类型结构数据的产生与社交网络以及传感器技术的发展有着直接联系。另外,网络大数据还具有快速化特点,其突发涌现状态演变使人们对数据的评估和预测难度加大。大数据一般情况下以数据流形式快速产生,且具有动态变化性特征,大数据的时效性要求用户必须准确掌握网络大数据数据流才能更好地利用这些数据。

  2.2 网络大数据的感知问题

  网络大数据自身具有跨媒体关联特点,且能够实现多主体互动,这给大数据的感知与获取带来一定问题。按照网络空问中数据的蕴藏深度,整个网络空间可划分为Surface Web和Deep Web,或称作Hidden Web。Surface Web是指Web中通过超链接可被传统搜索引擎获取到的静态页面,而Deep Web则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为充分利用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可分为数据获取、数据抽取和数据整合3个环节。

  2.3 网络大数据挑战

  网络大数据在开发与应用过程中正面临着诸多挑战,这与用户需求的提高有着直接关系。目前就网络大数据发展形势来看,其主要面临的挑战包括大数据的复杂性、不确定性以及涌现性。

  网络大数据的复杂性使其诸多环节操作运行难度增加,包括数据存储、数据分析处理以及数据深度挖掘等。大数据的复杂性又包括其类型的复杂,如社交网络与传统文本数据的相互发展,使其类型更加丰富;数据结构复杂,包括移动技术以及社交技术发展下形成的结构数据流以及非结构化数据流,具体形式包括文本、图像等,这给网络大数据管理与分析带来了难度。大数据的不确定性包括自身以及模型的不确定,这给大数据建模带来较大困难,使用户不能充分利用其自身价值,既是对数据资源的浪费,同时也无法全面满足用户需求。另外,网络大数据还面临着涌现性带来的挑战。这主要是指网络大数据与其他数据之间存在的本质上的区别,也是网络大数据的关键性特点。大数据的涌现性直接给用户以及相关研究人员增加数据驾驭难度,使之无法准确实现对大数据的测量和预测,包括大数据的数据结构、功能等。

  2.4 网络大数据分布式数据存储问题

  就目前网络大数据处理规模以及存储形式来看,已实现从TB级到PB、EB级的转变。在实现等级上升后,为更好地实现对数据存储成本的控制,实现计算资源优化利用,以及提高系统整体的并发吞吐率,要积极探究出更加有效的存储模式,实现目前网络大数据分布式数据存储方式。Google公司提出的GFS、MapReduce、BigTable等技术是分布式数据处理技术的具体实现,是Google搜索引擎系统的3大核心技术。此后,Apache软件基金会推出开放源码的Hadoop和HBase系统,实现了MapReduce编程模型、分布式文件系统和分布式数据库。Hadoop系统在Yahoo、IBM、百度、Facebook等公司得到了大量应用和快速发展,但作为新兴的技术体系,分布式数据处理技术在支持大规模网络信息处理及应用等大数据计算应用能力方面还存在很多不足。

  分布式数据存储是网络大数据应用的一个重要环节。但之前的研究工作仍存在一些局限性。针对海量数据存储和处理所面临的数据总量超大规模、处理速度要求高和数据类型异质多样等难题,需要开发支持扩展度高、深度处理的PB级以上分布式数据存储框架,同时需要研究适应数据布局分布的存储结构优化方法,以提高网络大数据存储和处理效率,降低系统建设成本,从而实现高效、高可用的网络大数据分布式存储。

  网络大数据对各行业领域发展都有着积极影响,对数据库建设以及知识工程建设等有着推动作用,且被广泛开发和应用。但大数据的海量规模以及复杂性等自身特征,直接给大数据开发和应用带来一定阻碍,使各领域研究很难直接进行应用。因此,加强对网络大数据的研究和开发,形成相对统一的标准进行大数据研究至关重要。

  3、网络大数据展望

  网络大数据深度研究与开发对多行业领域发展都有着积极影响,针对现阶段大数据面临的机遇和挑战,要加强大数据与科技融合,对大数据复杂性、涌现性以及不确定性等特性实现整合优化,促进网络大数据规模进一步扩大发展。

  3.1 网络大数据实现大规模发展趋势

  就目前网络大数据时代发展来看,发展速度快、结构复杂程度加大。原有的Hadoop技术无法满足大数据时代的发展需求。在信息化、数字化发展潮流下,大数据规模将进一步扩大,且数据类型和复杂程度将进一步加大。为适应该发展趋势,要不断加强创新研究,例如对全球著名的分布式数据库Spanner的研究利用。在今后的大数据研究应用中,要以分布式数据库为基础,加强存储模式的开发利用,并结合SQL语法,实现数据高效操作。

  3.2 数据资源化

  网络大数据包括各类型的数据信息,信息量超大,且蕴含着不可估量的价值。换句话说,准确把握网络大数据,即掌握了丰富的信息资源。网络大数据存在着丰富的价值链,无论从哪个角度出发,网络大数据都发挥着不可替代的资源优势。大数据中的价值链来自数据本身,也包括大数据技术等,但离开技术以及其他因素的数据资源则是其核心价值优势。另外,将不同的大数据信息整合,即实现资源整合,将创造出不同的价值。

  3.3 网络大数据推进科技融合

核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com