大数据时代数据管理技术研究综述论文

时间：2021-08-31

　　随着计算机技术和网络的快速发展，半结构化和非结构化等类型数据成几何倍增长，学习和使用大数据管理技术顺应时代发展潮流。本文从数据管理技术的发展进程出发，介绍了人工管理方式、文件系统管理方式、数据库管理方式三种阶段的管理方式。然后详细介绍了关系数据库和NoSQL非关系数据库，并且将两者从三种角度进行了对比。最后对未来大数据时代信息管理方式作出了展望。

大数据时代数据管理技术研究综述论文

引言

　　随着计算机和网络技术的快速发展，移动互联、社交网络、电子商务、云计算等各种新兴服务的兴起，极大拓展了互联网的疆界和应用领域，随之产生的是海量的数据，这些数据不仅来源的渠道多样，并且数据规模和数据种类也是快速的增长，大数据时代已经来临。大数据时代，无法将海量数据存储和管理在一台或者有限数目的服务器内，更无法借助有限的计算机去处理和管理大数据。因此，如何利用现有的资源应对当前数据量的快速增长，实现对大数据的有效、便捷、安全的管理，是当前国内外关于数据管理和数据分析亟需解决的问题。

1 数据管理技术的发展

　　数据管理是指对各种类型的数据进行采集、存储、分类、计算、加工、检索和传输的过程。随着计算机和网络技术的不断发展和改进，数据库管理技术也在不断的更新换代。到目前阶段为止，数据管理技术主要发展历程经历了以下阶段：人工数据管理方式、文件系统管理方式和数据库系统管理方式。

　　1.1 人工数据管理方式

　　20世纪50年代中期，计算机初期被应用于科学计算方面，因此，早期的数据处理都是手工完成的。数据存储只有磁带、卡片和纸带等低速存储设备。既没有操作系统，也没有管理数据的专门软件，此阶段管理的数据，不能进行共享，且没有独立性，数据纯粹面向应用，服务于应用。

　　1.2 文件系统管理方式

　　20世纪60年代中期，随着计算机进一步的发展，不仅用于科学计算，而且更多地用于信息处理。对于数据存储，有了磁盘、磁鼓等存储设备。操作系统和高级语言的出现为文件系统管理提供了可能。此阶段的文件系统，是按照相应的规则将数据组织成一个独立的命名文件。这一时期的数据特点是：数据可以长期存储在磁盘上、有专门的软件进行管理维护、数据不再独立存在，数据不止服务于应用，在一定程度上，数据的共享性得到了提高。

　　1.3 数据库系统管理方式

　　20世纪60年代后期，数据库系统管理方式逐渐形成并具有一定的规模。由于磁盘技术的不断进步和发展，低成本、高速的硬盘占领了市场，为新的数据管理技术提供了产生的必要条件。对应的软件技术也有一定的发展。数据库系统是由计算机的软硬件资源共同组成，实现了数据的动态、有规则、独立存储。如图1所示。

2 大数据管理技术

　　大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。归结为四个特点就是四“V”，即大量(Volume)、高速(Velocity)和多样性(Variety)和价值(Value)。大数据首先体现在数据量上：全球著名咨询机构IDC(国际文献资料中心)在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB)，而截至2011年这个数字已经提升了一个数量级，达到1.8ZB。这种数据产生的速度仍在增长，预计2015年将达到8ZB。随着数据量的增长，得到庞大的数据源和样本数据后，人们并不能容忍对于这些庞大的数据处理响应时间。因此，大数据需要在数据量提高的前提下，数据的处理和响应能力进行提高，从而确保数据延迟可以在人们的接受范围之内。因此数据处理要得到有效的保证，那如何存储和组织管理这些海量数据，值得我们去探索和研究。

　　2.1 关系型数据库(RDBMS)

　　2.1.1 关系数据库的提出

　　20世纪70年代初，IBM工程师Codd发表了一篇论文“A Relational Model of Large Shared DataBanks”，随之关系数据库时代宣告到来。关系数据库管理系统(Relational Database ManagementSystem，简称RDBMS)就是基于上述的论文而被设计出来的。在关系数据库之前的系统主要有基于层次模型的层次数据库、基于网状模型的网状数据库等。以上几种数据库的主要不足是数据模型是很难被用户所理解，并且编写的软件与数据模式依赖性比较高。Codd提出的关系数据模型是基于表格、行、列、属性等基本概念，将现实世界中的各类实体及其关系映射到表格上，并且还为关系模型建立了关系代数运算。

　　2.1.2 关系数据库的应用

　　关系数据库系统最初主要是应用于事务处理领域。随着数据的不断积累增长，人们需要对数据进行分析操作，提取出有用的信息以支持决策等等。这些分析操作主要包括简单汇总、联机分析处理(online analytical processing，简称OLAP，主要是多维分析)、统计分析、数据挖掘等。有些分析处理需要对数据集进行多次的扫描，分析查询执行的时间以分钟或者小时计。与普通行存储模式不同，一些学者提出了列存储模式(columnar storage model)。列存储模型有行存储没有的优势特征，当查询只涉及关系的某些数据列时，不会造成无关数据的提取，减少I/O操作，提高了查询的效率。围绕RDBMS，形成了一个完整的生态体系(厂家、技术、产品、服务等)，提供了包括数据采集、数据管理、数据查询与分析、数据展现(即可视化)等技术和产品，创造了巨大的数据库产业，为社会发展做出了巨大贡献。

　　2.1.3 关系数据库的不足

　　大数据时代的到来，关系型数据库并未做好全面的准备，出现了诸多问题，主要问题有以下几个方面：

　　(1)关系模型不容易组织和管理所有类型多样的数据，例如在关系数据库里，管理大规模的高维时空数据、大规模的图像数据等都显得力不从心。

　　(2)如何才能通过大量节点的并行操作实现大规模数据的高速处理，仍然值得我们去探索。在关系数据库上进行大规模的事物处理，不但需要解决查询的性能问题，更需要解决修改操作的性能问题，大量的事物处理，需要高效完成，才能保证数据的持久性和可靠性。

首页

尾页