一、文献综述
随着移动互联网、物联网、云计算等的快速发展,以及视频监控、智能终端、应用商店的快速普及,全球数据量出现爆炸式增长。世界已经转移到以数据为中心的时代,即大数据时代。大数据是继云计算、物联网之后IT产业又一颠覆性的技术革命[2]。所谓大数据技术就是从各种各样类型的数据中,快速获得有价值信息的能力。从某种程度上说,大数据技术是数据分析领域的前沿技术,其具有以下几个特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)[3]。数据从简单的处理对象开始转变为一种基础性资源,大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本改变。因此,如何更好地管理和利用大数据将成为普遍关注的话题。
大数据的精髓在于分析信息时的三个转变[5],这些转变将改变我们理解和组建社会的方法。第一个转变:在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样;第二个转变:研究的数据如此之多,以至于我们不再热衷于追求精确度,我们不再需要对一个现象刨根究底,而只要掌握大体的发展方向即可;第三个转变:我们不再热衷于寻找因果关系,而应该寻找事物之间的相关关系。相关分析的目的是找出数据集里隐藏的相互关系网,它一般用支持度、可信度、兴趣度等参数反应[6]。
大数据时代下,要处理的数据量越来越大,而且还将更快速地增长,同时业务需求和竞争压力对数据处理的实时性、有效性也提出了更高的要求,传统的常规数据处理技术已无法应付,所以需要根据大数据的特点进行新的技术变革。大数据技术是一系列收集、存储、管理、处理、分析、共享和可视化技术的集合。适用于大数据的技术[4],包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分,大数据的特色在于对海量数据进行挖掘,所以大数据必然无法用单台的计算机进行处理,它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术[11]来完成对大规模数据的有效处理。
Google公开的一系列云计算技术,使得以MapReduce为代表的大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具[12]。MapReduce是由Google提出的面向大数据集处理的编程模型,起初它主要用作互联网数据的处理,例如文档专区、倒排索引的建立等。但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏[18],该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用。MapReduce技术框架包含3个层面的内容:(1)分布式文件系统(2)并行编程模型(3)并行执行引擎。它将数据处理任务抽象为一系列的Map(映射)Reduce(化简)操作对[19]。,Map函数处理Key/Value对,产生一系列的中间Key/Value对,Reduce函数用来合并所有具有相同Key值的中间值对,并计算最终结果[10]。Hadoop是一个处理分布式系统问题中庞大数据集的软件框架,它具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据存储和计算任务[17]。Hadoop由分布式文件系统HDFS、并行计算框架MapReduce和非结构化数据库Hbase组成,它们分别是Google GFS和Google MapReduce和Google BigTable的开源实现 [8]。由于Hadoop部署的复杂性及不稳定性,使其应用到目前为止还不是十分广泛,但无论如何,其为大数据处理提供了一种途径和方式[22]。
大数据通常用来形容一个公司创造的大量非结构化和半结构化数据[4],大数据带来大机遇的同时也为有效管理和利用大数据提出了挑战。面对超大规模数据的分析需求,我们应该将注意力集中在系统的横向扩展(scale out)上,即通过增加计算节点链接成集群,并且改写软件,使之在集群上并行执行 [10] ,而不是集中在纵向扩展(scale up)上。 尽管不同种类的海量数据存在一定的差异,但总体而言,支持数据管理的系统应具有如下特性[20]:高可扩展性、高性能、容错性、可伸缩性和尽可能低的运营成本等。在分布式系统中,一致性、可用性、容错性三者不可兼得,并行数据库系统追求高度的一致性和可容错性,因此无法获得良好的扩展性和系统可用性,而系统的扩展性却是大数据分析的重要前提[9]。互联网和云计算的不断发展对数据库技术提出了更多的要求,主要体现在以下几个方面:1)高并发读写需求 2)海量数据的高效存储和访问需求 3)高可扩展性和高可用性需求[7]。 为了满足这些需求,NoSQL应运而生。NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统,它具有传统关系数据库所不能满足的特性,是面向应用需求而提出的各具特色的产品。
目前,大数据技术的运用仍存在一些困难与挑战,具体体现在以下四个环节中:1)数据收集 2)数据存储 3)数据处理 4)结果的可视化呈现[13]。简单的脚本语言预处理、无法解析过于复杂的数据结构、关系型数据库无法存储如此大规模的数据、商业数据库的优化空间有限加上数据质量无法做到有效监控[14],这些都是大数据技术研究过程中亟待解决的问题。但是要想让大数据技术更好地为人类服务,不仅需要解决技术上的问题,数据的安全性研究[21]也应引起足够的重视,例如APT(Advanced Persistent Theat 高级持续性安全威胁)[1]。云环境下存储个人数据,如何保证个人数据的安全性至关重要,基于此,出现了针对个人数据的私密性和安全性的研究,如云内定义安全性、数据加密等。
尽管大数据的发展面临一些挑战,但仍呈现出蓬勃发展的趋势,大数据技术是数字化发展的必然,它为人类全面、深刻地认识世界、认识自身提供了新的方式,这在此前的时代是无法办到的。麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生产力提高、经济增长以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一系列新技术发展趋势的加速和凝聚,大数据所带来的变化规模已经达到新的拐点,将会迅速膨胀[15]。在此背景下,一些采用数据驱动型决策模式经营的公司,则可将其生产力提高5%-6%。因此,深入研究大数据时代的挑战、价值与务实应对策略将具有重要意义。
二、拟研究、解决的问题及意义
研究内容:对大数据的基本概念进行剖析,并对大数据的主要应用做简单对比。在此基础上,阐述大数据处理的基本框架,并就云计算技术、数据库技术、应用开发主流技术对于大数据时代数据管理所产生的作用进行分析。最后归纳总结大数据时代所面临的机遇与挑战,分析大数据产业的发展趋势。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。