大数据(Big data,简称BD)是指规模庞大的数据集,其数据量之大,以至于传统的软件技术和工具无法在合理时间内完成数据的获取、管理和处理。它具有五个维度的特点,这些特点共同构成了大数据的独特性质。
一、数据规模(Volume):大数据的容量巨大,可达到数百TB,甚至PB、EB级别。这样的数据量级超出了传统关系型数据库的承受能力。
二、数据多样性(Variety):大数据涵盖了结构化、半结构化以及非结构化等多种格式的数据,其中的数据表现形态多样,包括数值、文本、图形、图像以及流媒体等。
三、数据处理时效性(Velocity):许多大数据应用需要即时处理,以满足特定的响应性能要求。
四、结果准确性(Veracity):在处理大数据时,必须确保结果的准确性,不能因为追求处理速度而牺牲结果的精确性。
五、深度价值(Value):大数据中潜藏着巨大的价值,需要通过深入的分析来挖掘这些价值。
大数据技术的核心任务是从社会生产生活中筛选出有价值的数据,为产业发展提供支持。这项技术涵盖了数据的采集、预处理、管理、存储、分析以及应用等多个方面。大数据技术的应用不仅限于处理巨量数据,更在于从这些数据中发现有价值的信息,并将其应用于特定领域。
随着大数据技术体系的成熟,它已经从核心的数据存储、处理和分析任务扩展到了数据管理、流通和安全等领域,形成了一个层次分明、体系完备的技术框架。这个框架包括数据维护、管理、分析和安全技术体系等多个部分。
在数据维护方面,针对巨量异构数据的存储和计算需求,发展了分布式存储和计算框架。对于巨量结构化和非结构化数据的批处理,采用了基于Hadoop、Hive和Spark的生态体系。而对于实时数据的计算反馈,则有Storm、Flink和SparkStreaming等流处理计算框架。
在数据管理方面,由于大数据产生过程的复杂性和多样性,有效管理数据成为了一项挑战。发展了数据整合技术和数据资产管理技术,以解决数据获取难、准确性低和实时性差等问题。
在数据分析应用方面,为了实现数据的价值和挖掘,出现了包括BI工具在内的统计分析与可视化技术,以及基于传统机器学习和深度网络的数据挖掘分析建模技术。
在数据安全方面,随着数据价值的挖掘,数据安全问题日益突出。应用了访问控制、身份识别、数据加密、数据脱敏和隐私计算等技术,以保护数据的安全和合规使用。
从数据处理实时性的角度看,大数据处理技术可分为批处理和流处理两类。批处理主要用于对历史数据的分析和计算,而流处理则能实时处理数据,满足近实时处理需求。