一、大数据的特征。
大数据的定义是指规模庞大、多样化、高速度的数据集合。与传统的数据不同,大数据以及从中提取的信息可以改变人们的行为和决策。大数据的特点主要有以下几点。
第一,大数据的规模庞大。传统数据的收集、处理和存储都需要考虑到计算资源的有限性,但是大数据的规模已经远远超过了传统数据的处理能力。它们可以来自多个来源,包括社交媒体、移动设备、物联网、传感器等等。因此,对于大数据的处理需要更加复杂和高效的技术和算法。
第二,大数据的多样性。大数据的来源和形式多种多样,包括结构化数据、非结构化数据、半结构化数据等等。这些数据的形式不同,处理方法也各不相同。因此,大数据的处理需要对不同类型的数据进行分类和处理,以提取有效信息。
第三,大数据的高速度。大数据是实时生成的,数据的流量非常大。传统的数据处理方法已经无法胜任大数据的处理任务,需要更加高效的算法和技术来处理这些数据。因此,大数据的处理速度越来越成为一个重要的挑战。
第四,大数据的价值潜力。大数据中蕴含着巨大的价值潜力。通过对大数据的分析和挖掘,可以获得对商业和政治决策的洞察力,为企业和政府的决策提供依据。这些数据还可以用于开发新产品和服务,推动科技创新和社会进步。
总的来说,大数据的4V特征:规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value)。
二、结构化数据和非结构化数据
结构化数据具有定量性质,由值和数字构成,此类数据组织结构十分清晰,非常易于访问和解读。 结构化数据的示例包括日期、产品ID、产品数量等。
非结构化数据 是定性数据,没有内部结构,由文本、视频和图像组成,您需要使用专门工具来对其进行管理和解读。 非结构化数据的示例包括客户评价、word、pdf、ppt及各种格式的图片、视频等。
三、Hadoop生态圈
hadoop是作为目前主流的大数据处理技术,同时Hadoop只是一套工具的总称,它包含三部分:**HDFS,Yarn,MapReduce**,功能分别是分布式文件存储、资源调度和计算。
**HDFS**:是一个文件存储系统,用于存储和管理大数据集。它通过将文件分成多个数据块并在多个计算机节点上存储这些数据块来实现数据的分布式存储和管理。
**Yarn**:就是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调;NodeManager 负责每一个节点的维护。对于所有的 applications,RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源,同时和 NodeManager 通信来执行和监控 task。
四、Hadoop hdfs架构
HDFS 是 Hadoop 的**分布式文件系统**,它具有高可靠性、高扩展性、高容错性等特点。 HDFS 将数据分成块,并将每个块复制到不同的节点上存储。 当节点发生故障时,HDFS 可以自动将块复制到其他节点上,以确保数据的可靠性和可用性
五、hdfs读的流程
(1)、打开分布式文件流
(2)、向NameNode请求数据文件
(3)、NameNode返回要读取文件的全部或部分元数据信息
(4、5)、HDFS开始从最近的DataNode读取block,若读取的块损坏,则读取备份中的其他block,若所有备份都无法读取,则文件 损坏。
(6)、文件读取文笔,关闭分布式文件流
所有素材接来源于网络。
版权归原作者 啥也不会0-0 所有, 如有侵权,请联系我们删除。