Hadoop:HDFS总结
Hadoop:HDFS总结HDFS架构NameNode(nn): 管理文件的元数据,如文件名、文件目录结构、文件属性等信息【NN运行时,元数据是存储在内存中,从而保证响应时间】元数据只保留在内存中是非常不可靠的,所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据:fsimage文件,以fsi
一篇解析论文MapReduce
一篇解析论文MapReduce,这样你也可以和面试官“讲一讲”
PySpark与GraphFrames的安装与使用
pandas快速升级到spark,简单丝滑,值得拥有。
2、Hive数据仓库——环境搭建及简单使用
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时
六十七、Spark-两种运行方式(本地运行,提交集群运行)
本地运行:在IDEA中直接运行控制台输出结果即可集群运行:在本地将程序打包为 jar,提交至集群运行其程序(将结果上传至hdfs)
Hadoop(三)HDFS 原理
HDFS核心的设计思想 HDFS 集群中,主要的角色有 NameNode 和 DataNode 两大角色 (SecondaryNamenode 和 Client); NameNode 负责管理文件系统的元数据,并响应 Client 的请求; DataNode 负责存储用户的文件块(block)
12、Hadoop框架MapReduce 统计人数、总分、关联
文章目录Hadoop框架MapReduce 统计人数、总分、关联数据Hadoop框架MapReduce 统计人数、总分、关联数据students.txt1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班15
Hadoop(二)介绍HDFS
HDFS的简单介绍
09、Hadoop框架Zookeeper Java API
Hadoop框架Zookeeper Java API
08、Hadoop框架HDFS HA 的高可用
Hadoop框架HDFS HA 的高可用
04、Hadoop框架HDFS NN、SNN、DN工作原理
Hadoop框架HDFS NN、SNN、DN工作原理
06、Hadoop框架HDFS读写流程
Hadoop框架HDFS读写流程
元数据性能大比拼:HDFS vs OSS vs JuiceFS
背景存储是大数据的基石,存储系统的元数据又是它的核心大脑,元数据的性能对整个大数据平台的性能和扩展能力非常关键。本文选取了大数据平台中 3 个典型的存储方案来压测元数据的性能,来个大比拼。其中 HDFS 是被广为使用的大数据存储方案,已经经过十几年的沉淀和积累,是最合适的参考标杆。以 Amazon
金融风控实战——Hive详解(数据读取、预处理、特征工程)
大数据技术介绍大数据技术的介绍: 1、存储,我们需要了解在大数据的架构下,数据大致是怎么进行存储的,传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是用户在实际的应用中,看到的是一
hadoop 使用 kerberos 认证后,hadoop fs -ls 命令、hdfs dfs -ls 无法使用
解决启用 kerberos 认证的 hdfs 集群 遇到的无法使用hadoop、hdfs命令的问题
Hadoop生态圈(二十一)- MapReduce编程基础
MapReduce Partition分区,MapReduce Combiner规约,MapReduce自定义对象序列化,MapReduce自定义排序,MapReduce自定义分区,MapReduce自定义分组,自定义分组扩展:topN问题,默认情况下MR输出文件个数,数据分区概念,默认分区规则,P
Hadoop入门(一)
Hadoop是一个有Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分析计算问题
Hadoop之伪分布式配置安装
Hadoop支持本地模式、伪分布式模式、完全分布式模式3种安装模式。本地模式,在系统中下载Hadoop,默认情况下,它会被配置为一个独立的模式, 用于运行Java程序;伪分布式模式,这是在单台机器上的分布式模拟,这种模式对开发非常有用:完全分布式模式,又叫集群安装,Hadoop 安装在最少两台计算机
Hive hql 经典5道面试题
最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon1001 2021-12-12 1231002 2021-12-
spark技术学习与思考(sparkcore&sparksql)
Spark 产生之前,已经有 MapReduce 这类非常成熟的并行计算框架存在了,并提供了高层次的API(map/reduce),它在集群上进行计算并提供容错能力,从而实现分布式计算。所以为什么 spark 会流行呢?