【大数据】Hadoop总结
一、概述1. Hadoop特性2. HDFS结构HDFS 架构二、HDFS分布式文件系统1 概述2. HDFS存储数据架构图NameNodeDataNode3 HDFS优点4 HDFS缺点(不适用HDFS的场景)5 HDFS技术细节BlockNameNodeDataNode6 HDFS 副本放置策略
Hadoop | 好用的脚本分享
Hadoop脚本!一键完成,从此告别重复操作!
使用Hadoop分析气象数据(附代码)
刚学了Hadoop,在网上找完整的分析使用过程进行练手观看。本文数据和方法均来自于大佬的(侵删)
大数据Hadoop之——总结篇
前面已经介绍了几乎企业里使用到的绝大多数大数据组件了,这里来个简单的总结,主要针对常见的操作进行总结。也方便自己和大家在工作中快速查阅。
一百一十一、Hive——从HDFS到Hive的数据导入(静态分区、动态分区)
从HDFS到Hive的数据导入(静态分区、动态分区)
大数据Doris(二十八):Broker Load通配符导入HDFS数据并指定列顺序
使用通配符匹配导入两批文件file-10* 和 file-20*。分别导入到 broker_load_t1 和 broker_load_t2 两张表中。其中 broker_load_t1 指定导入到分区 p1 中,并且将导入源文件中第二列和第三列的值 +1 后导入。创建Doris非分区表及分区表,使
第三节 Hadoop学习案例——MapReduce课程设计 好友推荐功能
Hadoop学习案例——MapReduce课程设计 好友推荐功能
大数据期末复习资料2023 Beta版
ZooKeeper是一个分布式应用程序协调服务,主要用于解决分布式集群中应用系统的一致性问题。ZooKeeper=文件系统+通知机制。(类似于资源管理系统)HBase是一个高可靠、高性能、面向列、可伸缩的、实时读写的分布式数据库,是Hadoop的一个重要组件。
基于HDFS实现的简易云盘系统
基于HDFS实现简单的云盘系统。代码开源。
实验5 MapReduce初级编程实践(2)——编写程序实现对输入文件的排序
一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本:3.1.3三、实验内容编写程序实现对输入文件的排序
Hadoop详细入门知识
现在的我们,生活在数据大爆炸的年代。2020年,全球的数据总量达到44ZB,经过单位换算后,至少在440亿TB以上,也就是说,全球每人一块1TB的硬盘都存储不下。扩展: 数据大小单位,从小到大分别是: byte、kb、mb、Gb、Tb、PB、EB、ZB、DB、NB...单位之间的转换都是满足1024
启动HBase shell后,HMaster自动关闭
使用HBase shell时,执行命令list时出现错误:ERROR: Can't get master address from ZooKeeper; znode data == null即:原因分析:启动HBase shell前需分别依次启动Hadoop、HBase。(1)启动Hadoop在ub
窗口函数简介与总结
窗口函数是 SQL 中一类特别的函数。和聚合函数相似,窗口函数的输入也是多行记录。不 同的是,聚合函数的作用于由 GROUP BY 子句聚合的组,而窗口函数则作用于一个窗口, 这里,窗口是由一个 OVER 子句 定义的多行记录。聚合函数对其所作用的每一组记录输 出一条结果,而窗口函数对其所作用的窗口
【Hadoop综合实践】手机卖场大数据综合项目分析
🚀 本文章实现了基于MapReduce的手机浏览日志分析🚀 文章简介:主要包含了数据生成部分,数据处理部分,数据存储部分与数据可视化部分🚀 【本文仅供参考】其中需求实现的方式有多种,提供的代码并非唯一写法,选择适合的方式即可。
Hadoop之——WordCount案例与执行本地jar包
Hadoop之——WordCount案例与执行本地jar包
hive数据仓库--Hive介绍
hive
IDEA配置Hadoop环境-非maven配置版(图文详细)
IDEA配置Hadoop环境-非maven配置版(图文详细)
什么是大数据? 大数据有哪些应用场景?
大数据技术的发展已经改变了我们对数据的认知和处理方式,大数据是一种新型的数据处理技术,它涵盖了多个领域,包括计算机科学、网络通信、算法理论、应用统计学等。简要来说,大数据可以定义为处理规模庞大复杂度高数据时所需的技术和方法。
实验7 Spark初级编程实践
1. Spark读取文件系统的数据2.编写独立应用程序实现数据去重对于两个输入文件A和B,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。3.编写独立应用程序实现求平均值问题每个输入文件表示
大数据:HBase安装、配置及使用
大数据大数据,HBase,python大数据:HBase安装、配置及使用一、下载二、安装和配置1. 搭建hadoop环境2. 安装3. 验证4. 安装模式配置1) 伪分布式模式配置(1)编辑 `/usr/local/hbase/conf/hbase-env.sh` 文件(2)编辑 `/usr/loc