docker搭建hadoop+hbase
docker搭建hadoop+hbase
05-用户画像+mysql-hive数据导入
新建 create_hive_table.sh文件。
Hadoop平台搭建(hive前的步骤)
1.1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop。1.4. 执行以下命令修改 hadoop-env.sh 配置文件。在浏览器的地址栏输入:http://master:8088。配置两个子节点slave1、slave2的JDK环境。1.3. 使配置的 Hadoop 的环境变量生效。
Hive笔记-6
Group By语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。max(),求最大值,不包含null,除非所有值都是null;min(),求最小值,不包含null,除非所有值都是null;count(某列),表示该列一共有多少行,不包含null值;count
Hive窗口函数
在 Apache Hive 中,窗口函数是一种特殊类型的函数,它允许你在查询中对分区数据执行复杂的分析。窗口函数在标准 SQL 中可用,Hive 作为 Apache Hadoop 的一个组件,也支持这些功能。以下是一些常见的窗口函数以及如何在 Hive 中使用它们的示例。
hadoop上的spark和Scala安装与配置
进入 /opt/software/ 查看是否导入scala、spark包(刚开始就导入包了,这里直接查看)然后进行文件的托拽到(/opt/software)目录下,也可以复制哦(可以两个包一起导入)(2)进入 /opt/software/ 查看是否导入scala、spark包。然后用tar命令解
大数据期末复习——hadoop、hive等基础知识
Hadoop提供了高可用性的解决方案,如HDFS的NameNode HA(高可用性)机制和VARN的ResourceManager HA机制,确保即使在节点故障的情况下,集群仍能保持高可用性,不影响作业的执行。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
HIVE3.1.3+ZK+Kerberos+Ranger2.4.0高可用集群部署
HIVE3.1.3+ZK+Kerberos+Ranger高可用集群部署
Hadoop课设蔬菜统计--超详细流程
蔬菜统计根据“蔬菜.txt”的数据,利用Hadoop平台,实现价格统计与可视化显示。要求:通过MapReduce分析列表中的蔬菜数据。(1)统计各地区每一天大白菜、土豆的价格(柱状图)(2)选取一个城市,统计各个蔬菜价格变化曲线(折线图)(3)统计每种蔬菜价格最高的地区和日期 (柱状图)(4)加载H
Spark的动态资源分配算法
本文讲解了Spark on Yarn的动态资源分配场景下,从Task信息的生成,到资源的请求,以及将生成的Task基于资源的Locality Preference调度到生成的Executor的整个过程。
Hadoop 面试题(十一)
1. 简述Hadoop-2.6.5 集群中,HDFS 默认副本块(含原数据块)的个数是 ?2. Google三驾马车是Hadoop等分布式系统的基石,其中论文()不属于三驾马车之一 ?3. 简述关于安全模式命令,正确的是 ?4. 简述以下不属于Hadoop中NameNode的功能点的选项是 ?5.
大数据HDFS概述【长期更新】
Hadoop基本介绍和设计原理
HIVE基本数据类型
HIVE基本数据类型
【大数据·hadoop】在hdfs上运行shell基本常用命令
在Hadoop生态系统中,supergroup 是一个默认的用户组,通常与HDFS的超级用户(即 Hadoop 的管理员账户,类似于 Unix 系统中的 root 用户)关联。超级用户和属于 supergroup 组的用户通常有着对HDFS上所有文件和目录的全权限,这包括读取、写入和执行权限。
hadoop 单节点模式安装
http://localhost:9870/,或http://127.0.0.1:9870/,或http://192.168.1.253:9870/;链接地址为:https://www.oracle.com/java/technologies/downloads/
Hive 函数
UDF(User-Defined-Function) 普通函数,一进一出;例如:round 这样的函数;UDAF(User-Defined Aggregation Function)聚合函数,多进一出;例如:count、sum 这样的函数;UDTF(User-Defined Table-Genera
Hadoop入门配置(黑马版)
准备虚拟机上的Linux操作系统环境。
Hive自定义函数编写方法(含源代码解读,超详细,易理解)
Hive创建自定义函数的逻辑并不难,只需继承相关类,实现相关方法,打成jar包上传集群即可。但在代码编写阶段有一定难度,需要一定的java基础。t=N7T8。
大数据基础:Hadoop之MapReduce重点架构原理
Reduce端每个Reduce task会从每个map task所在的节点上拉取落地的磁盘文件对应的分区数据,对于每个Reduce task来说,从各个节点上拉取到多个分区数据后,每个分区内的数据按照key分组有序,但是总体来看这些分区文件中key数据不是全局有序状态(分区数据内部有序,外部无序)。