大数据 Hadoop - overfit.cn

docker搭建hadoop+hbase

overfit同步小助手 2024-07-30 10:03:49 0 收藏

05-用户画像+mysql-hive数据导入

新建 create_hive_table.sh文件。

overfit同步小助手 2024-07-30 05:03:48 0 收藏

Hadoop平台搭建（hive前的步骤）

1.1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop。1.4. 执行以下命令修改 hadoop-env.sh 配置文件。在浏览器的地址栏输入：http://master:8088。配置两个子节点slave1、slave2的JDK环境。1.3. 使配置的 Hadoop 的环境变量生效。

overfit同步小助手 2024-07-30 04:03:31 0 收藏

Hive笔记-6

Group By语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。max()，求最大值，不包含null，除非所有值都是null；min()，求最小值，不包含null，除非所有值都是null；count(某列)，表示该列一共有多少行，不包含null值；count

overfit同步小助手 2024-07-29 20:03:44 0 收藏

Hive窗口函数

在 Apache Hive 中，窗口函数是一种特殊类型的函数，它允许你在查询中对分区数据执行复杂的分析。窗口函数在标准 SQL 中可用，Hive 作为 Apache Hadoop 的一个组件，也支持这些功能。以下是一些常见的窗口函数以及如何在 Hive 中使用它们的示例。

overfit同步小助手 2024-07-28 14:03:37 0 收藏

hadoop上的spark和Scala安装与配置

进入 /opt/software/ 查看是否导入scala、spark包（刚开始就导入包了，这里直接查看）然后进行文件的托拽到（/opt/software）目录下，也可以复制哦（可以两个包一起导入）（2）进入 /opt/software/ 查看是否导入scala、spark包。然后用tar命令解

overfit同步小助手 2024-07-28 12:03:43 0 收藏

大数据期末复习——hadoop、hive等基础知识

Hadoop提供了高可用性的解决方案，如HDFS的NameNode HA(高可用性)机制和VARN的ResourceManager HA机制，确保即使在节点故障的情况下，集群仍能保持高可用性，不影响作业的执行。2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

overfit同步小助手 2024-07-28 10:03:51 0 收藏

HIVE3.1.3+ZK+Kerberos+Ranger2.4.0高可用集群部署

HIVE3.1.3+ZK+Kerberos+Ranger高可用集群部署

overfit同步小助手 2024-07-28 08:03:37 0 收藏

Hadoop课设蔬菜统计--超详细流程

蔬菜统计根据“蔬菜.txt”的数据，利用Hadoop平台，实现价格统计与可视化显示。要求：通过MapReduce分析列表中的蔬菜数据。（1）统计各地区每一天大白菜、土豆的价格（柱状图）（2）选取一个城市，统计各个蔬菜价格变化曲线（折线图）（3）统计每种蔬菜价格最高的地区和日期（柱状图）（4）加载H

overfit同步小助手 2024-07-28 06:03:40 0 收藏

Spark的动态资源分配算法

本文讲解了Spark on Yarn的动态资源分配场景下，从Task信息的生成，到资源的请求，以及将生成的Task基于资源的Locality Preference调度到生成的Executor的整个过程。

overfit同步小助手 2024-07-27 20:03:59 0 收藏

Hadoop 面试题（十一）

1. 简述Hadoop-2.6.5 集群中，HDFS 默认副本块（含原数据块）的个数是？2. Google三驾马车是Hadoop等分布式系统的基石，其中论文()不属于三驾马车之一？3. 简述关于安全模式命令，正确的是？4. 简述以下不属于Hadoop中NameNode的功能点的选项是？5.

overfit同步小助手 2024-07-27 06:03:56 0 收藏

大数据HDFS概述【长期更新】

Hadoop基本介绍和设计原理

overfit同步小助手 2024-07-27 06:03:50 0 收藏

HIVE基本数据类型

overfit同步小助手 2024-07-27 00:03:48 0 收藏

【大数据·hadoop】在hdfs上运行shell基本常用命令

在Hadoop生态系统中，supergroup 是一个默认的用户组，通常与HDFS的超级用户（即 Hadoop 的管理员账户，类似于 Unix 系统中的 root 用户）关联。超级用户和属于 supergroup 组的用户通常有着对HDFS上所有文件和目录的全权限，这包括读取、写入和执行权限。

overfit同步小助手 2024-07-26 20:03:40 0 收藏

hadoop 单节点模式安装

http://localhost:9870/，或http://127.0.0.1:9870/，或http://192.168.1.253:9870/;链接地址为：https://www.oracle.com/java/technologies/downloads/

overfit同步小助手 2024-07-26 17:03:41 0 收藏

Hadoop3：参数调优-核心参数NameNode内存配置、并发数配置、回收站配置

Hadoop

overfit同步小助手 2024-07-26 12:03:42 0 收藏

Hive 函数

UDF（User-Defined-Function）普通函数，一进一出；例如：round 这样的函数；UDAF（User-Defined Aggregation Function）聚合函数，多进一出；例如：count、sum 这样的函数；UDTF（User-Defined Table-Genera

overfit同步小助手 2024-07-26 12:03:35 0 收藏

Hadoop入门配置（黑马版）

准备虚拟机上的Linux操作系统环境。

overfit同步小助手 2024-07-26 10:03:47 0 收藏

Hive自定义函数编写方法（含源代码解读，超详细，易理解）

Hive创建自定义函数的逻辑并不难，只需继承相关类，实现相关方法，打成jar包上传集群即可。但在代码编写阶段有一定难度，需要一定的java基础。t=N7T8。

overfit同步小助手 2024-07-26 05:03:46 0 收藏

大数据基础：Hadoop之MapReduce重点架构原理

Reduce端每个Reduce task会从每个map task所在的节点上拉取落地的磁盘文件对应的分区数据，对于每个Reduce task来说，从各个节点上拉取到多个分区数据后，每个分区内的数据按照key分组有序，但是总体来看这些分区文件中key数据不是全局有序状态（分区数据内部有序，外部无序）。

overfit同步小助手 2024-07-26 04:03:50 0 收藏