大数据 Hadoop - overfit.cn

大数据领域如何理解 Merge、Combine和Aggregate

例如，在MapReduce、Spark等大数据框架中，Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来，以减少数据在网络中的传输。在大数据领域，这通常涉及到将不同来源或分布式存储的数据整合在一起。例如，在SQL查询中的GROUP BY子句，以及Spark、Hadoop等大数

overfit同步小助手 2023-11-02 06:03:45 0 收藏

头歌educoder Hive自定义函数

自定义函数就是除了系统提供给你的函数，你自己去定义的函数。我们需要设置函数的作用、参数、返回值，然而Hive中支持的常见自定义函数有三种，分别是UDF、UDAF、UDTF。

overfit同步小助手 2023-11-02 03:03:31 0 收藏

【Hadoop HA】搭建Hadoop HA的详细教程

搭建Hadoop HA的详细教程前置工作配置host文件ssh免密登录JDK的配置ZooKeeper配置Hadoop HA配置文件core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml启动与测试前置工作配置host文件在每个节点的/etc/hos

overfit同步小助手 2023-11-02 01:03:49 0 收藏

Centos7系统下搭建Hadoop 3.3.6

Centos7系统下搭建Hadoop 3.3.6(包括jdk的安装)

overfit同步小助手 2023-11-01 06:03:15 0 收藏

Windows下DataGrip连接Hive

单独开一个窗口先开启这个元数据服务，这个服务是上面操作了hive后，hive又会通过操作元数据的方式操作mysql。单独开一个窗口启动hiveserver2服务，这个服务是beeline连接的，提供jdbc协议帮助操作hive的。

overfit同步小助手 2023-10-31 22:03:45 0 收藏

多次重新初始化hadoop namenode -format后，DataNode或NameNode没有启动

overfit同步小助手 2023-10-31 20:03:34 0 收藏

大数据技术之Hadoop：HDFS集群安装篇（三）

此为个人学习笔记，包含个人归纳总结以及结合了对网络资源的整理，初衷是为了自己复习巩固。如果能帮到各位是我的荣幸！该总结参考了黑马教程，感兴趣的也可以去观看相关视频。

overfit同步小助手 2023-10-31 09:03:40 0 收藏

Hive篇面试题+详解

Hive是一个基于Hadoop的数据仓库工具，它提供了一个类SQL的查询语言（HiveQL）来查询和分析存储在Hadoop集群中的大规模数据。Hive的主要功能是将结构化数据映射到Hadoop的分布式文件系统（HDFS）上，并提供高级查询和分析功能。Hive支持多种存储格式，包括文本文件、序列文件、

overfit同步小助手 2023-10-31 03:03:26 0 收藏

Java通过kerberos权限认证集成hive

java通过kerberos权限认证集成hive，并操作hive实现hive库和表、分区表的增删查等功能

overfit同步小助手 2023-10-31 00:03:32 0 收藏

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

介绍了hadoop里部分核心参数的配置方式，如NameNode内存相关参数的配置、NameNode心跳并发的配置，并介绍了如何启用hadoop的回收站

overfit同步小助手 2023-10-30 20:03:39 0 收藏

HiveServer2负载均衡

有多个HiveServer2服务时，可以借助Zookeeper服务实现访问HiveServer2的负载均衡，将HiveServer2的压力分担到多个节点上去。本文详细介绍HiveServer2负载均衡的配置及使用方法，请根据EMR集群（普通集群和Kerberos集群）的实际情况进行选择。在zoope

overfit同步小助手 2023-10-30 19:03:14 0 收藏

Hadoop：HDFS--分布式文件存储系统

HDFS的基础架构Hadoop由三个部分组成，分别是HDFS、MapReduce和yarn：HDFS由三个角色，主角色、从角色、主角色辅助角色：NameNodeHDFS系统的主角色，是一个独立的进程负责管理HDFS整个文件系统负责管理DataNodeNameNode的辅助，是一个独立进程主要帮助Na

overfit同步小助手 2023-10-30 14:03:48 0 收藏

Hive引擎MR、Tez、Spark

不更换引擎hive默认的就是MR。：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

overfit同步小助手 2023-10-30 13:03:26 0 收藏

从零开始Hadoop安装和配置，图文手把手教你，定位错误（已部署成功）

写了近一万字，所有的步骤基本都有图，Vmware、centos、jdk、Hadoop以及需要用到的工具里面全有。小唐初学Hadoop学了一个月，也配置了一个月，基本上所有可以踩的坑和不可以踩的都遇到了，当自己配置完成之后，又去重新配置了一遍，已经实现了

overfit同步小助手 2023-10-30 11:03:43 0 收藏

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程一、搭建准备；二、环境搭建；三、群起集群；

overfit同步小助手 2023-10-30 09:03:27 0 收藏

hive 之select 中文乱码

concat_ws("",arrary("境内")) 有用，此时也不知道如何下手，只有掏出大杀器 explain.其实还有别的办法，但是和concat_ws(array(""))一样比较丑陋，我就不说了。经过多方面测试 concat("境内") concat_ws("","境内")没用，有时候我们需

overfit同步小助手 2023-10-30 08:03:53 0 收藏

大数据02-HDFS的使用和基本命令

HDFS(Hadoop Distribute File System)是大数据领域一种非常可靠的存储系统，它以分布式方式存储超大数据量文件，但它并不适合存储大量的小数据量文件。同时HDFS是Hadoop和其他组件的数据存储层，运行在由价格廉价的商用机器组成的集群上的，而价格低廉的机器发生故障的几率比

overfit同步小助手 2023-10-30 08:03:36 0 收藏

Hadoop大数据从入门到实战（三）ZooKeeper入门-初体验

（2）修改“ZOO_LOG_DIR”，修改后：ZOO_LOG_DIR="/opt/zookeeper-3.4.12"（2）为了能够顺利地运行Zookeeper，需要用户创建配置文件。本关任务：了解ZooKeeper的配置并根据需求正确配置ZooKeeper。本关任务是使用命令行，开启ZooKeepe

overfit同步小助手 2023-10-30 01:03:13 0 收藏

[Hive] 常见函数

REGEXP_REPLACE(string, pattern, replacement)：使用正则表达式模式替换字符串中的匹配项为指定的替换字符串。JSON_EXTTRACT(json_string, json_path)：从 JSON 字符串中提取满足 JSONPath 表达式的值。GET_JSO

overfit同步小助手 2023-10-29 15:03:42 0 收藏

CentOS7搭建伪分布式Hadoop（全过程2023）

可以使用XFTP，用物理主机链接虚拟机的centos传送java文件，或者直接去java官网下载文件，解压。配置文件，启动配置。下载hbase.bin.tar.gz（这里下的是2.2.2，因为我的hadoop是3.1.3版本的）在/etc目录下修改sudoers文件，赋予权限。4.为什么从8020变

overfit同步小助手 2023-10-29 06:03:33 0 收藏