Hadoop - overfit.cn

多次重新初始化hadoop namenode -format后，DataNode或NameNode没有启动

overfit同步小助手 2023-10-31 20:03:34 0 收藏

大数据技术之Hadoop：HDFS集群安装篇（三）

此为个人学习笔记，包含个人归纳总结以及结合了对网络资源的整理，初衷是为了自己复习巩固。如果能帮到各位是我的荣幸！该总结参考了黑马教程，感兴趣的也可以去观看相关视频。

overfit同步小助手 2023-10-31 09:03:40 0 收藏

Hive篇面试题+详解

Hive是一个基于Hadoop的数据仓库工具，它提供了一个类SQL的查询语言（HiveQL）来查询和分析存储在Hadoop集群中的大规模数据。Hive的主要功能是将结构化数据映射到Hadoop的分布式文件系统（HDFS）上，并提供高级查询和分析功能。Hive支持多种存储格式，包括文本文件、序列文件、

overfit同步小助手 2023-10-31 03:03:26 0 收藏

Java通过kerberos权限认证集成hive

java通过kerberos权限认证集成hive，并操作hive实现hive库和表、分区表的增删查等功能

overfit同步小助手 2023-10-31 00:03:32 0 收藏

Hadoop3教程（二十六）：（生产调优篇）NameNode核心参数配置与回收站的启用

介绍了hadoop里部分核心参数的配置方式，如NameNode内存相关参数的配置、NameNode心跳并发的配置，并介绍了如何启用hadoop的回收站

overfit同步小助手 2023-10-30 20:03:39 0 收藏

HiveServer2负载均衡

有多个HiveServer2服务时，可以借助Zookeeper服务实现访问HiveServer2的负载均衡，将HiveServer2的压力分担到多个节点上去。本文详细介绍HiveServer2负载均衡的配置及使用方法，请根据EMR集群（普通集群和Kerberos集群）的实际情况进行选择。在zoope

overfit同步小助手 2023-10-30 19:03:14 0 收藏

Hadoop：HDFS--分布式文件存储系统

HDFS的基础架构Hadoop由三个部分组成，分别是HDFS、MapReduce和yarn：HDFS由三个角色，主角色、从角色、主角色辅助角色：NameNodeHDFS系统的主角色，是一个独立的进程负责管理HDFS整个文件系统负责管理DataNodeNameNode的辅助，是一个独立进程主要帮助Na

overfit同步小助手 2023-10-30 14:03:48 0 收藏

Hive引擎MR、Tez、Spark

不更换引擎hive默认的就是MR。：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

overfit同步小助手 2023-10-30 13:03:26 0 收藏

从零开始Hadoop安装和配置，图文手把手教你，定位错误（已部署成功）

写了近一万字，所有的步骤基本都有图，Vmware、centos、jdk、Hadoop以及需要用到的工具里面全有。小唐初学Hadoop学了一个月，也配置了一个月，基本上所有可以踩的坑和不可以踩的都遇到了，当自己配置完成之后，又去重新配置了一遍，已经实现了

overfit同步小助手 2023-10-30 11:03:43 0 收藏

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程

大数据开发·关于虚拟机Hadoop完全分布式集群搭建教程一、搭建准备；二、环境搭建；三、群起集群；

overfit同步小助手 2023-10-30 09:03:27 0 收藏

hive 之select 中文乱码

concat_ws("",arrary("境内")) 有用，此时也不知道如何下手，只有掏出大杀器 explain.其实还有别的办法，但是和concat_ws(array(""))一样比较丑陋，我就不说了。经过多方面测试 concat("境内") concat_ws("","境内")没用，有时候我们需

overfit同步小助手 2023-10-30 08:03:53 0 收藏

大数据02-HDFS的使用和基本命令

HDFS(Hadoop Distribute File System)是大数据领域一种非常可靠的存储系统，它以分布式方式存储超大数据量文件，但它并不适合存储大量的小数据量文件。同时HDFS是Hadoop和其他组件的数据存储层，运行在由价格廉价的商用机器组成的集群上的，而价格低廉的机器发生故障的几率比

overfit同步小助手 2023-10-30 08:03:36 0 收藏

Hadoop大数据从入门到实战（三）ZooKeeper入门-初体验

（2）修改“ZOO_LOG_DIR”，修改后：ZOO_LOG_DIR="/opt/zookeeper-3.4.12"（2）为了能够顺利地运行Zookeeper，需要用户创建配置文件。本关任务：了解ZooKeeper的配置并根据需求正确配置ZooKeeper。本关任务是使用命令行，开启ZooKeepe

overfit同步小助手 2023-10-30 01:03:13 0 收藏

[Hive] 常见函数

REGEXP_REPLACE(string, pattern, replacement)：使用正则表达式模式替换字符串中的匹配项为指定的替换字符串。JSON_EXTTRACT(json_string, json_path)：从 JSON 字符串中提取满足 JSONPath 表达式的值。GET_JSO

overfit同步小助手 2023-10-29 15:03:42 0 收藏

CentOS7搭建伪分布式Hadoop（全过程2023）

可以使用XFTP，用物理主机链接虚拟机的centos传送java文件，或者直接去java官网下载文件，解压。配置文件，启动配置。下载hbase.bin.tar.gz（这里下的是2.2.2，因为我的hadoop是3.1.3版本的）在/etc目录下修改sudoers文件，赋予权限。4.为什么从8020变

overfit同步小助手 2023-10-29 06:03:33 0 收藏

大数据平台搭建——hadoop集群（基于CentOS-7）的搭建

本次hadoop集群搭建的虚拟机采用的软件为VMware Workstation Pro，用的镜像文件为CentOS-7，此篇文章是为自己准备大数据比赛中的大数据平台搭建部分所写，故只针对搭建hadoop集群搭建的部分进行概述，前绪工作包括虚拟机的搭建读者可以阅读下面的文章自行进行安装。将主机上的h

overfit同步小助手 2023-10-29 04:06:35 0 收藏

数据仓库Hive（林子雨课程慕课）

Hive特点传统的数据仓库既是数据存储产品也是数据分析产品传统的数据仓库能同时支持数据的存储和处理分析Hive本身并不支持数据存储和处理其实只是提供了一种编程语言其架构于Hadoop之上，Hadoop有支持大规模数据存储的组件HDFS，以及支持大规模数据处理的组件MapReduceHive借助于这两

overfit同步小助手 2023-10-29 04:03:44 0 收藏

Hive【Hive（三）查询语句】

Hive 查询语句、基本查询、分组、排序、join

overfit同步小助手 2023-10-28 17:03:17 0 收藏

Hadoop报错Permission denied: user=dr.who, access....

该问题其实是一个权限问题，可能会导致运行 “ hadoop jar ”命令时报错；MapReduce工件，中间数据将保存在该目录下。MapReduce作业执行完成后，这些文件将自动清除。报错原因是因为运行 ” hadoop jar “ 文件时的默认hdfs文件夹是tmp，但是由于权限不够导致运行失败

overfit同步小助手 2023-10-28 14:03:48 0 收藏

Hadoop伪分布式环境搭建

Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置，用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件，而无需配置和管理一个真正的多节点集群。在 Hadoop 伪分布式集群中，各个 Hadoop 组件（如 NameNode、D

overfit同步小助手 2023-10-28 14:03:31 0 收藏