大数据 Hadoop - overfit.cn

访问 Hive 的元数据存储（MetaStore）的API方式

访问 Hive 的元数据存储（MetaStore）是通过 Hive 的 Thrift API 来实现的。导入 thrift 和 Hive Metastore 的相应模块，创建一个 Thrift 的 transport 对象和一个 Hive Metastore 的 client 对象，并连接到 Hiv

overfit同步小助手 2023-09-18 05:03:42 0 收藏

hadoop-3.3.3完全分布式集群搭建

hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop

overfit同步小助手 2023-09-18 03:03:23 0 收藏

头歌2.1 Hadoop 开发环境搭建及HDFS初体验（第2关：配置开发环境 - Hadoop安装与伪分布式集群搭建）

第2关：配置开发环境 - Hadoop安装与伪分布式集群搭建第3关：HDFS系统初体验

overfit同步小助手 2023-09-17 22:04:10 0 收藏

HDFS源码解析

HDFS NameNode、DataNode启动流程、HDFS元数据管理流程、写数据流程源码详解

overfit同步小助手 2023-09-17 22:03:59 0 收藏

Python操作HDFS文件的实用方法

Python操作HDFS文件的实用方法Apache Hadoop是一个开源的分布式计算系统，它提供了一种高效的方式来存储和处理大规模数据集。Hadoop的核心组件之一是Hadoop分布式文件系统（HDFS），它提供了可扩展的存储和高效的数据访问。在Python中，我们可以使用hdfs库来连接和操作H

overfit同步小助手 2023-09-17 03:03:40 0 收藏

解决Linux root用户设置ssh免密登陆后仍然需要输入密码的问题

搭建hadoop集群后,设置ssh免密登录发现还是一直需要输入密码,简直是烦死了,很明显就是ssh免密登录没有设置好.出现该问题有很多原因,比如ssh配置不对或者路径权限不对等等。

overfit同步小助手 2023-09-16 17:03:45 0 收藏

Hadoop集群部署-（完全分布式模式，hadoop-2.7.4）

查看网络IP，确定各个主机IP对应是否正确，并测试能否连接外网。

overfit同步小助手 2023-09-16 05:03:28 0 收藏

【大数据】hadoop运行环境搭建（搭建如此简单）

首先准备好工具。下载好最新的VMware Workstation，CentorOS 7运行Linux，建议Linux桌面标准版，且创建好一个用户模板机一定要按照步骤做好准备，避免遗漏，否则一台一台改超级麻烦。搭建hadoop运行环境！！

overfit同步小助手 2023-09-15 16:03:57 0 收藏

6道常见hadoop面试题及答案解析

Hadoop生态系统，拥有15多种框架和工具，如Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala等，以便将数据摄入HDFS，在HDFS中转移数据（即变换，丰富，聚合等），并查询来自HDFS的数据用于商业智能和分析。具有数据的元数据，但也允许指定用于读取文件的独立模式。基

overfit同步小助手 2023-09-15 15:04:03 0 收藏

大数据的前世今生与未来

overfit同步小助手 2023-09-15 10:03:57 0 收藏

hive表的全关联full join用法

把两个表的结果拼在一行了，匹配不上的都用NULL值进行填充了，显然不是我要的结果。查询完显示如下，nice，😄。test_b表的数据如下；test_a表的数据如下。

overfit同步小助手 2023-09-15 10:03:51 0 收藏

【Hadoop-Distcp】工具简介及参数说明

overfit同步小助手 2023-09-15 07:03:59 0 收藏

hive中collect_list函数

collect_list聚合函数，

overfit同步小助手 2023-09-15 02:03:58 0 收藏

5、HDFS API的RESTful风格--WebHDFS

WebHDFS 提供了访问HDFS的RESTful接口，内置组件，默认开启。WebHDFS 使得集群外的客户端可以不用安装HADOOP和JAVA环境就可以对HDFS进行访问，且客户端不受语言限制。当客户端请求某文件时，WebHDFS会将其重定向到该资源所在的datanode。

overfit同步小助手 2023-09-15 02:03:37 0 收藏

zookeeper/HA集群配置

1.1 安装4台虚拟机（1）按照如下设置准备四台虚拟机，其中三台作为zookeeper，配置每台机器相应的IP，hostname，下载vim，ntpdate配置定时器定时更新时间，psmisc（psmisc用于管理系统上运行进程，包括ps、kill、fuser、pstree等命令它能够更方便地使用

overfit同步小助手 2023-09-14 22:04:12 0 收藏

Docker安装Hadoop分布式集群

hadoop目录安装在：/usr/local/hadoop-2.7.0/etc/hadoop。

overfit同步小助手 2023-09-14 17:03:56 0 收藏

hdfs删除后空间不是释放，trash回收机制

在2023-06-19删除完的文件后，将删除的文件移动到/user/hadoop/.Trash/current文件夹下，3天后2023-06-22检查点生成机制运行，将回收站中的数据移动到/user/hadoop/.Trash/20230622080017，此时也会删除当前时间三天前过期的检查点数据

overfit同步小助手 2023-09-14 10:04:11 0 收藏

hive报错信息不明确的情况汇总

return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. Exception when loading 1 in table uniaction1 with loadPath

overfit同步小助手 2023-09-14 09:03:56 0 收藏

大数据之Hadoop分布式数据仓库HBase

HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型，它是 Hadoop 生态系统的一部分，它将数据存储在 HDFS 上，客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。不支持复杂的事

overfit同步小助手 2023-09-14 08:04:09 0 收藏

Hadoop-5-HDFS常用命令

打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务，做过的任务尝试等信息可以通过指定。把hdfs里面的多个文件合并成一个文件，合并后文件位于本地系统。从检查点目录装载镜像并保存到当前检查点目录，检查点目录由。最近的升级会被持久化，回滚到前一版本，这个选项要在停止集群，分发

overfit同步小助手 2023-09-14 08:04:01 0 收藏