大数据 Hadoop - overfit.cn

Hadoop启动关闭命令

注意：第一次启动集群之前需要格式化

overfit同步小助手 2023-10-22 18:03:54 0 收藏

Hadoop理论及实践-HDFS的Namenode及Datanode（参考Hadoop官网）

本篇博客参照hadoop官网，介绍HDFS的NN及DN，副本存放机制（机架感知策略），安全模式，文件系统元数据持久化（editlog,fsimage）,HDFS健壮性，数据组织及存储空间的回收，重点介绍DataNode及NameNode及机架感知策略

overfit同步小助手 2023-10-22 18:03:23 0 收藏

【hive】hive修复分区或修复表以及msck命令的使用

我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如果不是通过hive的insert等插入语句，很多分区信息在metastore中是没有的，如果插入分区数据量很多的话，你用。在 Hive 中，当您向分区表添加、删除或更改分区数据时

overfit同步小助手 2023-10-22 17:03:39 0 收藏

hiveserver2经常挂断的原因

配置问题：不正确的配置可能导致 HiveServer2 发生问题。如果资源不足，可能会导致 HiveServer2 挂断。Hive 版本问题：某些 Hive 版本可能存在已知的问题或 bug，可能会导致 HiveServer2 挂断。确保使用的 Hive 版本是稳定的，最好是已修复了已知问题的最新版

overfit同步小助手 2023-10-22 12:03:10 0 收藏

如何启动和关闭分布式集群

本文介绍如何启动和关闭一个包含hadoop、zookeeper、hbase和spark的分布式集群。

overfit同步小助手 2023-10-22 01:03:50 0 收藏

linux centos7环境下初始化hive时报错* schemaTool failed *

linux centos7环境下初始化hive时报错*** schemaTool failed ***

overfit同步小助手 2023-10-21 19:03:52 0 收藏

【HDFS】hdfs的count命令的参数详解

overfit同步小助手 2023-10-21 07:04:16 0 收藏

【HDFS】客户端读某个块时，如何对块的各个副本进行网络距离排序？

overfit同步小助手 2023-10-20 17:03:15 0 收藏

hadoop——环境配置

之前上课的时候我就已经用VMware Workstation 15 player创过了一台虚拟机并做了Hadoop的伪分布式安装，所以就不再从头演示，直接在这基础上接着讲了。

overfit同步小助手 2023-10-20 14:03:38 0 收藏

Hadoop 安装教程 (Mac m1/m2版)

中内容替换如下，路径需换成自己的路径。(4)打开core-site.sh文件【vim core-site.xml】，将标签

overfit同步小助手 2023-10-20 07:03:40 0 收藏

【Hadoop】大数据开发环境配置

注意：格式化操作只能执行一次，如果格式化的时候失败了，可以修改配置文件后再执行格式化，如果格式化成功了就不能再重复执行了，否则集群就会出现问题。hadoop集群就会使用到ssh，我们在启动集群的时候只需要在一台机器上启动就行，然后hadoop会通过ssh连到其它机器，把其它机器上面对应的程序也启动起

overfit同步小助手 2023-10-20 05:03:09 0 收藏

【项目实战】在win10上安装配置Hadoop的环境变量

在win10操作系统上，运行Hadoop以及其相关依赖包（比如Hbase依赖包）时，我遇到的情况是，我需要使用SpringBoot+Phoenix的组合去连接Hbase。这往往是需要在本机（Windows 10 ）上安装配置 Hadoop 环境变量才能够得到返回值的。以下是具体的安装配置 Hadoo

overfit同步小助手 2023-10-20 00:03:53 0 收藏

大数据学习(2)Hadoop-分布式资源计算hive(1)

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop课程中我们用MapRe

overfit同步小助手 2023-10-20 00:03:48 0 收藏

大数据课堂笔记 HDFS的shell操作

HDFS的shell操作

overfit同步小助手 2023-10-19 21:03:23 0 收藏

HDFS的文件写入和文件读取流程

Pipeline管道：Pipeline，即管道。这是 HDFS 在上传⽂件写数据过程时采⽤的⼀种数据传输⽅式。客户端将数据块写⼊第⼀个数据节点，第⼀个数据节点保存数据之后再将块复制到第⼆个数据节点，后者保存后将其复制到第三个数据节点。通俗描述 pipeline 的过程就是：Client——>DN1—

overfit同步小助手 2023-10-19 04:03:38 0 收藏

Hadoop HDFS 安装详细步骤

执行完后，在当前的目录下会出现一个名为 hadoop-2.7.5 的文件目录，这个目录就是 hadoop 的安装目录。1 无法http://meater/dfshealth.html 中显示其他datenode 节点。到目前为止，HDFS 的配置已经全部结束，接下来我们启动 HDFS 集群，并且验

overfit同步小助手 2023-10-19 00:03:08 0 收藏

头歌大数据作业二：搭建Hadoop环境及HDFS

HDFS的数据节点负责处理客户端的读写请求，并将客户端发来的文件分割成存储块，将每个存储块中的数据保存到本地，还会将这些存储块复制到名称节点指定的若干数据节点，以实现冗余存储。答：HDFS联邦中的“块池”，是指每个数据节点所能够存储的最大的数据块数量，它的功能是为了更好的管理数据块的存储空间，可以根

overfit同步小助手 2023-10-18 22:03:25 0 收藏

HadoopWEB页面上传文件报错Couldn‘t upload the file course_info.txt

解决方法：在WEB页面访问浏览器所在机器上面配置hosts映射地址(注意:配置的是浏览器访问的地址不是hadoop节点所在的映射地址，如果是云服务器就配置公网IP的映射地址)右键F2检查发现：文件上传PUT操作的IP地址是节点IP别名识别不到导致。

overfit同步小助手 2023-10-18 21:04:00 0 收藏

一篇文章教会你搭建Hive分布式集群

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。在大数据技术生态体系中扮演着重要的角色，今天我们就通过一篇文章来教会你如何搭建部署Hive分布式集群。

overfit同步小助手 2023-10-18 12:03:25 0 收藏

hive库操作示例

1、hive库基本操作；2、hive库分区表常见操作；3、关于删除及更新的描述；4、分区表数据插入、删除；5、分桶表数据插入、删除；6、java客户端采用jdbc操作hive库；

overfit同步小助手 2023-10-18 09:03:42 0 收藏