大数据 Hadoop - overfit.cn

Hive学习:Hive导入字段带逗号和换行符的CSV文件

比如上面这行数据,字段"600,000,000,00"带多个逗号,这个可以用hive中内置的语句来解决,使用OpenCSVSerde来解析CSV格式的数据，并指定了CSV文件中使用的分隔符、引号字符和转义字符。比如上面这段数据,本来是两条数据,但第一条数据第三个字段中间多了个换行符,在load da

overfit同步小助手 2023-11-08 05:03:41 0 收藏

【大数据】Hadoop

Hadoop 是一个开源的分布式计算和存储框架，由 Apache 基金会开发和维护。Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计算机之间进行扩展。Hadoop 使用 Java 开发，

overfit同步小助手 2023-11-08 02:03:23 0 收藏

初学者部署Ambari及通过Ambari安装hadoop相关组件

只有一台虚拟机所以全部采取单节点模式.

overfit同步小助手 2023-11-07 10:03:47 0 收藏

解决：ERROR: Cannot set priority of datanode process 10603

datanode 启动解决

overfit同步小助手 2023-11-07 08:03:40 0 收藏

Hadoop3教程（二十一）：MapReduce中的压缩

主要介绍了MR里压缩的定义、优缺点、常用压缩算法的对比，以及该在什么地方启用压缩，如何启用压缩等

overfit同步小助手 2023-11-07 02:03:48 0 收藏

Hadoop 分布式集群搭建教程（2023在校生踩坑版）

在Hadoop01节点上执行以下命令，启动HDFS和YARN：bug1：如果出现类似报错。

overfit同步小助手 2023-11-07 01:04:42 0 收藏

16.HiveAccessControlException Permission denied

ranger权限管控

overfit同步小助手 2023-11-06 23:03:33 0 收藏

一百零一、Kettle——Kettle8.2.0本地连接Hive3.1.2(踩坑，亲测有效)

Kettle8.2.0连接Hive3.1.2

overfit同步小助手 2023-11-06 22:03:41 0 收藏

07-HDFS入门及shell命令

Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。分布式文件系统解决大数据如何存储的问题。分布式意味着是横跨在多台计算机上的存储系统。HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错，适用于具有大数据集的应用程序，它非

overfit同步小助手 2023-11-06 18:03:41 0 收藏

大数据之hadoop启动失败问题集锦

启动时会提示形如 “DBLab-XMU: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-DBLab-XMU.out”，其中 DBLab-XMU 对应你的机器名，但其实启动日志信息是记录在 /us

overfit同步小助手 2023-11-06 13:03:40 0 收藏

Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件

spark-history（设置权限777），spark-jars文件夹。ln -s 源文件名新文件名。ln -s 源文件名新文件名。ln -s 源文件名新文件名。链接hadoop中的文件。链接hadoop中的文件。上传jar到hdfs。链接hive中的文件。

overfit同步小助手 2023-11-06 08:03:37 0 收藏

Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据，假设一个文件有100tb，我们就把文件划分为多个部分，放入到多个服务器，靠数量取胜，多台服务器组合，才能Hold住

overfit同步小助手 2023-11-05 13:03:26 0 收藏

【大数据】图解 Hadoop 生态系统及其组件

HDFS是 Hadoop 的分布式文件系统，旨在在廉价硬件上存储大型文件。它具有高度容错能力，并为应用程序提供高吞吐量。 HDFS 最适合那些拥有非常大数据集的应用程序。Hadoop HDFS 文件系统提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程，从节点运行 Da

overfit同步小助手 2023-11-05 11:03:31 0 收藏

API网关与社保模块

overfit同步小助手 2023-11-05 03:03:17 0 收藏

大数据开源框架环境搭建(四)——HDFS完全分布式集群的安装部署

普通用户下大部分命令需要加sudo，root模式下不用。如果怕麻烦，直接在root用户下操作。本框架的分布式集群如下图所示(IP地址不一定跟图中一样)

overfit同步小助手 2023-11-04 21:03:38 0 收藏

HDFS系统中Browse Directory目录显示WebHDFS已禁用

HDFS系统中Browse Directory目录显示Path does not exist on HDFS or WebHDFS is disabled. Please check your path or enable WebHDFS 问题原因:配置文件错误或目录路径错误这个目录路径不是指lin

overfit同步小助手 2023-11-04 13:03:52 0 收藏

【大数据Hadoop】HDFS-HA模式下ZKFC(DFSZKFailoverController)高可用主备切换机制

当一个NameNode被成功切换为Active状态时，它会在ZK内部创建一个临时的znode，在znode中将会保留当前Active NameNode的一些信息，比如主机名等等。当Active NameNode出现失败或连接超时的情况下，监控程序会将ZK上对应的临时znode进行删除，znode的删

overfit同步小助手 2023-11-03 07:03:13 0 收藏

HBase 开发：使用Java操作HBase 第3关：获取数据

HBase 开发：使用Java操作HBase第3关：获取数据

overfit同步小助手 2023-11-02 17:03:44 0 收藏

Hadoop中重新格式化NameNode的操作

有时候，我们需要重新格式化NameNode，这意味着清除现有的文件系统命名空间和元数据，并创建一个全新的NameNode实例。此外，重新格式化NameNode后，您可能还需要重新配置和恢复您的Hadoop集群的其他组件和作业。完成上述步骤后，您的Hadoop集群的NameNode将被重新格式化，并且

overfit同步小助手 2023-11-02 16:03:36 0 收藏

Linux安装Hadoop及其环境配置

使用的是Hadoop的伪分布式，因此需要配置的文件如下：hadoop-env.sh、core-site.xml、mapred-site.xml、hdfs-site.xml、yarn-site.xml。指定datanode从节点（根目录/etc/hadoop/slaves文件，每个节点配置信息占一行）

overfit同步小助手 2023-11-02 12:03:48 0 收藏