大数据 Hadoop - overfit.cn

Hadoop集群的部署，安装和管理（头歌）

我们已经掌握了 Hadoop 单节点的安装与部署，那么分布式集群怎么搭建呢？接下来我们学习 Hadoop 分布式集群搭建。

overfit同步小助手 2023-04-03 04:04:27 0 收藏

大数据｜Hadoop系统

📚Hadoop介绍

overfit同步小助手 2023-04-03 02:04:22 0 收藏

Hive 导出数据到 CSV 文件

spark 导出的是一个目录，我们需要拿到目录下的 csv 文件。最后，按题目要求改成指定路径与名称就可以啦，这里就不操作了。在 spark-shell 中导出。直接在 Hive 界面中进行操作。：以带表头的方式查询。的就是我们的结果文件。

overfit同步小助手 2023-04-03 01:04:41 0 收藏

hive中常用的日期处理函数

常用的日期函数

overfit同步小助手 2023-04-03 01:04:16 0 收藏

ZooKeeper的安装

zookeeper安装

overfit同步小助手 2023-04-03 01:04:04 0 收藏

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口

问题：在虚拟机启动hadoop集群后，在window浏览器无法访问http://master:50070、http://master:8088等集群监控界面。问题排查：首先在windows里ping一下是否能通：若不能ping通，试一下ping IP地址，这里master的IP地址为192.168.

overfit同步小助手 2023-04-03 00:04:42 0 收藏

Centos7搭建hadoop3.3.4分布式集群

最近在学习`hadoop`，本文记录一下，怎样在Centos7系统上搭建一个`3`个节点的`hadoop`集群。

overfit同步小助手 2023-04-03 00:04:39 0 收藏

数据开发总结

涵盖较多面经

overfit同步小助手 2023-04-03 00:04:34 0 收藏

查看HDFS集群状态

通过UI界面查看hadoop运行状态

overfit同步小助手 2023-04-03 00:04:22 0 收藏

HDFS Java API 操作

java API 操作hdfs

overfit同步小助手 2023-04-03 00:04:19 0 收藏

hadoop的官网下载和各版本下载方法

不想看具体分析可以直接点击链接下载。1、官网：官网下载2、旧版本下载(官方的archive地址)：旧版本下载3、清华大学开源软件镜像站下载(速度较快，只有新版本)：清华大学开源软件镜像站具体流程：先贴出hadoop官方地址~hadoophttps://hadoop.apache.org/一般来说，A

overfit同步小助手 2023-04-03 00:04:15 0 收藏

Hive拉链表

使用HQL写一个Hive On Tez任务，以便跑出拉链表数据

overfit同步小助手 2023-04-03 00:04:01 0 收藏

林子雨大数据技术原理与运用期末复习

大数据预处理方法包括___数据清洗___、___数据集成_____、___数据变换___和___数据规约_____。

overfit同步小助手 2023-04-02 23:04:01 0 收藏

大数据系列——什么是hdfs？hdfs用来干什么的？

overfit同步小助手 2023-04-02 22:04:28 0 收藏

使用IDEA工具，通过Java API 操作 HDFS （文件/目录的操作，含源码，详细操作步骤）

Hadoop文件系统API文档：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/filesystem/index.htmlHadoop整合了众多文件系统，HDFS只是这个文件系统的一个实例，下表整合了一些

overfit同步小助手 2023-04-02 21:05:01 0 收藏

linux安装Hadoop、hbase

首先按打开终端窗口，输入如下命令创建新用户接着使用如下命令设置密码，可简单设置为hadoop可为hadoop。

overfit同步小助手 2023-04-02 21:04:53 0 收藏

四十九、Hadoop HA部署（MINI版）

环境准备：编号主机名类型用户密码 1 master1-1 主节点 root passwd 2 slave1-1 从节点 root passwd 3 slave1-2 从节点 root passwd CentOS 7.4

overfit同步小助手 2023-04-02 21:04:37 0 收藏

大数据技术之SparkCore

Spark Core是spark的核心与基础，实现了Spark的基本功能，包含任务调度，内存管理，错误恢复与存储系统交互等模块Spark Core中包含了对Spark核心API——RDD API(弹性分布式数据集)的定义：RDD表示分布在多个计算节点上可以并行操作的元素集合，是spark的核心抽象。

overfit同步小助手 2023-04-02 21:04:30 0 收藏

强制退出hdfs安全模式

强制退出安全模式

overfit同步小助手 2023-04-02 20:05:01 0 收藏

CDH/CDP 是什么？

CDH （ Cloudera Distribution Hadoop ）是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。CDP（Cloudera Data Platform）是 CDH 的继任者。CDP 是面向企业的云计算平台。

overfit同步小助手 2023-04-02 20:04:58 0 收藏