Hadoop - overfit.cn

HDFS的存储机制（读写流程）

HDFS存储机制，包括HDFS的写入过程和读取过程两个部分读取过程客户端向namenode请求上传文件，namenode检查目标文件是否已经存在，父目录是否存在。Namenode向客户端返回是否可以上传。客户端请求第一个block块上传到哪些datanode服务器上。Namenode返回三个data

overfit同步小助手 2023-05-20 17:03:57 0 收藏

Hudi-集成 Hive

一般来说 Hudi 表在用 Spark 或者 Flink 写入数据时会自动同步到 Hive 外部表（同6.2），此时可以直接通过 beeline 查询同步的外部表，若写入引擎没有开启自动同步，则需要手动利用 hudi 客户端工具 run_hive_sync_tool.sh 进行同步，具体后面介绍。

overfit同步小助手 2023-05-20 11:04:10 0 收藏

VMware首次安装Hadoop详细步骤：问题&解决方式

VMware第一次安装配置hadoop出现的问题及解决方法

overfit同步小助手 2023-05-20 11:04:02 0 收藏

hive 随机抽样 distribute by rand() sort by rand() limit n

hive表随机抽样 distribute by rand() sort by rand() 以及分层抽样

overfit同步小助手 2023-05-20 10:04:00 0 收藏

大数据框架-Hadoop

大数据通过分布式文件系统来存储大量数据，同时利用分布式计算来高效地处理数据，并提供数据采集、预处理、分析和可视化等服务，

overfit同步小助手 2023-05-20 05:03:55 0 收藏

实验四 HBase开发:使用java操作HBase

一、实验目的熟悉HBase数据库操作常用的Java API二、实验平台操作系统：CentOS 8Hadoop版本：3.2.3HBase版本：2.4.12jdk版本：1.8Java IDE：eclipse三、实验过程1. 创建表

overfit同步小助手 2023-05-19 21:04:14 0 收藏

联通数科一面+二面+面谈经验分享 base济南

overfit同步小助手 2023-05-19 21:03:44 0 收藏

spark和Mapreduce的对比

1.spark和Mapreduce的简单介绍MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分

overfit同步小助手 2023-05-19 19:04:10 0 收藏

虚拟机+Hadoop下MapReduce的Wordcount案例

抄作业记得改标题。

overfit同步小助手 2023-05-19 10:03:53 0 收藏

大数据开源框架之HBase编程实践

HBase的安装部署请看：(还没写完)任务1：用HBase提供的HBase Shell命令实现以下指定功能：1.列出HBase所有的表的相关信息初始状态：新建一个Person表，再查看：属性有性别sex，年龄age，姓名name2.在终端打印出指定的表的所有记录数据；Person表添加数据后再查看：

overfit同步小助手 2023-05-18 22:03:51 0 收藏

云计算与大数据期末考试题库

云计算模型中包括IaaS（基础架构即服务）、PaaS（平台即服务）和SaaS（软件即服务）。IaaS 提供最底层的IT 基础设施服务，包括处理能力、存储空间、网络资源等，用户可以从中获取硬件或虚拟硬件资源，可以给申请到的资源安装操作系统和其他应用程序。PaaS 是把已经安装好开发环境的系统平台作为一

overfit同步小助手 2023-05-18 20:03:59 0 收藏

hadoop3 使用sqoop 1.4.7 解决方案

解决sqoop停止更新hadoop3无法使用的问题，提供hadoop3 版本下的sqoop安装及配置参考方案

overfit同步小助手 2023-05-18 13:03:50 0 收藏

使用虚拟机完成Hadoop完全分布式的搭建

1、首先要下载好虚拟机VMware workstation，并进行安装。链接：https://pan.baidu.com/s/1EuNflW8so-xx46qrdCRbDg 提取码：hjl42、下载Linux的对应版本，可以通过官网下载。链接：https://pan.baidu.com/s/1DJ4

overfit同步小助手 2023-05-18 13:03:48 0 收藏

Hadoop基础命令的使用

搭建好Hadoop环境后，就可以使用Hadoop的一些命令来实现一些功能了。HDFS是Hadoop应用用到的一个最主要的分布式存储系统。本实验用一些常用的命令来熟悉Hadoop对文件的操作。熟练掌握hadoop基础命令的使用，理解HDFS和Hadoop的关系。本次环境是：Ubuntu16.04 +

overfit同步小助手 2023-05-18 10:03:48 0 收藏

解码Hadoop系列——NameNode启动流程

namenode的主要责任是文件元信息与数据块映射的管理。相应的，namenode的启动流程需要关注与客户端、datanode通信的工作线程，文件元信息的管理机制，数据块的管理机制等。其中，RpcServer主要负责与客户端、datanode通信，FSDirectory主要负责管理文件元信息。...

overfit同步小助手 2023-05-18 08:03:47 0 收藏

使用Hadoop 的 Java API 操纵 HDFS 文件系统

出现该报错时需要你引入 winutils 支持，winutil.exe 主要用于模拟linux下的目录环境，你可以在互联网上寻找该配置教程，如果你不想麻烦，也可以选择通过 API 读取文件内容然后在使用 Java 的文件相关API方法将文件流作为文件写入系统。引入依赖完成后如下图所示，但因为版本问题

overfit同步小助手 2023-05-18 06:04:00 0 收藏

Apache Kyuubi入门与使用

kyuubi入门使用教程

overfit同步小助手 2023-05-18 06:03:45 0 收藏

Hbase环境搭建

本文详细的写有：Hadoop伪分布式Hbase环境搭建、Hadoop完全分布式Hbase环境搭建的步骤。

overfit同步小助手 2023-05-18 00:03:46 0 收藏

【李老师云计算】实验三：在Docker中部署Hadoop集群

Docker部署Hadoop

overfit同步小助手 2023-05-17 21:06:35 0 收藏

Hive之grouping sets用法详解

比如(class, course), 二进制为 101，十进制则为5，则grouping__id为5，同理grouping__id为6，则组合为（sex,course），二进制为110；比如 group by class,sex,course,则二进制的顺序为：course sex cl

overfit同步小助手 2023-05-17 20:03:57 0 收藏