Hadoop - overfit.cn

【Ambari】Docker 安装Ambari 大数据单机版本

1.1 部署 docker1.2 部署 docker-compose创建网络1.3 版本说明组件版本操作系统ambari2.7.4HDP3.1.4HDP-GPL3.1.4HDP-UTILS1.1.0.22JDK如下安装只做测试。二、镜像构建启动2.1 系统镜像构建系统镜像构建2.2 安装包源镜像构

overfit同步小助手 2024-05-29 08:03:33 0 收藏

hive中如何取交集并集和差集

也可以使用 INTERSECT 关键字。也可以使用 except关键字。

overfit同步小助手 2024-05-29 04:03:38 0 收藏

(续)Hadoop相应组件的搭建

ZooKeeper 的安装包 zookeeper-3.4.8.tar.gz 已放置在 Linux 系统 /opt/software目录下。解压安装包到指定目标，在 Master 节点执行如下命令。

overfit同步小助手 2024-05-29 04:03:35 0 收藏

一、初识hadoop

开发人员为Hadoop编写MapReduce作业，并使用HDFS中存储的数据，而HDFS可以保证快速的数据访问。类似于SQL的高级语言，用于执行对存储在Hadoop中数据的查询，Hive允许不熟悉MapReduce的开发人员编写数据查询语句，它会将其翻译为Hadoop中的MapReduce作业。

overfit同步小助手 2024-05-29 01:03:58 0 收藏

hive窗口分析函数使用详解系列一

Hive提供的窗口和分析函数可以分为聚合函数类窗口函数，分组排序类窗口函数，偏移量计算类窗口函数

overfit同步小助手 2024-05-29 01:03:52 0 收藏

大数据技术原理（一）：还记得你大数据入门的第一份测试题吗

大数据技术原理（一）：还记得你大数据入门的第一份测试题吗大数据技术原理作业一、完成慕课第一讲单元测验二、完成教材第一章课后习题9，121.举例说明大数据关键技术。2、详细阐述大数据，云计算，物联网三者之间的区别与联系。

overfit同步小助手 2024-05-28 22:03:36 0 收藏

Hadoop基本配置和运用

Hadoop基础

overfit同步小助手 2024-05-28 16:03:58 0 收藏

hadoop- yarn启动后用jps查看没有resourcemanager

overfit同步小助手 2024-05-28 16:03:54 0 收藏

任务：将数据传输在Hive（基于hadoop的数据库管理工具）,设置定时任务的各个步骤

平台已经做好基于模板对应的sheet的存储：其中在做好对应关系和字段之后在数据库表也实现了对应表的创建。tip：一般在ods存储实时表，然后在dwd里面存储对应的处理过的宽表（组合起来可能包括很多字段）表有多个字段，每个字段的名称和类型都被列出。... ：定义表的存储格式和I/O格式。：定义表在HD

overfit同步小助手 2024-05-28 14:03:32 0 收藏

Hadoop、HDFS、Hive、Hbase区别及联系

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。

overfit同步小助手 2024-05-28 09:03:49 0 收藏

手把手教你mapreduce在hadoop上实现统计英语文章单词个数（新手教程，如果那里有问题请私信我，好及时改正）

因为待会你要将这个架包名称写在虚拟机上，为方便将名字改一下，这里我改成jar.jar。

overfit同步小助手 2024-05-28 00:03:48 0 收藏

Hive（15）中使用sum() over()实现累积求和和滑动求和

三列数据，分别是员工的姓名、月份和销售额功能：对每个员工的销售业绩的累积求和以及滑动求和（每个月计算其最近三个月的总销售业绩）

overfit同步小助手 2024-05-28 00:03:32 0 收藏

Hive 表添加列（新增字段）

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型，如ORC不存在该问题，而对于 Parquet、Text ，只有在已有分区下插入数据是，新增字段查询才为 NULL, 新增的分区正常。

overfit同步小助手 2024-05-27 23:04:02 0 收藏

csv数据导入hive表

overfit同步小助手 2024-05-27 21:03:42 0 收藏

冗余磁盘阵列（RAID）与Hadoop分布式文件系统（HDFS）

介绍数据存储对于现代计算的重要性，并指出在不同的需求下，冗余磁盘阵列（RAID）和Hadoop分布式文件系统（HDFS）作为两种不同的数据存储技术各自的优势。

overfit同步小助手 2024-05-27 19:03:45 0 收藏

Hive-源码分析一条hql的执行过程

1、用户在hive客户端输入hql2、进行中断操作，终止正在运行的mr作业3、解析用户在hive客户端输入的hql（将hql按照字符一个一个处理，遇到 ";" 就会将前面的处理成一个hql 放入列表中）4、循环执行hql列表中的每一条hql5、从sql语句中剥离注释，并去掉头尾空白符并按照 '\\

overfit同步小助手 2024-05-27 19:03:22 0 收藏

HDFS 跨集群数据同步（hive,hadoop）

echo "${db_name}.${table_name} ${part_date} 迁移开始"echo "${db_name}.${table_name} ${part_date} 迁移完成"两个不同的HDFS 集群数据迁移( A集群的数据 -> B 集群) 采用的是 SHELL 脚本。#计算两

overfit同步小助手 2024-05-27 18:03:42 0 收藏

Hadoop完全分布式搭建（超详细，傻瓜式安装）

Hadoop完全分布式安装配置。

overfit同步小助手 2024-05-27 13:03:25 0 收藏

Hadoop 之 HDFS命令

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一个核心组件，它是一个高度容错性的分布式文件系统，设计用于在廉价硬件上存储大规模数据集。HDFS的架构采用主从（Master/Slave）结构模型，包含一个。

overfit同步小助手 2024-05-27 10:03:51 0 收藏

基于Hadoop的港口物流大数据应用研究

本篇摘要旨在探讨基于Hadoop的港口物流大数据应用研究。随着全球贸易的不断发展和港口物流的复杂化，港口物流大数据处理和分析面临着巨大挑战。如何有效地处理海量的港口物流数据、挖掘其中的潜在价值成为一个关键问题。本研究基于Hadoop大数据处理框架，旨在应用其强大的分布式计算能力和存储优势，解决港口物

overfit同步小助手 2024-05-27 10:03:36 0 收藏