Hadoop - overfit.cn

hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区

百亿数据动态分区处理

overfit同步小助手 2023-11-15 05:03:10 0 收藏

Hive On Spark 概述、安装配置、计算引擎更换、应用、异常解决

overfit同步小助手 2023-11-14 23:03:48 0 收藏

Spark Scala大数据编程实例

初步介绍scala，下载安装配置spark和scala，运行spark scala版本实例

overfit同步小助手 2023-11-14 23:03:43 0 收藏

Hive 的权限管理

hive自身支持三种权限管理模型，默认情况下是不开启的，这样会导致所有的用户都具有相同的权限，且默认都是超级管理员，超管对hive中的所有表都有查看和改动的权利，这样是不符合一般数据仓库的安全原则的，今天我们就来探究下Hive的权限管理

overfit同步小助手 2023-11-14 18:03:23 0 收藏

Hive 常用DML操作

1.加载文件数据到表1.1 语法LOCAL 关键字代表从本地文件系统加载文件，省略则代表从 HDFS 上加载文件：从本地文件系统加载文件时， `filepath` 可以是绝对路径也可以是相对路径 (建议使用绝对路径)；从 HDFS 加载文件时候，`filepath` 为文件完整的 URL 地址：如

overfit同步小助手 2023-11-14 16:03:47 0 收藏

Hive 知识点八股文记录 ——（二）优化

1.count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1。2.如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union；where条件优化，join的过程中，对小表先进

overfit同步小助手 2023-11-14 12:06:56 0 收藏

2023.11.13 hive数据仓库之分区表与分桶表操作,与复杂类型的运用

创建分区表: create [external] table [if not exists] 表名(字段名字段类型 , 字段名字段类型 , ... )partitioned by (一级分区字段名分区字段类型, 二级分区字段名分区字段类型 , ...);-------------------

overfit同步小助手 2023-11-14 12:06:21 0 收藏

【Hadoop】MapReduce详解

MapReduce思想在生活中处处可见。MapReduce 的思想核心是“分而治之”，适用于大规模数据处理场景。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全

overfit同步小助手 2023-11-14 10:03:09 0 收藏

hive的工作机制

overfit同步小助手 2023-11-13 23:03:30 0 收藏

【头歌】Hive内置函数 - 详解

【主要内容】函数的查询、描述和调用；Hive标准函数；Hive聚合函数；Hive日期函数；表生成函数；分组排序取TopN。【实践内容】编程实现HQL查询。

overfit同步小助手 2023-11-13 18:03:47 0 收藏

Hive表DDL操作（二）第2关：Create/Drop/ALTER 索引

overfit同步小助手 2023-11-13 13:03:43 0 收藏

[Hadoop高可用集群]数仓工具之Hive的安装部署（超级详细，适用于初学者）

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下Apache Hive为一个开

overfit同步小助手 2023-11-13 13:03:27 0 收藏

Hadoop、Spark、Storm、Flink区别及选择

上述四个组件的实时性高低顺序如下：hadoop < spark < storm < flinkhdfs是hadoop的文件存储系统，存储csv/txt等各种格式的文件，但是对于hive和hbases就比较陌生，今天顺便一起看了一下这二者的区别和适用场景。1. 数据时效性不同：流式计算具有实时、低延迟

overfit同步小助手 2023-11-13 02:03:40 0 收藏

头歌大数据——MapReduce综合应用案例 — 电信数据清洗答案无解析

Tips：本关需要补充三个文件的代码～如下图所示，点击小三角切换文件～根据提示，在右侧编辑器补充代码，对数据按照一定规则进行清洗。记得启动HDFS～～

overfit同步小助手 2023-11-12 22:03:49 0 收藏

Hadoop集群！将HDFS副本数设置为3；可以正常提交MapReduce运行！

HDFS 数据副本概念：HDFS数据副本存放策略，副本的存放是HDFS可靠性和高性能的关键。优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。这种特性需要做大量的调优，并需要经验的积累。

overfit同步小助手 2023-11-12 19:03:51 0 收藏

深入理解Java GSS（含kerberos认证及在hadoop、flink案例场景举例）

深入理解Java GSS，实现kerberos认证的方式，以及在hadoop和flink场景的使用

overfit同步小助手 2023-11-11 18:03:49 0 收藏

Hive表DDL操作（一）

第1关：Create/Alter/Drop 数据库第2关：Create/Drop/Truncate 表第3关：Alter 表/列第4关：表分区

overfit同步小助手 2023-11-11 10:03:43 0 收藏

hadoop之MapReduce简介

hadoop之MapReduce的一些简介，架构和分析

overfit同步小助手 2023-11-11 06:03:43 0 收藏

头歌大数据MapReduce基础编程

头歌测试题目MapReduce基础编程

overfit同步小助手 2023-11-11 03:03:37 0 收藏

hadoop配置

在各种配置文件中，我们都是以root用户进行操作的，普通用户hadoop并没有操作权限，现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh，这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后，格式化整个文件系统。在node2、no

overfit同步小助手 2023-11-11 01:02:59 0 收藏