大数据数据仓库

hive中如何取交集并集和差集

也可以使用 INTERSECT 关键字。也可以使用 except关键字。

overfit同步小助手 2024-05-29 04:03:38 0 收藏

数据库与数据仓库的区别及关系

数据库是为捕获数据而设计，数据仓库是为分析数据而设计**。数据库和数据仓库都有各自的优势和局限性，它们各自适用于不同的场景。数据库更适合用于快速处理事务性操作，而数据仓库则更适合用于进行复杂的数据分析和查询。它们各自有不同的用途和优化方式，可以根据实际需求选择使用。

overfit同步小助手 2024-05-29 02:03:54 0 收藏

hive窗口分析函数使用详解系列一

Hive提供的窗口和分析函数可以分为聚合函数类窗口函数，分组排序类窗口函数，偏移量计算类窗口函数

overfit同步小助手 2024-05-29 01:03:52 0 收藏

数据仓库作业六：第9章分类规则挖掘

数据仓库与数据挖掘第九章作业。

overfit同步小助手 2024-05-29 00:03:30 0 收藏

任务：将数据传输在Hive（基于hadoop的数据库管理工具）,设置定时任务的各个步骤

平台已经做好基于模板对应的sheet的存储：其中在做好对应关系和字段之后在数据库表也实现了对应表的创建。tip：一般在ods存储实时表，然后在dwd里面存储对应的处理过的宽表（组合起来可能包括很多字段）表有多个字段，每个字段的名称和类型都被列出。... ：定义表的存储格式和I/O格式。：定义表在HD

overfit同步小助手 2024-05-28 14:03:32 0 收藏

数据仓库实验三：分类规则挖掘实验

数据仓库与数据挖掘实验三：分类规则挖掘实验。

overfit同步小助手 2024-05-28 05:03:43 0 收藏

数据仓库实验四：聚类分析实验

数据仓库与数据挖掘实验四：聚类分析实验。

overfit同步小助手 2024-05-28 03:03:57 0 收藏

Hive（15）中使用sum() over()实现累积求和和滑动求和

三列数据，分别是员工的姓名、月份和销售额功能：对每个员工的销售业绩的累积求和以及滑动求和（每个月计算其最近三个月的总销售业绩）

overfit同步小助手 2024-05-28 00:03:32 0 收藏

Hive 表添加列（新增字段）

记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型，如ORC不存在该问题，而对于 Parquet、Text ，只有在已有分区下插入数据是，新增字段查询才为 NULL, 新增的分区正常。

overfit同步小助手 2024-05-27 23:04:02 0 收藏

数据仓库内容分享(七)：Flink CDC 实现海量数据实时同步转换

在 Flink CDC 1.x 版本中，如果想实现 exactly-once 同步，需要配合 Flink 提供的 checkpoint 机制,全量阶段没有做切片，则只能在一个 checkpoint 里完成，这会导致一个问题：每个 checkpoint 中间要将这张表的全量数据吐给下游的 writer

overfit同步小助手 2024-05-27 23:03:56 0 收藏

csv数据导入hive表

overfit同步小助手 2024-05-27 21:03:42 0 收藏

Hive中UNION ALL和UNION的区别

Hive官方提供了一种联合查询的语法，原名为Union Syntax，用于联合两个表的记录进行查询，此处的联合和join是不同的，join是将两个表的字段拼接到一起，而union是将两个表的记录拼接在一起。换言之， join是用于左右拼接，而union是用于上下拼接。联合查询方式UNIONUNION

overfit同步小助手 2024-05-27 00:03:56 0 收藏

Hive的索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

overfit同步小助手 2024-05-26 20:03:53 0 收藏

hive中split函数相关总结

split 函数一直再用，居然发现没有总结，遂补充一下；

overfit同步小助手 2024-05-26 09:03:44 0 收藏

Hive基础知识（十）：Hive导入数据的五种方式

1）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）stude

overfit同步小助手 2024-05-26 06:04:09 0 收藏

头歌—Hive的安装与配置

头歌—hive的安装与配置

overfit同步小助手 2024-05-26 03:03:38 0 收藏

Hive 特殊的数据类型 Array、Map、Struct

获取数组值的方式和我们在 Java 中一样，采用下标的方式访问，当访问的下标超过数组的长度时，并不会报错，它会返回。这里值 Value 中存在整型和字符型数据类型不统一的情况，它会统一将值 Value 都转换成字符型。Map 是 KV 键值对类型，其中存储的字段数量可多可少，但是 KV 键值对的数据

overfit同步小助手 2024-05-26 01:03:23 0 收藏

Hive中的NVL函数与COALESCE函数

说明： COALESCE是一个函数， (v1, v2, …,vn)依次参考各参数表达式，遇到非null值即停止并返回该值。如果所有的表达式都是空值，最终将返回一个空值。Hive SQL 中的一种聚合函数，它可以返回第一个非空值。功能：如果value为NULL，则NVL函数返回。如果两个参数都为NUL

overfit同步小助手 2024-05-26 00:03:31 0 收藏

Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。

overfit同步小助手 2024-05-25 21:04:01 0 收藏

FlinkSQL优化器查询重写技术引发UDF翻倍调用问题分析及解决方案

Flink SQL无疑是实时数仓领域一个最耀眼的明星，他对于统一流批一体的设计可谓是居功至伟。鉴于Flink SQL在实时数仓领域的卓越表现，我们很有必要对Flink SQL在ETL场景下的表现要有深刻的理解。本文聚焦于Flink SQL UDF使用场景下由于SQL重写导致UDF翻倍调用的原理分

overfit同步小助手 2024-05-25 16:04:08 0 收藏