大数据数据仓库

Hive内部表（管理表）和外部表的区别【重点】

一、内部表和外部表的区别：内部表和外部表的区别可以从三方面讨论，创建表时、删除表时、选择表时： ...

overfit同步小助手 2023-11-24 05:03:49 0 收藏

第1关：Hive 的 Alter Table 操作

Alter 表/列第1关：Hive 的 Alter Table 操作

overfit同步小助手 2023-11-23 23:03:21 0 收藏

数据仓库-日期维度表的设计与实现

本文基于python的chinese_calendar和pymysql库编写了一个生成日期维表（日期-工作日-节假日维度表），用于对业务主题表进行维度建模，实现方式简单，一键生成，数据可靠。

overfit同步小助手 2023-11-22 05:03:10 0 收藏

2023.11-9 hive数据仓库,概念,架构,元数据管理模式

当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。数据库可以用在 Online 的应用中，但是 Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。由于 Hive 是针对数据仓库应用设计的，而数据仓

overfit同步小助手 2023-11-21 09:03:45 0 收藏

【hive】列转行—collect_set()/collect_list()/concat_ws()函数的使用场景

overfit同步小助手 2023-11-19 05:03:30 0 收藏

Airflow环境搭建

overfit同步小助手 2023-11-17 10:03:46 0 收藏

【数据库技术】金管局计算机岗位——数据仓库（⭐⭐⭐⭐）

数据仓库（Data Warehouse）,是为了企业所有级别的决策制定计划过程，提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业,指导业务流程改进，时间、成本、质量的控制等。（1）数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库；（

overfit同步小助手 2023-11-17 07:03:43 0 收藏

SQL时间函数

SQL语句时间函数

overfit同步小助手 2023-11-17 00:03:47 0 收藏

hive 动态分区-动态分区数量太多也会导致效率下降&只设置非严格模式也能执行动态分区

百亿数据动态分区处理

overfit同步小助手 2023-11-15 05:03:10 0 收藏

Hive 的权限管理

hive自身支持三种权限管理模型，默认情况下是不开启的，这样会导致所有的用户都具有相同的权限，且默认都是超级管理员，超管对hive中的所有表都有查看和改动的权利，这样是不符合一般数据仓库的安全原则的，今天我们就来探究下Hive的权限管理

overfit同步小助手 2023-11-14 18:03:23 0 收藏

Hive 常用DML操作

1.加载文件数据到表1.1 语法LOCAL 关键字代表从本地文件系统加载文件，省略则代表从 HDFS 上加载文件：从本地文件系统加载文件时， `filepath` 可以是绝对路径也可以是相对路径 (建议使用绝对路径)；从 HDFS 加载文件时候，`filepath` 为文件完整的 URL 地址：如

overfit同步小助手 2023-11-14 16:03:47 0 收藏

hive的工作机制

overfit同步小助手 2023-11-13 23:03:30 0 收藏

SAP ABAP中的数据类型 Data Types

ABAP数据类型

overfit同步小助手 2023-11-12 01:03:13 0 收藏

HIVE建表详细教程

hadoop.hive.serde2.lazy.LazySimpleSerDe，这其实就是^A分隔符，hive中默认使用^A(ctrl+A)作为列分割符，如果用户需要指定的话，等同于row format delimited fields terminated by '\001'，因为^A八进制编码体

overfit同步小助手 2023-11-10 19:03:30 0 收藏

hive字段关键字问题处理

最近在xxl_job部署shell调度任务时,发现在编写Hql时，对一些使用关键字命名的字段无法解析，按开发规范，字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs上，数据是json格式,所以需要对关键字字段进行处理,最初是通过 `,',",‘

overfit同步小助手 2023-11-10 11:03:45 0 收藏

Hive中生成自增序列的常用方法

在日常业务开发过程中，通常遇到需要hive数据表中生成一列唯一ID，当然连续递增的更好。最近在结算业务中，需要在hive表中生成一列连续且唯一的账单ID，于是就了解生成唯一ID的方法

overfit同步小助手 2023-11-08 23:03:30 0 收藏

kettle开发篇-更新-Day38

超详细跨库多表数据更新教程。

overfit同步小助手 2023-11-08 01:03:46 0 收藏

16.HiveAccessControlException Permission denied

ranger权限管控

overfit同步小助手 2023-11-06 23:03:33 0 收藏

数据挖掘实验一、数据预处理

初始数据往往存在缺失值、重复值、异常值或者错误值，通常这类数据被称为“脏数据”，需要对其进行清洗。有时数据的原始变量不满足分析的要求，我们需要先对数据进行一定的处理，也就是数据的预处理。数据清洗和预处理的主要目的是提高数据质量，从而提高挖掘结果的可靠度，这是数据挖掘过程中非常必要的一个步骤。（2）

overfit同步小助手 2023-11-06 05:03:46 0 收藏

API网关与社保模块

overfit同步小助手 2023-11-05 03:03:17 0 收藏