数据仓库 - overfit.cn

数据清洗是清洗什么？

在搭建数据中台、数据仓库或者做数据分析之前，首要的工作重点就是做数据清洗，否则会影响到后续对数据的分析利用。那么数据清洗到底是做什么事情呢？今天我就来跟大家分享一下。

overfit同步小助手 2023-04-08 13:04:15 0 收藏

hive 增加字段修改注释

overfit同步小助手 2023-04-08 10:03:45 0 收藏

2000-2021年各省GDP包括名义GDP、实际GDP、GDP平减指数（以2000年为基期）

overfit同步小助手 2023-04-07 19:04:08 0 收藏

【SQL开发实战技巧】系列（二十一）：数据仓库中时间类型操作（进阶）识别重叠的日期范围，按指定10分钟时间间隔汇总数据

如何识别重叠的日期范围、日期出现次数、确定当前记录和下一条记录之间相差的天数【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作，毕竟SQL开发在数据分析场景非常重要且基础，面试也会经常问SQL开发和调优经验，相信当我写完这一系列文章，也能再有所收获，未来面对SQL面试也能游刃有余~。例如：以

overfit同步小助手 2023-04-07 09:04:06 0 收藏

Hive增加列，调整列顺序，属性名等操作

hive添加字段到指定位置先添加字段到最后位置再移动到指定位置

overfit同步小助手 2023-04-07 04:03:36 0 收藏

超详细【入门精讲】数据仓库原理&实战一步一步搭建数据仓库内附相应实验代码和镜像数据和脚本

超详细【入门精讲】数据仓库原理&实战一步一步搭建数据仓库内附相应实验代码和镜像数据和脚本，参考B站up主哈喽鹏程视频撰写而成，感谢！！！

overfit同步小助手 2023-04-06 21:04:01 0 收藏

Hive之Map常用方法

实际工作中，有时会出现map复杂数据类型，字段field1形式如：{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’}，如果是string形式，我们可以适用get_json_object 函数，取出对应的value值，具体如：get_json_object（field,‘$

overfit同步小助手 2023-04-06 16:04:52 0 收藏

今天又get到一个小技能，collect_set函数

collect_set函数今天又get到一个小技能，掌握了hive一个关于列转行专用函数 collect_set函数。在这里做个学习笔记。collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。和collect_set相似的还有另一

overfit同步小助手 2023-04-06 15:03:57 0 收藏

hive 日期和时间戳互相转化

一 . 日期转时间戳1 unix_timestamp()获取当前时间戳select unix_timestamp(); --16364622392 unix_timestamp() 输入日期参数输入的时间格式必须符合 yyyy-MM-dd HH:mm:ssselect unix_timestamp

overfit同步小助手 2023-04-06 09:04:25 0 收藏

Kettle(二)数据同步、迁移（基础版）

Kettle数据同步、迁移基础版本

overfit同步小助手 2023-04-06 07:04:21 0 收藏

Hbase常用命令

overfit同步小助手 2023-04-05 21:04:23 0 收藏

1——Hive数仓项目完整流程（在线教育）

在线教育数仓实战

overfit同步小助手 2023-04-05 20:04:17 0 收藏

【实战-01】flink cdc 实时数据同步利器

对很多初入门的人来说是无法理解cdc到底是什么个东西。有这样一个需求，比如在mysql数据库中存在很多数据，但是公司要把mysql中的数据同步到数据仓库(starrocks), 数据仓库你可以理解为存储了各种各样来自不同数据库中表。数据的同步目前对mysql来说比较常见是方式是使用：datax

overfit同步小助手 2023-04-05 18:04:22 0 收藏

数仓之全量表、增量表、快照表、切片表、拉链表

overfit同步小助手 2023-04-05 16:04:06 0 收藏

hive中字符串查找函数 instr 和 locate

可用于优化join or关联匹配情况

overfit同步小助手 2023-04-05 15:03:59 0 收藏

数仓模型之维度建模

理解Kimball 最先提出的维度建模

overfit同步小助手 2023-04-05 14:04:34 0 收藏

大数据技术系列：图解【大数据平台开发】

数据治理的最终目标是提升数据利用率和数据价值，通过有效的数据资源管控手段，实现数据的看得见、找得到、管得住、用得好，提升数据质量和数据价值。企业数据治理非常必要，它是企业实现数字化转型的基础，是企业的一个顶层策略，一个管理体系，也是一个技术体系，涵盖战略、组织、文化、方法、制度、流程、技术和工具等多

overfit同步小助手 2023-04-05 06:04:32 0 收藏

数据建模：维度建模

数据建模：维度建模一、数据建模概述二、维度建模1、维度建模过程2、维度建模的基本要素3、维度建模过程举例一、数据建模概述1、数据模型级别概念数据模型：是用一系列相关主题域的集合来描述概要数据需求。概念模型仅仅包括给定的领域和职能中基础和关键的业务实体，同时也给出实体与实体之间关系的描述。逻辑数据模型

overfit同步小助手 2023-04-05 05:03:51 0 收藏

达梦VS金仓：选哪个国产数据库？比一比，看看哪个更优！

本文介绍了武汉达梦、人大金仓两家国产数据库的优劣，同时对两款数据库做出对比，从不同维度出发，助力各位找到适合自己的数据库

overfit同步小助手 2023-04-05 01:04:39 0 收藏

关于ETL的两种架构（ETL架构和ELT架构）

在ELT架构中，ELT只负责提供图形化的界面来设计业务规则，数据的整个加工过程都在目标和源的数据库之间流动，ELT协调相关的数据库系统来执行相关的应用，数据加工过程既可以在源数据库端执行，也可以在目标数据仓库端执行（主要取决于系统的架构设计和数据属性）。当ETL过程需要提高效率，则可以通过对相关数据

overfit同步小助手 2023-04-05 01:04:25 0 收藏