数据清洗是清洗什么?
在搭建数据中台、数据仓库或者做数据分析之前,首要的工作重点就是做数据清洗,否则会影响到后续对数据的分析利用。那么数据清洗到底是做什么事情呢?今天我就来跟大家分享一下。
hive 增加字段 修改注释
hive 增加字段 修改注释
2000-2021年各省GDP包括名义GDP、实际GDP、GDP平减指数(以2000年为基期)
2000-2021年各省GDP包括名义GDP、实际GDP、GDP平减指数(以2000年为基期)
【SQL开发实战技巧】系列(二十一):数据仓库中时间类型操作(进阶)识别重叠的日期范围,按指定10分钟时间间隔汇总数据
如何识别重叠的日期范围、日期出现次数、确定当前记录和下一条记录之间相差的天数【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。例如:以
Hive增加列,调整列顺序,属性名等操作
hive添加字段到指定位置先添加字段到最后位置再移动到指定位置
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本
超详细【入门精讲】数据仓库原理&实战 一步一步搭建数据仓库 内附相应实验代码和镜像数据和脚本,参考B站up主哈喽鹏程视频撰写而成,感谢!!!
Hive之Map常用方法
实际工作中,有时会出现map复杂数据类型,字段field1形式如:{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’},如果是string形式,我们可以适用get_json_object 函数,取出对应的value值,具体如:get_json_object(field,‘$
今天又get到一个小技能,collect_set函数
collect_set函数今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。在这里做个学习笔记。collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。和collect_set相似的还有另一
hive 日期和时间戳互相转化
一 . 日期转时间戳1 unix_timestamp()获取当前时间戳select unix_timestamp(); --16364622392 unix_timestamp() 输入日期参数 输入的时间格式必须符合 yyyy-MM-dd HH:mm:ssselect unix_timestamp
Kettle(二)数据同步、迁移(基础版)
Kettle数据同步、迁移基础版本
Hbase常用命令
Hbase常用命令
1——Hive数仓项目完整流程(在线教育)
在线教育数仓实战
【实战-01】flink cdc 实时数据同步利器
对很多初入门的人来说是无法理解cdc到底是什么个东西。有这样一个需求,比如在mysql数据库中存在很多数据,但是公司要把mysql中的数据同步到数据仓库(starrocks), 数据仓库你可以理解为存储了各种各样来自不同数据库中表。数据的同步目前对mysql来说比较常见是方式是使用:datax
数仓之全量表、增量表、快照表、切片表、拉链表
数仓之全量表、增量表、快照表、切片表、拉链表
hive中字符串查找函数 instr 和 locate
可用于优化join or关联匹配情况
数仓模型之维度建模
理解Kimball 最先提出的维度建模
大数据技术系列:图解【大数据平台开发】
数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多
数据建模:维度建模
数据建模:维度建模一、数据建模概述二、维度建模1、维度建模过程2、维度建模的基本要素3、维度建模过程举例一、数据建模概述1、数据模型级别概念数据模型:是用一系列相关主题域的集合来描述概要数据需求。概念模型仅仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体与实体之间关系的描述。逻辑数据模型
达梦VS金仓:选哪个国产数据库?比一比,看看哪个更优!
本文介绍了武汉达梦、人大金仓两家国产数据库的优劣,同时对两款数据库做出对比,从不同维度出发,助力各位找到适合自己的数据库
关于ETL的两种架构(ETL架构和ELT架构)
在ELT架构中,ELT只负责提供图形化的界面来设计业务规则,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。当ETL过程需要提高效率,则可以通过对相关数据