2023-DataWorks数仓开发手册收藏版
目前的数仓为离线数仓,因此DataWorks开发主要涉及到离线数据集成和数据模型开发,因此本节也是分两部分来描述。
数据仓库性能测试方法论与工具集
数据仓库是数据库的下一代产品形态 —— 如何对数字化转型过程中涌现的数据集合进行有效的存储、分析和利用,继而帮忙企业进行运营决策优化甚至创造出新的获客模式和商业模式形成竞争力,是企业主们亟需解决的问题。在数据价值爆发的时代背景中,数据仓库在千行百业中都有着相应的应用场景。
hive删除表数据方法
外部表insert overwrite table test_table select * fromtest_table where 1=0;insert overwrite table是覆盖数据,后面select是指使用哪里的数据进行覆盖,如果条件为空 where 1=0,那就代表清除数据。内部表
在Hive中判断字符串中是否包含指定子字符串
方法一用法:返回值函数名函数说明intlocate(string substr, string str[, int pos])Returns the position of the first occurrence of substr in str after position pos.使用案例:s
指标与标签的区别?
在公司数据建设过程中,经常会使用和提到指标和标签,但是很多小伙伴对于两者的区别确不能讲清楚。实际上标签与指标一样,是理解数据的两种方式,在赋能业务上,两者同样重要。接下来将结合自身的理解,从定义、应用场景、分类等多个方面进行总结。
前端使用node.js连接sql.server数据库教程
最近项目中要用到node写接口然后连接公司现有的sql.server数据库,再把执行结果返回给前端(还是我),因为之前一直做前端这块,后端这方面不是很懂,花了很长的时间终于研究出来了(还是太菜了,走了很多弯路),所以写个博客,一是复习巩固,二是给其他有需要的小伙伴一个参考,尽量少走弯路,废话不多说,
大数据技术原理与应用(第3版)期末复习
HDFS文件操作MapReduce程序HBase数据库命令操作。
hive删除分区部分数据
insert overwrite table t_finance_tax_bill partition (importdate='20220218')select bill_id , apply_emp_id , bill_type_name
关于hive3多表leftjoin导致数据丢失问题及解决方案
关于hive3多表leftjoin导致数据丢失问题及解决方案
Hive多行转多列,多列转多行
Hive多行转多列,多列转多行
使用navicat创建Oracle新用户
使用navicat创建Oracle新用户
大数据项目之电商数据仓库系统
大数据项目之电商数据仓库系统
ClickHouse 相关面试题
ClickHouse是一款用于大数据分析的 OLAP 列式存储数据库管理系统,最初由Yandex公司开发,后来成为了一个开源项目,可以在 GitHub 上进行访问和使用。ClickHouse特点如下:高性能分布式架构支持 SQL 查询语言,减少开发人员学习成本。支持多种数据类型,拥有灵活的数据模型。
数据库的星型模型与雪花模型
星型模式模型可以被描述为一个简单的星型结构:一个中心表包含事实数据,多个表从它向外辐射,由数据库的主键和外键连接。在星型模式实施中,数据库的构建者将所有维度级别的维度数据存储在单个表或视图中。例如,如果您使用星型模式实现Product维度,那么数据库构建者将使用单个表来实现维度中的所有级别,如屏幕截
数据仓库系列:StarRocks的简单试用及与clickhouse的对比
本文记录针对StarRocks的试用情况,并拿StarRocks与ClickHouse进行了对比。StarRocks 与 ClickHouse 是两款基于 MPP 架构的列式数据库管理系统,都可以提供高性能的 OLAP 分析能力。 但是它们在功能、性能和使用场景上也有一些区别想知道这些区别嘛,快来看
数据质量怎么监控
数据质量监控方法论
Superset的安装(亲测三遍,有效)
Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。在学习数仓项目的时候,按照教程安装Superset反复重复多次都没能成狗,最后稍微修改之后得以成功安装,现记录下安装过程。
数据库的基础学习1:select语句的查询
数据库的三个阶段:人工管理阶段、文件系统阶段、数据库系统阶段数据库管理系统:DBMS常见的关系型数据库:Oracle、DB2、mysql常见的非关系型数据库:MongoDB、rediessql的四部分:DQL(select查询语句)DCL(对数据进行变更)......
MPP数据库
组织通常使用分析型MPP数据库作为数据仓库或集中式存储库,其中包含组织内部生成的所有数据,例如交易销售数据,Web跟踪数据,营销数据,客户服务数据,库存/后勤数据,人力资源/招聘数据以及系统日志数据。在数据库集群中,首先每个节点都有独立的磁盘存储系统和内存系统,其次业务数据根据数据库模型和应用特点划