数据仓库系列:StarRocks的简单试用及与clickhouse的对比
本文记录针对StarRocks的试用情况,并拿StarRocks与ClickHouse进行了对比。StarRocks 与 ClickHouse 是两款基于 MPP 架构的列式数据库管理系统,都可以提供高性能的 OLAP 分析能力。 但是它们在功能、性能和使用场景上也有一些区别想知道这些区别嘛,快来看
数据质量怎么监控
数据质量监控方法论
Superset的安装(亲测三遍,有效)
Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。在学习数仓项目的时候,按照教程安装Superset反复重复多次都没能成狗,最后稍微修改之后得以成功安装,现记录下安装过程。
数据库的基础学习1:select语句的查询
数据库的三个阶段:人工管理阶段、文件系统阶段、数据库系统阶段数据库管理系统:DBMS常见的关系型数据库:Oracle、DB2、mysql常见的非关系型数据库:MongoDB、rediessql的四部分:DQL(select查询语句)DCL(对数据进行变更)......
MPP数据库
组织通常使用分析型MPP数据库作为数据仓库或集中式存储库,其中包含组织内部生成的所有数据,例如交易销售数据,Web跟踪数据,营销数据,客户服务数据,库存/后勤数据,人力资源/招聘数据以及系统日志数据。在数据库集群中,首先每个节点都有独立的磁盘存储系统和内存系统,其次业务数据根据数据库模型和应用特点划
Quick Bi经验总结
Quick Bi可视化大屏数据分析大屏及各种可视化图表制作技巧
Dataphin数据中台使用
目录一、产品功能介绍二、dataphin使用介绍1)dataphin注意事项2)准备工作3)规划数仓4)数据处理以及配置调度5)任务发布6)数据抽取以及配置调度一、产品功能介绍二、dataphin使用介绍1)dataphin注意事项1).dataphin拥有开发/测试环境(XX_XX_XX_DEV)
【Hive】各种join连接用法
hive join连接的各种用法
什么是数据仓库?
数据仓库的基本功能与概念的介绍;数据库与数据仓库的对比介绍
Kettle(三)数据写入错误如何处理?
Kettle作为数据治理工具,总是会涉及到数据的搬迁,在原始数据过大、种类过多时写入肯定会出现一些错误(缺少必填项、数据格式错误、主键冲突等等),那么Kettle如何解决?其实Kettle与我们自己写程序的思维不会有本质性的差别,因此我们常见的处理方式基本上都可以得到解决。基本上我们常规的解决办法:
【ETL】常见的ETL工具(含开源及付费)一览和优劣势分析?
支持的数据输入输出的类型:Mysql、Oracle、MSSQL Server、PostgreSQL、DB2、Kafka、Greenplum、Redis、TiDB、SequeoiaDB、Amazon Redshift、HashData、HDFS、FTP、Hive、Inceptor等。(6)Amazon
数仓知识07:数据增量更新的几种方式
1、增量更新的几种方式增量更新的本质,其实是获取源表中数据变化的情况(增、删、改),然后将源表中发生的变化同步至目标表中。不同的方式,获取源表中数据变化的情况不一样,受技术的限制、表结构的限制,某些方式可能无法获取到完整的数据变化情况,因此只能适用于特定的场景。方式 简述 适用场景 详述
数据湖与数据仓库区别
数据湖与数据仓库区别
hive数据仓库--Hive介绍
hive
HIVE总结
一:hive作用Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive本质:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上1.1:
第8章 综合案例—构建DVD租赁商店数据仓库
第八章 综合案例—构建DVD租赁商店数据仓库
Oracle11G的表空间数据文件大小限制问题处理
oracle11g的表空间数据文件容量与DB_BLOCK_SIZE有关,在初始建库时,DB_BLOCK_SIZE要根据实际需要,设置为 4K,8K、16K、32K、64K等几种大小,ORACLE的物理文件最大只允许4194304个数据块(由操作系统决定),表空间数据文件的最大值为 4194304×D
漫谈大数据 - HiveSQL总结(二)查询操作
导语:HiveSQL各关键字详解,hive函数大全,类似于个人记录工具书,后续遇到其他的也会继续加进来。
快速生成 MySQL 数据库关系图
需求描述:快速生产关系型数据库表关系ER图在公司老旧系统里,数据库表很多,但是在设计之初并没有建立好关系图,导致新人刚入职,面对N个库,每个库几百张表,很不方便。例如:公司某一个系统的库有三百张表,在不熟悉项目的情况下,打开数据库看到一列列的表,很不清晰,对新入职同事很不友好。...