数据仓库 - overfit.cn

数据中台基础

数据中台严格意义上来说不是一种产品或技术，而是一套可持续 "让企业的数据用起来" 的机制，一种战略选择和组织形式，是依据企业特有的业务模式和组织机构，通过成熟的产品和实施方法论支撑，构建的一套持续不断把数据变成资产并服务于业务的机制。其底层逻辑是以数字化的手段，将数据抽像成服务，响应前端业务的快速变

overfit同步小助手 2022-08-06 07:36:32 0 收藏

维度建模之事实表的设计经验分享

从数据仓库到数据中台，再到数据湖，最后到现在新提出的湖仓一体，存算分离。大数据的生态越来越丰富，新技术层出不穷。其中批处理这个分支，是指将各类数据归一到数据仓库，定时处理后给下游各种应用场景使用，而维度建模正适用于这种大数据量，复杂的场景，通过构建庞大的重型模型，提高复用率，这就是所谓的用空间换时间

overfit同步小助手 2022-08-01 10:26:33 0 收藏

GIS时空大数据融合技术——美丽长岛数据融合

KGIS具有丰富的空间计算函数，包含管理函数、对象构建函数、对象编辑函数、处理函数、线性函数、空间关系及栅格分析函数等六百余种空间函数。KingbaseES在自身具有关系型数据库能力的基础，将空间数据存储、空间索引和空间函数组合在一起，使KingbaseES兼具空间存储和空间函数计算的强大能力。金仓

overfit同步小助手 2022-07-02 07:53:46 0 收藏

大数据----数据仓库架构

把数据仓库架构理解成构成数据仓库的组件及其之间的关系图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。操作型系统的数据由各种形式的业务数据组成，这其中可能有关系数据库、TXT或CSV文件、HTML或XML文档，还可能存在外部系统的数据，比如网络爬虫抓取来的互联网数据等，数据可能是结构化

overfit同步小助手 2022-07-02 07:52:02 0 收藏

在当前完全检查点操作结束后，对未提交事务的数据块信息如何管理

完全检查点是未提交的块如何处理的问题

overfit同步小助手 2022-06-25 11:23:51 0 收藏

数据仓库建设之确定主题域

数据仓库主题域设计方法

overfit同步小助手 2022-06-09 07:50:51 0 收藏

【笔记】2022.6.7 数据分析概论

非常牛逼，xd

overfit同步小助手 2022-06-08 09:45:11 0 收藏

关于数仓的DWD层的讲解和拉链表讲解以及进行JOIN优化

在数仓的构建DWD层的时候有些数据需要去转化成拉链表来经行处理所以在今天我会着重讲解拉链表的使用以及在DWB JOIN表的时候进行的优化防止数据倾斜

overfit同步小助手 2022-06-08 09:43:48 0 收藏

数据湖（五）：Hudi与Hive集成

Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中，那么同时映射Hive表，让Hive表映射的数据对应到此路径上，这时Hudi需要通过JDBC方式连接Hive进行元数据操作，这时需要配置HiveServer2。

overfit同步小助手 2022-05-31 10:12:04 0 收藏

同步存量数据

同步存量数据把数据源端的数据通过Kettle读取，然后通过消息队列中间件（Kafka）导出软件准备Kettle：pdi-ce-9.3.0.0-428kettle简介Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，绿色无需安装，数据抽取高效稳定。

overfit同步小助手 2022-05-27 09:59:07 0 收藏

Hive--时间函数大全

hive时间函数1. current_date()：获取当前格式化日期2. current_timestamp()：获取当前格式化时间3. unix_timestamp()：获取当前unix时间戳4. from_unixtime()：把unix时间戳转化为格式化时间5. to_date(): 当前格

overfit同步小助手 2022-05-26 22:39:01 0 收藏

数据湖概念（一）

数据湖概念一、什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。二、大数据为什么需要数据湖当前基

overfit同步小助手 2022-05-26 08:05:33 0 收藏

windows定时任务准点运行kettle转换、作业等

kettle定时作业任务，时间间隔几十分钟跑一次时，将不会在你设置的时间准时启动？此文章教程将教你利用Windows自带cmd命令和定时任务计划功能，准时准点启动，毫秒不差，适合有准点运行需求的，教程内容简单易懂，此方法适合初级秃头学习使用

overfit同步小助手 2022-05-20 07:47:18 0 收藏

Kettle项目实战：比赛信息自动流转方案

Kettle项目实战比赛信息自动流转方案1. 项目背景与介绍众多的比赛都可以为抽象成以下的流程：传统的报名工作需要赛事组工作人员以表格或是邮件等方式采集选手的信息，并归档处理。选参赛过程中的种种行为，诸如签到、比赛、得分都得不到高效的记录，往往由纸张的表格记录，再录入excel进行整理。在处理比赛结

overfit同步小助手 2022-05-09 11:28:44 0 收藏

使用最新版flink tidb cdc 同步数据到StarRocks

Flink CDC 2.2 版本新增了 OceanBase CE，PolarDB-X，SqlServer，TiDB 四种数据源接入。其中新增 OceanBase CDC，SqlServer CDC，TiDB CDC 三个连接器，而 PolarDB-X 的支持则是通过对 MySQL CDC 连接器进行

overfit同步小助手 2022-04-22 08:08:17 0 收藏

各大互联网公司实时数仓实践

各大公司实时数仓实践1.1 网易实时数仓实践此架构是基于Kudu的实时数据数仓，通过Data Stream自己写的数据采集工具来采集日志数据写入Kafka，使用NDC(类似CDC)服务可以将binlog数据推送到Kafka，通过Flink读取Kafka数据结果写入Kudu,基于Kudu构建实时数仓好

overfit同步小助手 2022-04-21 07:08:10 0 收藏

Flink实时数仓项目—项目初了解

Flink实时数仓项目—项目初了解前言一、实时数仓分层介绍1.普通的实时计算与实时数仓比较2.实时电商数仓分层规划二、实时数仓需求概览1.离线计算和实时计算的比较2.实时需求种类2.1 日常统计报表或分析图中需要包含当日部分2.2 实时数据大屏监控2.3 数据预警或提示2.4 实时推荐系统三、数仓架

overfit同步小助手 2022-04-12 07:38:29 0 收藏

【数据库原理基础】数据库系统概述

文章目录前言一、数据库类型二、什么是数据逻辑独立性？三、什么是数据库？它有哪些特点？数据库的特点：1、数据的结构化2、数据独立性3、实现数据共享4、数据的冗余度小5、避免了数据的不一致性6、有利于数据的安全性7、有利于保证数据的完整性8、可以发现故障和恢复正常状态四、什么是数据库管理系统？它有哪些功

overfit同步小助手 2022-04-10 07:44:25 0 收藏

FlinkSQL+HDFS+Hive+SparkSQL实现业务数据增量进入数据仓库

目录0. 相关文章链接1. 为什么要实现将业务数据实时写入到数据仓库中2.架构设计3.FlinkSQL将binlog写入到HDFS中4.创建增量外部表（binlog表）5.创建全量历史表6.创建Spoop任务同步商品表数据7.历史数据和增量数据合并8.Java的nanoTime()9.创建视图完成按

overfit同步小助手 2022-04-10 07:43:23 0 收藏

将MySQL Workbench中的数据库导出和导入

我们在Workbench中建立好一个数据库后，如果想把这个数据库给别人用的话，就需要导出数据，为此Workbench为我们提供了数据导出功能，位于Server下的Data Export中：选择之后，我们需要调试一些参数，这里可能会遇到一些困难。首先从这里选择要导出的数据库：之后可以勾选下面三个选项，

overfit同步小助手 2022-04-08 08:59:41 0 收藏