湖仓一体电商项目(二十三):离线业务 统计每天用户商品浏览所获积分

使用Iceberg构建湖仓一体架构进行数据仓库分层,通过Flink操作各层数据同步到Iceberg中做到的离线与实时数据一致,当项目中有一些离线临时性的需求时,我们可以基于Iceberg各层编写SQL进行数据查询,针对Iceberg DWS层中的数据我们可以编写SQL进行离线数据指标分析。当前离线业

学大数据有哪些高薪工作可以选?

大数据行业目前有多火爆就不用多说了,我们生活和工作的方方面面都和大数据技术息息相关。由于大数据在各个行业的广泛应用,导致了大数据人才缺口的进一步扩大。可能有人会问了,学大数据有哪些高薪工作可以选呢?首先大数据的整体就业薪资都挺高,而且的就业方向也很多。下面为大家介绍一些大数据行业的高薪岗位。数据分析

数据仓库hive本地模式安装

hive是建立在hadoop文件系统上的数据仓库,提供了一系列的工具,能对存储在HDFS中的数据进行提取,转换,加载等操作;该文主要介绍了hive本地模式的部署。

【Hive】各种join连接用法

hive join连接的各种用法

离线数仓搭架_01_数仓概念与项目框架说明

数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。

离线数仓(1):什么是数据仓库

数仓面向主题分析的特点在企业中数仓是一个不断维护的工程数仓分层并不局限于经典3层,可以根据自身需求进行调整没有好的架构,只有适合自己业务需求的架构它山之石可以攻玉注:其他 离线数仓 相关文章链接由此进 ->离线数仓文章汇总。...

数据仓库中基本概念

数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于 支持管理人员的决策。

Hive面试题系列-求用户最大连续活跃天数 2

代码】Hive面试题系列-求用户最大连续活跃天数 2。

Hive时间日期函数一文详解+代码实例

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive中的表示纯逻辑表,只有表的定义等,即表的元数据(存储于MySQL中)。本质就是Hadoop的目录/文件,这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据,它完全依赖HDFS

HiveServer2 报错 OutOfMemoryError 解决思路

HiveServer2 报错 OutOfMemoryError 解决思路

数据中台基础

数据中台严格意义上来说不是一种产品或技术,而是一套可持续 "让企业的数据用起来" 的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织机构,通过成熟的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。其底层逻辑是以数字化的手段,将数据抽像成服务,响应前端业务的快速变

维度建模之事实表的设计经验分享

从数据仓库到数据中台,再到数据湖,最后到现在新提出的湖仓一体,存算分离。大数据的生态越来越丰富,新技术层出不穷。其中批处理这个分支,是指将各类数据归一到数据仓库,定时处理后给下游各种应用场景使用,而维度建模正适用于这种大数据量,复杂的场景,通过构建庞大的重型模型,提高复用率,这就是所谓的用空间换时间

GIS时空大数据融合技术——美丽长岛数据融合

KGIS具有丰富的空间计算函数,包含管理函数、对象构建函数、对象编辑函数、处理函数、线性函数、空间关系及栅格分析函数等六百余种空间函数。KingbaseES在自身具有关系型数据库能力的基础,将空间数据存储、空间索引和空间函数组合在一起,使KingbaseES兼具空间存储和空间函数计算的强大能力。金仓

在当前完全检查点操作结束后,对未提交事务的数据块信息如何管理

完全检查点是未提交的块如何处理的问题

数据仓库建设之确定主题域

数据仓库主题域设计方法

【笔记】2022.6.7 数据分析概论

非常牛逼,xd

数据湖(五):Hudi与Hive集成

Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中,那么同时映射Hive表,让Hive表映射的数据对应到此路径上,这时Hudi需要通过JDBC方式连接Hive进行元数据操作,这时需要配置HiveServer2。

同步存量数据

同步存量数据把数据源端的数据通过Kettle读取,然后通过消息队列中间件(Kafka)导出软件准备Kettle:pdi-ce-9.3.0.0-428kettle简介Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Hive--时间函数大全

hive时间函数1. current_date():获取当前格式化日期2. current_timestamp():获取当前格式化时间3. unix_timestamp():获取当前unix时间戳4. from_unixtime():把unix时间戳转化为格式化时间5. to_date(): 当前格

数据湖概念(一)

数据湖概念一、什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。二、​​​​​​​大数据为什么需要数据湖当前基

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈