数据仓库之实时数仓

实时数据仓库(Real-time Data Warehouse, RTDW)是一种能够实时处理和分析数据的系统,旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同,实时数据仓库能够持续地接收、处理和存储数据,使用户能够快速获得最新的信息和洞察力。

RabbitMQ消息的发布确认机制详解

RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列,提高系统可靠性。在Spring Boot项目中,通过配置`publisher-confirm-type`和`publisher-returns`,启用发布确认和消息返回机制。配置`RabbitTemplate`的确认回调和返回回调,

Hive表使用ORC格式和SNAPPY压缩建表语句示例

在选择压缩算法时,一般可以考虑以下几个因素: 1. 压缩比:不同的压缩算法具有不同的压缩比,一般来说,压缩比越高,存储空间占用越小,但可能会影响查询性能。 2. 压缩速度:有些压缩算法压缩速度较快,适合对数据进行频繁压缩,而有些压缩算法压缩速度较慢,但压缩比较高。 3. 解压速度:压缩算法解压速度也

Kafka详细教程(一)

官网:「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的,使用 scala 语言编写, kafka 是一个分布式,分区的,多副本的,多订阅者的日 志系统(分布式MQ 系统),可以用于搜索日志,监控日志,访问日志等 Kafka is

Flink-StarRocks详解:第六部分-即席查询大案例解析(第56天)

本文为Flink-StarRocks详解后续章节:主要详解StarRocks数仓场景:即席查询大案例

一篇文章教你如何搭建scala和spark(超详细)

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Clo

spark on k8s两种方式的原理与对比

Spark on k8s Operator 更适合大规模、需要自动化和集中管理的场景。它利用 Kubernetes 的原生功能,实现自动化管理和配置集中化,虽然增加了一些复杂性,但在动态和多租户环境中表现出色。Spark on k8s 适合简单、直接的 Spark 作业提交和管理场景,特别是对于那些

分布式服务框架zookeeper+消息队列kafka

在zookeeper集群中,有各自的角色,分为领导者Leader,学习者learner(跟随者Follower,观察者Observer)领导者主要工作:事务请求的唯一调度和处理者,保证集群事务处理的顺序性;集群内部个服务器的调度者。跟随者:处理客户端非事务请求,转发事务请求给leader服务器;参与

在 PostgreSQL 中如何实现数据仓库级别的聚合计算?

PostgreSQL 内置了多种聚合函数,如SUM()(求和)、AVG()(平均值)、COUNT()(计数)、MIN()(最小值)和MAX()(最大值)等。这些函数可以应用于一个列或表达式,以计算该列或表达式在一组行中的聚合结果。下面是一个简单的示例,展示如何使用COUNT()在上述示例中,COUN

Hadoop3.1.3完全分布式平台搭建

Hadoop3.1.3完全分布式搭建教程

毕设成品 大数据电商用户行为分析及可视化(源码+论文)

今天学长向大家介绍一个机器视觉的毕设项目,大数据电商用户行为分析及可视化(源码+论文)毕业设计 基于大数据淘宝用户行为分析。

【python】-pyspark应用

Spark。Spark是一个强大的工具,适用于大数据处理和分析,无论是学术研究还是工业应用,都能找到其用武之地。

基于Spark的电商推荐系统(高分毕设)

今天分享的是一套基于SSM技术+spark技术的电影推荐系统包含了爬虫、电影网站(前端和后端)、后台管理系统以及推荐系统(Spark)。

Spark转化算子

这个操作是非常昂贵的,最好用aggregateByKey 和reduceByKey代替。就是在shuffle前先进行计算,这样可以减少shuffle的数据。map和mapPartitions及mapPartitionsWithIndex区别。

Flink学习(八)-Flink 集群搭建

装好 jdk 等必要的组件。注意,由于本身没有额外的 dns做转发。因此,需要在每台机器的 host 文件里,配置好相关 ip具体方法。

Spark核心知识要点(三)

Spark核心知识要点(三)

Kubernetes kafka系列 | Strimzi 快速部署kafka集群 (可外部通信)

Strimzi 是一个用于 Apache Kafka 在 Kubernetes 上部署和管理的开源项目。它提供了一组 Kubernetes 自定义资源定义(Custom Resource Definitions,CRDs)、控制器和操作符,使得在 Kubernetes 环境中轻松地部署、管理和操作

Scala和Spark的介绍

Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。

基于SpringBoot+Vue+大数据的疾病数据统计分析系统设计和实现(源码+lw+部署+讲解)

🌞博主介绍:✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战,以及程序定制化开发、文档编写、答疑辅导等。✌🌞👇🏻精彩专栏 推荐订阅👇🏻2023-2

Zookeeper高频面试题整理(入门到精通)

Zookeeper 翻译过来就是动物园管理员,他是用来管 Hadoop (大象) 、Hive(蜜蜂)、Pig(小猪)的管理员,简称zk。Zookeeper是 Apache Hadoop项目下的一个子项目,是一个开源的分布式协调服务。配置管理命名服务分布式同步分布式锁集群管理。ZAB协议是一种原子广播

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈