[数仓]三、离线数仓(Hive数仓系统)

Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive: Hive只作为存储元数据,Spark负责SQL解析优化,语法是SparkS

消息队列选型之 Kafka vs RabbitMQ

消息队列即 Message+Queue,消息可以说是一个数据传输单位,它包含了创建时间、通道/主题信息、输入参数等全部数据;队列(Queue)是一种 FIFO(先进先出)的数据结构,编程语言一般都内置(内存中的)队列实现,可以作为进程间通讯(IPC)的方法。使用队列最常见的场景就是生产者/消费者模式

【Hive SQL 每日一题】统计用户留存率

实现用户留存率的需求其实很简单,这里要求在系统上线后,统计每天的用户留存率,我们每次只需要算出“今天”的用户数量与“昨天”的用户数量比例即可。它反映了用户对产品的持续兴趣和满意度,是评估产品成功与否的重要指标之一。用户留存率(User Retention Rate)是一个衡量用户在特定时间段内继续使

计算效率提升 30 倍、存储资源节省 90%,雨润集团基于 Apache Doris 的统一实时数据仓库建设实践

作者:石公星,雨润集团基础数据平台架构师导读:数字化转型的浪潮中,高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库,实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提

使用flink cdc 的union all语法同步多个源表到一个目标表

Apache Flink 是一款高性能的流处理框架,它支持CDC(Change Data Capture)功能,即变更数据捕获。CDC允许你捕获到数据库中数据的变更(包括增加、更新、删除操作),并将这些变更实时地同步到其他系统或数据仓库中。Flink CDC Connectors 是 Flink 的

Docker命令总结

指令描述ls列出镜像build构建镜像来自Dockerfilehistory查看历史镜像inspect显示一个或多个镜像的详细信息pull从镜像仓库拉取镜像push推送一个镜像到仓库rm移除一个或多个镜像prune一处未使用的的镜像,没有被标记或被任何容器引用的tag创建一个引用源镜像标记目标镜像e

实战:Eureka的概念作用以及用法详解

Netflix Eureka 是一款由 Netflix 开源的基于 REST 服务的注册中心,用于提供服务发现功能。Spring Cloud Eureka 是 Spring Cloud Netflix 微服务套件的一部分,基于 Netflix Eureka 进行了二次封装,主要负责完成微服务架构中的

如何学习EMR:糙快猛的大数据之路(建立整体框架)

想要征服AWS EMR?这份"糙快猛"学习指南将带你从入门到精通!本文深入探讨了EMR的基础知识、集群管理、编程应用、性能优化和安全性。不仅如此,还涵盖了与其他AWS服务的集成、高级特性和运维实践。通过实际案例研究,你将看到EMR如何解决真实世界的大数据挑战。本文还展望了未来趋势,为你的技能发展指明

Hive常用日期函数,时间函数

Hive常用日期函数,时间函数。

云端存储交响曲:Eureka引领分布式文件存储新篇章

在微服务架构中,服务的分布式文件存储是一个关键需求,它允许不同服务实例之间共享和访问文件数据。Eureka作为Netflix开源的服务发现框架,虽然本身不直接提供文件存储功能,但可以与其他分布式文件存储解决方案集成,实现服务的分布式文件存储。通过结合Eureka和其他分布式文件存储系统,您可以构建一

小阿轩yx-zookeeper+kafka群集

小阿轩yx-zookeeper+kafka群集

Kafka概念初识

前置知识 消息队列MQ。

Hive常用函数_20个字符串处理

1.CONCAT()2.SUBSTR()3.UPPER()4.LOWER()5.TRIM()6.LENGTH()7.REPLACE()8.SPLIT()9.INSTR()10.REGEXP_EXTRACT()11.REGEXP_REPLACE()12.REVERSE()13.LPAD()14.RPA

AutoMQ vs Kafka: 来自小红书的独立深度评测与对比

Apache Kafka 分区迁移需要将分区的副本拷贝到新的节点,拷贝历史数据的同时还要追赶新写入的数据,迁移的耗时 = 分区数据量 / (迁移吞吐限制 - 分区写入吞吐),在实际生产环境中,分区迁移往往是小时级的,本测试中的 30 GiB 的分区迁移耗时就到了 15 分钟。除了迁移耗时长以外,Ap

Kafka的Consumers:高效数据消费的关键角色

Consumers(消费者)定义:Kafka Consumers 是读取和处理 Kafka 消息的客户端应用程序。消费者从一个或多个主题(Topic)中读取消息,并进行相应的数据处理。作用:消费者负责从 Kafka 集群中获取消息,进行业务逻辑处理,如数据分析、日志处理、事件驱动等。

数据仓库之Lambda架构

Lambda架构是一种设计大规模数据处理系统的架构模式,它结合了批处理和实时处理的优点,以应对大数据的多样性、速度和规模问题。该架构主要由三个层次组成:批处理层(Batch Layer)、速度层(Speed Layer)和服务层(Serving Layer)。

使用Kafka实现带消息记录的实时传输对话场景(聊天室)

使用**Websocket**可以实现客户端的双向通信,客户端可以向服务端发送数据,服务端也可以向客户端发送数据。传输内容是可以实时传输了,但是如果没有存储功能,一刷新页面(或者重新进入)就再也看不到之前发送的消息,这是一个很大的麻烦。策略一数据持久化首先想到在传输的时候,顺带将数据存入数据库,貌似

kafka源码阅读-ReplicaManager解析

Kafka源码包含多个模块,每个模块负责不同的功能。服务端源码:实现Kafka Broker的核心功能,包括日志存储、控制器、协调器、元数据管理及状态机管理、延迟机制、消费者组管理、高并发网络架构模型实现等。Java客户端源码:实现了Producer和Consumer与Broker的交互机制,以及通

浅析Kafka Streams消息流式处理流程及原理

结合案例:统计消息中单词出现个数来测试并说明kafka-stream消息流式处理的执行流程

Hadoop单机安装配置 图文保姆级教程—保姆级配置教程—全网最全[官方手册版]

Hadoop单机安装配置图文保姆级教程—全网最全一、安装前需要1.VMware安装配置:2.相关Hadoop软件包下载3.Ubuntu镜像下载二、Ubuntu系统安装前提声明:已安装可忽略此步(但要有远程传输VMwareTools,和英文版的Ubuntu)三、Hadoop单机+伪分布式配置1.更新a

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈