大数据 - overfit.cn

[数仓]三、离线数仓（Hive数仓系统）

Hive引擎包括：默认MR、tez、sparkHive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。Spark on Hive: Hive只作为存储元数据，Spark负责SQL解析优化，语法是SparkS

overfit同步小助手 2024-08-01 10:03:55 0 收藏

消息队列选型之 Kafka vs RabbitMQ

消息队列即 Message+Queue，消息可以说是一个数据传输单位，它包含了创建时间、通道/主题信息、输入参数等全部数据；队列（Queue）是一种 FIFO（先进先出）的数据结构，编程语言一般都内置(内存中的)队列实现，可以作为进程间通讯（IPC）的方法。使用队列最常见的场景就是生产者/消费者模式

overfit同步小助手 2024-08-01 10:03:30 0 收藏

【Hive SQL 每日一题】统计用户留存率

实现用户留存率的需求其实很简单，这里要求在系统上线后，统计每天的用户留存率，我们每次只需要算出“今天”的用户数量与“昨天”的用户数量比例即可。它反映了用户对产品的持续兴趣和满意度，是评估产品成功与否的重要指标之一。用户留存率（User Retention Rate）是一个衡量用户在特定时间段内继续使

overfit同步小助手 2024-08-01 09:03:52 0 收藏

计算效率提升 30 倍、存储资源节省 90%，雨润集团基于 Apache Doris 的统一实时数据仓库建设实践

作者：石公星，雨润集团基础数据平台架构师导读：数字化转型的浪潮中，高效准确的数据分析能够帮助雨润集团快速洞察市场动态、优化供应链管理、提高生产效率。雨润集团引入了 Apache Doris 构建了统一实时数据仓库，实现了计算效率提升 30 倍、存储资源节省 90%、成本降低超 100 万、人员效率提

overfit同步小助手 2024-08-01 09:03:22 0 收藏

使用flink cdc 的union all语法同步多个源表到一个目标表

Apache Flink 是一款高性能的流处理框架，它支持CDC（Change Data Capture）功能，即变更数据捕获。CDC允许你捕获到数据库中数据的变更（包括增加、更新、删除操作），并将这些变更实时地同步到其他系统或数据仓库中。Flink CDC Connectors 是 Flink 的

overfit同步小助手 2024-08-01 08:03:19 0 收藏

Docker命令总结

指令描述ls列出镜像build构建镜像来自Dockerfilehistory查看历史镜像inspect显示一个或多个镜像的详细信息pull从镜像仓库拉取镜像push推送一个镜像到仓库rm移除一个或多个镜像prune一处未使用的的镜像，没有被标记或被任何容器引用的tag创建一个引用源镜像标记目标镜像e

overfit同步小助手 2024-08-01 06:03:46 0 收藏

实战：Eureka的概念作用以及用法详解

Netflix Eureka 是一款由 Netflix 开源的基于 REST 服务的注册中心，用于提供服务发现功能。Spring Cloud Eureka 是 Spring Cloud Netflix 微服务套件的一部分，基于 Netflix Eureka 进行了二次封装，主要负责完成微服务架构中的

overfit同步小助手 2024-08-01 05:03:59 0 收藏

如何学习EMR：糙快猛的大数据之路（建立整体框架）

想要征服AWS EMR？这份"糙快猛"学习指南将带你从入门到精通！本文深入探讨了EMR的基础知识、集群管理、编程应用、性能优化和安全性。不仅如此，还涵盖了与其他AWS服务的集成、高级特性和运维实践。通过实际案例研究，你将看到EMR如何解决真实世界的大数据挑战。本文还展望了未来趋势，为你的技能发展指明

overfit同步小助手 2024-08-01 05:03:55 0 收藏

Hive常用日期函数,时间函数

Hive常用日期函数,时间函数。

overfit同步小助手 2024-08-01 05:03:49 0 收藏

云端存储交响曲：Eureka引领分布式文件存储新篇章

在微服务架构中，服务的分布式文件存储是一个关键需求，它允许不同服务实例之间共享和访问文件数据。Eureka作为Netflix开源的服务发现框架，虽然本身不直接提供文件存储功能，但可以与其他分布式文件存储解决方案集成，实现服务的分布式文件存储。通过结合Eureka和其他分布式文件存储系统，您可以构建一

overfit同步小助手 2024-08-01 05:03:45 0 收藏

小阿轩yx-zookeeper+kafka群集

overfit同步小助手 2024-08-01 05:03:34 0 收藏

Kafka概念初识

前置知识消息队列MQ。

overfit同步小助手 2024-08-01 05:03:27 0 收藏

Hive常用函数_20个字符串处理

1.CONCAT()2.SUBSTR()3.UPPER()4.LOWER()5.TRIM()6.LENGTH()7.REPLACE()8.SPLIT()9.INSTR()10.REGEXP_EXTRACT()11.REGEXP_REPLACE()12.REVERSE()13.LPAD()14.RPA

overfit同步小助手 2024-08-01 04:03:52 0 收藏

AutoMQ vs Kafka: 来自小红书的独立深度评测与对比

Apache Kafka 分区迁移需要将分区的副本拷贝到新的节点，拷贝历史数据的同时还要追赶新写入的数据，迁移的耗时 = 分区数据量 / （迁移吞吐限制 - 分区写入吞吐），在实际生产环境中，分区迁移往往是小时级的，本测试中的 30 GiB 的分区迁移耗时就到了 15 分钟。除了迁移耗时长以外，Ap

overfit同步小助手 2024-08-01 04:03:24 0 收藏

Kafka的Consumers：高效数据消费的关键角色

Consumers（消费者）定义：Kafka Consumers 是读取和处理 Kafka 消息的客户端应用程序。消费者从一个或多个主题（Topic）中读取消息，并进行相应的数据处理。作用：消费者负责从 Kafka 集群中获取消息，进行业务逻辑处理，如数据分析、日志处理、事件驱动等。

overfit同步小助手 2024-08-01 03:03:47 0 收藏

数据仓库之Lambda架构

Lambda架构是一种设计大规模数据处理系统的架构模式，它结合了批处理和实时处理的优点，以应对大数据的多样性、速度和规模问题。该架构主要由三个层次组成：批处理层（Batch Layer）、速度层（Speed Layer）和服务层（Serving Layer）。

overfit同步小助手 2024-08-01 03:03:39 0 收藏

使用Kafka实现带消息记录的实时传输对话场景（聊天室）

使用**Websocket**可以实现客户端的双向通信，客户端可以向服务端发送数据，服务端也可以向客户端发送数据。传输内容是可以实时传输了，但是如果没有存储功能，一刷新页面（或者重新进入）就再也看不到之前发送的消息，这是一个很大的麻烦。策略一数据持久化首先想到在传输的时候，顺带将数据存入数据库，貌似

overfit同步小助手 2024-08-01 03:03:24 0 收藏

kafka源码阅读-ReplicaManager解析

Kafka源码包含多个模块，每个模块负责不同的功能。服务端源码：实现Kafka Broker的核心功能，包括日志存储、控制器、协调器、元数据管理及状态机管理、延迟机制、消费者组管理、高并发网络架构模型实现等。Java客户端源码：实现了Producer和Consumer与Broker的交互机制，以及通

overfit同步小助手 2024-08-01 02:03:31 0 收藏

浅析Kafka Streams消息流式处理流程及原理

结合案例：统计消息中单词出现个数来测试并说明kafka-stream消息流式处理的执行流程

overfit同步小助手 2024-08-01 01:04:16 0 收藏

Hadoop单机安装配置图文保姆级教程—保姆级配置教程—全网最全[官方手册版]

Hadoop单机安装配置图文保姆级教程—全网最全一、安装前需要1.VMware安装配置：2.相关Hadoop软件包下载3.Ubuntu镜像下载二、Ubuntu系统安装前提声明：已安装可忽略此步（但要有远程传输VMwareTools，和英文版的Ubuntu）三、Hadoop单机+伪分布式配置1.更新a

overfit同步小助手 2024-08-01 00:03:59 0 收藏