大数据 - overfit.cn

腾讯资深技术官23天手撸笔记，全新演绎“Kafka部署实战”，已开源下载

为什么我不完全主张自学？①平台上的大牛基本上都有很多年的工作经验了，你有没有想过之前行业的门槛是什么样的，现在行业门槛是什么样的？以前企业对于程序员能力要求没有这么高，甚至十多年前你只要会写个“Hello World”，你都可以入门这个行业，所以以前要入门是完全可以入门的。②现在也有一些优秀的年轻大

overfit同步小助手 2024-08-13 02:03:46 0 收藏

Apache Hadoop API Shim 快速上手指南

Apache Hadoop API Shim 快速上手指南 hadoop-api-shimApache hadoop项目地址:https://gitcode.com/gh_mirrors/ha/hadoop-api-shim 项目介绍Apache Hadoop API Shim 是一个用于简化跨不同

overfit同步小助手 2024-08-13 01:03:53 0 收藏

关于KafkaTemplate与 @KafkaListener生产者与消费者功能的实现

Kafka 是一个流行的分布式流处理平台，广泛用于构建实时数据管道和流应用程序。在 Java 应用程序中，Spring Framework 提供了对 Kafka 的集成支持，通过 spring-kafka 模块实现。KafkaTemplate 和 @KafkaListener 是 Spring Ka

overfit同步小助手 2024-08-13 01:03:46 0 收藏

Flink有状态流处理的数据质量监控与报警

Flink有状态流处理的数据质量监控与报警作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着大数据时代的到来，实时

overfit同步小助手 2024-08-12 20:03:47 0 收藏

6、Flink Standalone-HA高可用集群模式

在 Zookeeper 的帮助下，一个 Standalone的Flink集群会同时有多个活着的 JobManager，其中只有一个处于工作状态，其他处于 Standby 状态。当工作中的 JobManager 失去连接后(如宕机或 Crash)，Zookeeper 会从 Standby 中选一个新的

overfit同步小助手 2024-08-12 19:03:47 0 收藏

从 MySQL 到 ClickHouse 实时数据同步 —— Debezium + Kafka 表引擎

使用 Debezium + Kafka 表引擎方案从 MySQL 到 ClickHouse 实时同步数据

overfit同步小助手 2024-08-12 19:03:38 0 收藏

zookeeper+kafka消息队列群集部署

了解消息队列，zookeeper和kafka群集部署。

overfit同步小助手 2024-08-12 18:03:56 0 收藏

大数据-70 Kafka 高级特性物理存储日志存储日志清理: 日志删除与日志压缩

上节完成Kafka的日志索引文件的解析，包含物理存储、消息偏移、偏移量存储的内容。本节研究物理存储中日志存储的：日志清理中的日志删除和日志压缩的方式。比如，我们在Spark、Flink中做实时计算时，需要在内存中维护一些数据，这些数据可能是通过聚合了一天或者一周的日志得到的，这些数据一旦由于异常（内

overfit同步小助手 2024-08-12 18:03:52 0 收藏

Linux环境安装Spark及Jupyter配置记录

Apache Spark（简称Spark）是一个开源的统一分析引擎，专为大规模数据处理设计。它最初由加利福尼亚大学伯克利分校的AMPLab开发，旨在克服Hadoop MapReduce的局限性。Spark能够进行内存中的数据处理，这使得它在处理迭代算法和交互式数据分析时，比传统的MapReduce要

overfit同步小助手 2024-08-12 18:03:40 0 收藏

Spark-第一周

Spark 应用程序作为集群上独立的进程集运行，由SparkContext 主程序（称为驱动程序）中的对象进行协调。具体来说，为了在集群上运行，SparkContext 可以连接到多种类型的集群管理器（Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes），这些集群管理

overfit同步小助手 2024-08-12 18:03:25 0 收藏

RabbitMQ（三）Java客户端

多个消费者绑定到一个队列中，可以加快消息处理速度同一条消息只会被一个消费者处理通过设置prefetch来控制消费者领取的消息数量，处理完一条再处理下一条，实现能者多劳。

overfit同步小助手 2024-08-12 17:03:54 0 收藏

【一文了解大数据及数据要素，浅说隐私计算、联邦学习】

区分大数据，数据要素，隐私计算等基础概念

overfit同步小助手 2024-08-12 17:03:50 0 收藏

利用SpringBoot+rabbitmq 实现邮件异步发送，保证100%投递成功

在之前的文章中，我们详细介绍了 SpringBoot 整合 mail 实现各类邮件的自动推送服务。但是这类服务通常不稳定，当出现网络异常的时候，会导致邮件推送失败。

overfit同步小助手 2024-08-12 17:03:24 0 收藏

搭建hadoop完全分布（ubuntu）

5、修改配置文件($HADOOP_HOME为/home/master/Downloads/hadoop, $JAVA_HOME为/home/master/Downloads/jdk)打开$ZOOKEEPER_HOME，新建data文件夹，并在conf文件，复制zoo_sample.cfg为zoo.

overfit同步小助手 2024-08-12 16:03:49 0 收藏

Hive SQL-DML-insert插入数据

insert

overfit同步小助手 2024-08-12 16:03:38 0 收藏

HiveQL原理与代码实例讲解

HiveQL原理与代码实例讲解1. 背景介绍1.1 问题的由来随着大数据时代的发展，数据存储量的激增带来了对高效数据处理和查询的需求。Apache Hive 是 Apache 旗下的一个数据仓库工具，专为解决大规模数据集上的 SQL 查询而

overfit同步小助手 2024-08-12 15:03:48 0 收藏

基于Hadoop的超市进货推荐系统设计与实现【springboot案例项目】

基于Hadoop的超市进货推荐系统旨在优化超市商品库存管理和采购流程。该系统利用Hadoop的强大数据处理能力，通过大数据分析和机器学习算法，对超市的销售数据、顾客行为及市场趋势进行深入分析。系统可以为超市管理者提供智能的商品进货建议，预测不同商品的需求量，从而帮助超市减少库存积压和缺货情况。系统还

overfit同步小助手 2024-08-12 15:03:44 0 收藏

Flink-DataWorks第五部分：数据开发（第61天）

本文主要详解了DataWorks的数据开发（后续），为第五部分：由于篇幅过长，分章节进行发布。后续： 数据运维

overfit同步小助手 2024-08-12 15:03:34 0 收藏

学习笔记： RabbitMQ基础

RabbitMQ基础知识

overfit同步小助手 2024-08-12 14:03:54 0 收藏

【RabbitMQ】一文详解消息可靠性

RabbitMQ 是一款高性能、高可靠性的消息中间件，广泛应用于分布式系统中。它允许系统中的各个模块进行异步通信，提供了高度的灵活性和可伸缩性。然而，这种通信模式也带来了一些挑战，其中最重要的之一是确保消息的可靠性。发送消息时连接RabbitMQ失败发送时丢失：生产者发送的消息未送达交换机；消息到达

overfit同步小助手 2024-08-12 14:03:19 0 收藏