大数据 - overfit.cn

kafka集群升级新策略，Cloudera专家来揭秘：助你轻松应对大数据挑战

我们团队负责维护的 Kafka 集群承载了公司大部分实时数据的收集与传输任务。然而，目前存在一些问题，严重影响了集群的稳定性、用户体验以及管理员的运维效率：当前集群版本较低，且低版本的 bug 频繁出现，导致集群稳定性受到威胁。例如，violet 集群最近因触发 bug 而出现不可用的情况。多个集群

overfit同步小助手 2024-11-27 08:03:19 0 收藏

Flink CDC 同步 Mysql 数据

Flink CDC 基于数据库日志的技术，实现了全量和增量的一体化读取能力，并借助 Flink 优秀的管道能力和丰富的上下游生态，支持捕获多种数据库的变更，并将这些变更实时同步到下游存储。

overfit同步小助手 2024-11-27 06:03:23 0 收藏

Hadoop 3.1.3 安装包下载

Hadoop 3.1.3 安装包下载 Hadoop3.1.3安装包下载 Hadoop 3.1.3 安装包下载本仓库提供了一个基于 CentOS 7 编译的 Hadoop 3.1.3 安装包，方便用户快速部署和使用 Hadoop 分布

overfit同步小助手 2024-11-27 04:03:35 0 收藏

微服务治理方案之Dubbo+zookeeper

Dubbo 作为一款微服务框架，最重要的是向用户提供跨进程的 RPC 远程调用能力。如上图所示，服务提供者（Provider）启动后，会将自身的服务注册到注册中心（zookeeper）中，包括服务地址、版本号等信息。服务消费者（Consumer）想zookeeper中订阅所需服务。注册中心（zook

overfit同步小助手 2024-11-27 03:03:55 0 收藏

基于Spark的电影推荐系统资源文件介绍

基于Spark的电影推荐系统资源文件介绍【下载地址】基于Spark的电影推荐系统资源文件介绍分享基于Spark的电影推荐系统资源文件介绍本资源文件详细介绍了基于Spark的电影推荐系统的开发流程，涵盖了Spark和Intelli

overfit同步小助手 2024-11-27 03:03:52 0 收藏

Kafka 之批量消息发送消费

前面我们分享了 Kafka 的一些基础知识，以及 Spring Boot 集成 Kafka 完成消息发送消费，本篇我们来分享一下 Kafka 的批量消息发送消费。

overfit同步小助手 2024-11-27 03:03:49 0 收藏

《大数据中的高级 SQL 技巧技》

本文将介绍大数据中的高级 SQL 技巧，包括窗口函数、CTE（Common Table Expressions）、子查询、连接查询、聚合函数、数据分区等，帮助读者更好地处理大数据。本文介绍了大数据中的高级 SQL 技巧，包括窗口函数、CTE、子查询、连接查询、聚合函数、数据分区等。数据分区可以提高查

overfit同步小助手 2024-11-27 03:03:38 0 收藏

spark-sql 参数配置与调优

set spark.dynamicAllocation.minExecutors=1 //每个Application最⼩分配的executor数。--每个mapper/reducer可以创建的最大动态分区数。

overfit同步小助手 2024-11-27 02:04:43 0 收藏

大数据专业主要学什么

大数据专业的学习内容丰富多样，既包括扎实的理论基础，也强调实践技能的培养。通过系统学习，学生将具备解决复杂工程问题的能力，并能在大数据分析、系统开发等领域从事相关工作。无论是基础课程、核心技术，还是跨学科知识，大数据专业都为学生提供了全面的发展平台，帮助他们在数据驱动的时代脱颖而出。无论你是刚刚入门

overfit同步小助手 2024-11-27 02:04:22 0 收藏

使用Debezium、Kafka实现Elasticsearch数据同步

能够监控各种数据库（如 MySQL、PostgreSQL、Oracle 等）的事务日志（如 MySQL 的 Binlog、PostgreSQL 的 WAL）。Debezium 将数据库中的数据更改事件（例如插入、更新、删除操作）转换为事件流消息，这些消息可以被发送到消息队列（通常是 Kafka）中。

overfit同步小助手 2024-11-27 01:03:08 0 收藏

【大数据】Linux环境下分布式大数据框架安装部署流程（更新中）

Linux环境下分布式大数据框架安装部署流程（离线）：JDK、Scala→Hadoop→Spark、Flink→Kafka

overfit同步小助手 2024-11-26 23:03:28 0 收藏

【系统架构设计师】2024年上半年真题论文: 论大数据lambda架构（包括解题思路和素材）

Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理系统架构，其核心思想是将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离，解决传统批处理架构的延迟问题和流处理架构的准确性问题。此外，我还负责监控和优化平台的性能，以确保高效的数据处理和分析能力

overfit同步小助手 2024-11-26 22:04:00 0 收藏

从一到无穷大 #37 Databricks Photon：打响 Spark Native Engine 第一枪

The execution engine needs to provide good performance on the raw uncurated datasets that are ubiquitous in data lakes, and excellent performance on

overfit同步小助手 2024-11-26 22:03:42 0 收藏

hadoop-teragen库的使用

hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar（使用的jar包的路径） teragen 10000000 （使用代码） /teragen/data（存放结果的hdfs路

overfit同步小助手 2024-11-26 20:03:19 0 收藏

RabbitMQ 面试题

无法被消费的消息，称为死信。

overfit同步小助手 2024-11-26 19:03:45 0 收藏

加入GitHub Spark需要申请

综上所述，GitHub Spark是一款由AI驱动的实验性工具，它通过自然语言生成代码的方式极大地降低了软件开发的门槛。GitHub Spark是一种由AI驱动的实验性工具，旨在帮助开发者快速实现创意，尤其是那些复杂但有趣的小型应用。它极大地降低了软件开发的门槛，使得即使是缺乏深厚编程专业知识的人也

overfit同步小助手 2024-11-26 19:03:35 0 收藏

【kafka-02】kafka集群搭建

kafka集群搭建

overfit同步小助手 2024-11-26 18:03:33 0 收藏

Flink系列之：学习理解通过状态快照实现容错

由 Flink 管理的 keyed state 是一种分片的键/值存储，每个 keyed state 的工作副本都保存在负责该键的 taskmanager 本地中。Checkpoint n 将包含每个 operator 的 state，这些 state 是对应的 operator 消费了严格在 ch

overfit同步小助手 2024-11-26 18:03:13 0 收藏

kafka3.8+zookeeper3.9集群自动化部署、sasl+acl配置、kafka connect配置部署

kafka,sasl,acl,kafka connect

overfit同步小助手 2024-11-26 17:03:51 0 收藏

基于Hadoop的共享单车分布式存储与计算

共享单车的普及带来了便利，但也引发了数据管理的挑战。随着市场竞争加剧，大量资金涌入，导致共享单车数量激增，品牌众多。这种情况下，有效管理和分析海量数据成为一个关键问题。本项目利用Hadoop技术对共享单车数据进行分布式存储和计算。我们收集了10万条开源数据，包含用户类型、活跃程度、地理位置、消费水平

overfit同步小助手 2024-11-26 17:03:44 0 收藏