大数据 - overfit.cn

Kafka的安装、管理和配置

overfit同步小助手 2024-06-28 19:03:47 0 收藏

Flink CDC3.1版本数据同步记录

需要下载flink-cdc需要的连接器胖包，放在解压flink-cdc后的lib下。此处按需source源和sink源进行下载，本人使用mysql to kafka，（也是去官方的github上下载。此为最简单的flink部署，具体依据生产项目需要选择集群部署，部署方式网上很多，不做赘述。首先，监听

overfit同步小助手 2024-06-28 19:03:34 0 收藏

【大数据】什么是数据集成？（附FineDataLink集成工具介绍）

本文旨在介绍数据集成以及它的重要性，并推荐好用的数据集成工具。

overfit同步小助手 2024-06-28 17:03:23 0 收藏

Kafka 实战 - Kafka Streams 基本概念及API详解

Kafka Streams 提供了一套丰富的 API，使得开发者能够便捷地处理 Kafka 中的数据流。基本概念如流、KStream、KTable、时间概念、窗口和状态管理构成了流处理的基础。而其 API 层面，高级 DSL 与低级 Processor API 结合，满足了从简单到复杂的不同应用场景

overfit同步小助手 2024-06-28 16:03:15 0 收藏

事件驱动的超级联盟：Spring Boot与Apache Kafka Streams的融合力量

🔥关注墨瑾轩，带你探索Java的奥秘🚀🔥超萌技术攻略，轻松晋级编程高手🚀🔥技术宝库已备好，就等你来挖掘🚀🔥订阅墨瑾轩，智趣学习不孤单🚀🔥即刻启航，编程之旅更有趣🚀。

overfit同步小助手 2024-06-28 15:03:41 0 收藏

消息队列的 6 种经典使用场景和 Kafka 架构设计原理详细解析

今天来聊一聊 Kafka 消息队列的使用场景和核心架构实现原理，帮助你全面了解 Kafka 其内部工作原理和设计理念。。Apache Kafka 是一个高吞吐量、分布式的流处理平台，广泛应用于实时数据管道和流处理应用中。Kafka 以其高性能、低延迟、扩展性和可靠性，成为了大数据生态系统中的重要组件

overfit同步小助手 2024-06-28 14:03:55 0 收藏

聊聊Flink：Docker搭建Flink

现在，可以通过Flink Web界面提交和管理Flink作业。首先，将一个Flink作业的JAR文件上传到Flink Web界面。其中，<jobmanager_container_id>是Flink集群中jobmanager容器的ID，/path/to/job.jar是Flink作业的JAR文件路径

overfit同步小助手 2024-06-28 14:03:44 0 收藏

Kafka入门使用教程

消息队列（MQ）是消息传递中间件解决方案的一个组件，旨在支持独立的应用和服务之间的信息交换。消息队列按发送顺序存储“消息”（由应用所创建、供其他应用使用的数据包），直到使用方应用能够处理它们为止。这些消息安全地等待接收方应用做好准备，因此，即使网络或接收方应用出现问题，消息队列中的消息也不会丢失。系

overfit同步小助手 2024-06-28 13:03:13 0 收藏

HBase与传统关系型数据库的区别

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，它基于Google的Bigtable设计，并且是Hadoop生态系统的一部分。HBase可以存储大量数据，并提供快速的随机读写访问。与传统的关系型数据库不同，HBase是非关系型数据库，它不支持SQL查询语言。关系型数据库和HBase

overfit同步小助手 2024-06-28 12:03:58 0 收藏

RabbitMQ开启MQTT协议支持_rabbitmq 开启mqtt功能

/参数为true表示清除缓存，也就是非持久化订阅者，这个时候只要参数设为true，一定是非持久化订阅者。System.out.println(“收到消息，topic：”+topic + “, msg:” + new String(message.getPayload()));System.out.p

overfit同步小助手 2024-06-28 12:03:25 0 收藏

【大数据 Hadoop zookeeper】基于azure云服务器的hadoop HA高可用性集群搭建

windows Azure提供了学生认证，通过学生认证后，每年可以免费使用100刀以内的相关云服务。笔者建议大家都可以去申请一个学生优惠认证，感兴趣可以搜索一下。下面的教程是笔者学生认证后搭建hadoop集群的全过程。

overfit同步小助手 2024-06-28 11:03:50 0 收藏

大数据毕设分享金融大数据分析与可视化 - python 大数据金融可视化

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩金融大数据分析与可视化🥇学长这里给一个题

overfit同步小助手 2024-06-28 11:03:24 0 收藏

hive的安装与基本配置（超详细，超简单）

本文介绍了hive的详细安装过程与基本配置

overfit同步小助手 2024-06-28 10:03:41 0 收藏

RabbitMQ系统监控、问题排查和性能优化实践

在上面的代码中，setConcurrentConsumers(3)设置了并发消费者的初始值为3，setMaxConcurrentConsumers(5)设置了最大的并发消费者数为5，setAcknowledgeMode(AcknowledgeMode.AUTO)设置了消息确认消费的方式为自动确认。在

overfit同步小助手 2024-06-28 10:03:38 0 收藏

ubuntu22 部署zookeeper + kafka集群 & 配置开机自启动

ufw disabled #关闭防火墙或者放开指定端口vim /etc/hosts #配置ip host映射关系。

overfit同步小助手 2024-06-28 09:03:57 0 收藏

学习Spark的数据清洗与预处理

1.背景介绍数据清洗和预处理是数据科学和机器学习的基础，它们有助于提高模型的准确性和性能。在大数据领域，Apache Spark是一个流行的分布式计算框架，它可以处理大量数据并提供高性能的数据处理能力。在本文中，我们将探讨如何使用Spark进行数据清洗和预处理。1. 背景介绍数据清洗和预处理是指对原

overfit同步小助手 2024-06-28 09:03:54 0 收藏

基于Spark3.3.4版本，实现Spark On Yarn 模式部署

企业中的海量数据都会使用大数据相关计算框架进行分析处理，在早期大数据处理中，我们会选择使用MapReduce分析处理海量数据，MapReduce存在计算慢、代码编写复杂、不支持流式计算及性能上的一些问题，Apache Spark计算框架的出现解决了MapReduce计算框架以上各种问题，Apache

overfit同步小助手 2024-06-28 09:03:48 0 收藏

MongoDB与HBase：非关系型数据库的对比与分析

我们了解了MongoDB和HBase的特点和应用实例。掌握这些技巧将有助于提高你的数据存储和分析效率，并确保你的应用程序能够稳定、高效地运行。希望这篇文章能够帮助你更好地理解和运用MongoDB和HBase技术。祝你开发愉快！

overfit同步小助手 2024-06-28 08:03:30 0 收藏

头歌：Spark任务提交

这段脚本首先将 project.jar 复制到 /root 目录下，然后切换到 /opt/spark/dist/bin 目录。在 begin 和 end 之间，使用 spark-submit 命令提交 Spark 程序，其中 --master local 指定了本地模式，--class Studen

overfit同步小助手 2024-06-28 08:03:23 0 收藏

3、Flink执行模式（流/批）详解（上）

Flink执行模式（流/批）详解（上）

overfit同步小助手 2024-06-28 07:03:45 0 收藏