分布式 - overfit.cn

Kafka SASL_SSL集群认证

公司需要对kafka环境进行安全验证，目前考虑到的方案有Kerberos和SSL和SASL_SSL，最终考虑到安全和功能的丰富度，我们最终选择了SASL_SSL方案。到此为止，SSL的证书生成和签发完成，可以在当前目录下看到server.keystore.jks和server.truststore.

overfit同步小助手 2024-06-04 20:03:17 0 收藏

windows安装kafka以及kafka管理工具推荐

github上一个star数不错的个人项目,拉取项目后修改config下的application.yml，在使用start.bat即可启动。个人认为最优秀的管理工具,界面简洁清晰美观，功能也基本覆盖了日常使用,缺点是免费版本只能连接本地环境，连接其他地址的kafka需要付费，有条件的可以支持一下。k

overfit同步小助手 2024-06-04 19:03:46 0 收藏

基于centos7的hadoop伪分布式spark+scala（详细教程）

准备活动：需要scala和spark安装包。

overfit同步小助手 2024-06-04 19:03:41 0 收藏

Hadoop完全分布式集群搭建

另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。可以看出 HDFS 的数据保存在/usr/local/src/hadoop/df

overfit同步小助手 2024-06-04 13:03:33 0 收藏

HBase分布式数据库入门到精通

HBase是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式 NOSQL 数据库。当你需要随机、实时读/写访问大数据时，请使用 Apache HBase。

overfit同步小助手 2024-06-04 12:03:58 0 收藏

【RabbitMQ】可靠性策略（幂等，消息持久化）

为了确认消费者是否成功处理消息，RabbitMQ提供了消费者确认机制，当消费者处理消息结束后，应该向RabbitMQ发送一个回执，告知RabbitMQ自己消息处理状态。幂等是一个数学概念，用函数表达式来描述是这样的：f(x)=f(f(x)),在程序开发中，则指同一个业务，执行一次或多次对业务状态的影

overfit同步小助手 2024-06-04 10:03:59 0 收藏

Kafka 生产者应用解析

可以根据实际需要，自定义实现分区器。示例：自定义分区发送过来的数据中如果包含 hello，就发往 0 号分区，不包含 hello，就发往 1 号分区。# 自定义分区发送过来的数据中如果包含 hello，就发往 0 号分区，不包含 hello，就发往 1 号分区。""":function: 自定义

overfit同步小助手 2024-06-04 05:03:33 0 收藏

Kafka 实战 - Kafka之offset位移及漏消费和重复消费

在 Apache Kafka 中，消费者通过跟踪和管理消息的 offset（位移）来记录其消费进度。offset 是消息在分区中的唯一标识，反映了消费者已消费消息的边界。通过深入理解 Kafka 的 offset 机制，排查和解决消息漏消费、重复消费的问题，并遵循位移管理的最佳实践，可以确保 Kaf

overfit同步小助手 2024-06-04 01:03:52 0 收藏

Spark编程实验四：Spark Streaming编程

通过本实验掌握Spark Streaming的基本编程方法；熟悉利用Spark Streaming处理来自不同数据源的数据。熟悉DStream的各种转换操作。熟悉把DStream的数据输出保存到文本文件或MySQL数据库中。

overfit同步小助手 2024-06-04 01:03:20 0 收藏

RabbitMQ的四种消息传递模式与演示代码

例如，用户在网站上提交了一个长时间处理的任务（如生成报表、发送邮件等），为了提高用户体验，可以将任务提交到RabbitMQ的任务队列中，然后由后台的消费者进行异步处理。通过使用Fanout模式，可以将日志消息广播到所有相关的队列中，每个消费者只需要关注自己负责处理的日志级别，从而实现了日志的分发和处

overfit同步小助手 2024-06-03 16:04:01 0 收藏

「Kafka」Kafka单机和集群安装（二）

集群启动命令后，会打开多个黑窗口，每一个窗口都是一个kafka服务，请不要关闭，一旦关闭，对应的kafka服务就停止了。如果启动过程报错，主要是因为zookeeper和kafka的同步问题，请先执行cluster-clear.cmd文件，再执行cluster.cmd文件即可。因为Kafka启动前，必

overfit同步小助手 2024-06-03 16:03:24 0 收藏

阿里云ECS上搭建Hadoop分布式环境

访问→ 注册登录账号→找到上述访问界面中的（位置如图所示）→点击下载→下载完成后，查阅本机下载位置（接下来会需要）在机房电脑，文件系统访问\\PC-008\BC，将jre-8u261-linux-x64.tar.gz文件拷贝到自己电脑中。

overfit同步小助手 2024-06-03 13:02:04 0 收藏

Kafka基础架构详解

Kafka基础架构

overfit同步小助手 2024-06-03 03:04:11 0 收藏

Spark编程基础考点

第一章、大数据技术概述第一章、大数据技术概述。

overfit同步小助手 2024-06-03 03:03:41 0 收藏

【大数据篇】Hadoop：大数据处理的核心基石

Hadoop决定创建一个由许多小伙伴组成的探险队，每个小伙伴都擅长处理不同类型的数据。他找到了擅长存储大量数据的“HDFS”（Hadoop Distributed File System），让它负责建造一个巨大的数据仓库，用来存放所有收集到的数据。接着，Hadoop又找到了擅长并行处理的“MapRe

overfit同步小助手 2024-06-02 21:03:46 0 收藏

Hadoop伪分布式安装教程

hivesever2的模拟用户功能，依赖于Hadoop提供的proxy user（代理用户功能），只有Hadoop中的代理用户才能模拟其他用户的身份访问Hadoop集群。因此，需要将hiveserver2的启动用户设置为Hadoop的代理用户，配置方式如下：修改配置文件。首先，在根目录下创建文件夹

overfit同步小助手 2024-06-02 21:03:36 0 收藏

分布式领域计算模型及Spark&Ray实现对比

前面的章节首先对分布式计算领域进行了概述，同时对Spark和Ray的调度设计进行了简要的介绍。我们可以发现，Spark和Ray之所以会采用不同的调度设计，主要原因还在于它们的目标场景的需求差异。Spark当前的核心场景还在于批量的数据计算，在这样的需求场景下我们可以假设数据依赖图是较为简单的，不存在

overfit同步小助手 2024-06-02 20:03:53 0 收藏

分布式锁实现方案-基于zookeeper的分布式锁实现（原理与代码）

分布式锁是一种用于控制分布式系统中对共享资源访问的同步机制，它确保在多个节点或进程中访问共享资源时的排他性。分布式锁的应用场景广泛，如防止多个用户同时修改数据、控制分布式系统中对共享资源的并发访问等。分布式锁的实现方式主要有三种，包括：基于数据库的实现方式。基于缓存（如Redis或Memcached

overfit同步小助手 2024-06-02 16:03:44 0 收藏

大数据程序员必会之Spark框架上的实时流计算框架SparkStreaming

如今在大数据的世界里，Spark可谓是众所周知，风光无限了。在批处理领域取得巨大成功后，Spark开始向流计算领域进军，于是诞生了Spark Streaming。Spark Streaming是建立在，提供了可扩展、高吞吐和错误容忍的实时数据流处理功能。

overfit同步小助手 2024-06-02 02:03:38 0 收藏

Kafka效率篇-提升效率三板斧

总结一下本文的大致内容，主要解释了kafka如何提高效率的，主要解决了小型IO和大量的字节拷贝问题。小型IO的问题，kafka的解法是转微批的方式。字节拷贝问题，kafka利用了零拷贝技术实现，减少了数据的重复拷贝问题，但目前还没做到真正的“零拷贝”。利用压缩技术，使的网络带宽能够更高效的使用。后续

overfit同步小助手 2024-06-02 01:03:58 0 收藏