大数据 - overfit.cn

kafka如何保证消息不丢失

Kafka发送消息是异步发送的，所以我们不知道消息是否发送成功，所以会可能造成消息丢失。而且Kafka架构是由生产者-服务器端-消费者三种组成部分构成的。要保证消息不丢失，那么主要有三种解决方法。

overfit同步小助手 2024-06-10 08:03:38 0 收藏

大数据—数据分析概论

数据分析是指使用统计、数学、计算机科学和其他技术手段对数据进行清洗、转换、建模和解释的过程，以提取有用的信息、发现规律、支持决策和解决问题。数据分析可以应用于各种领域，包括商业、医学、工程、社会科学等。确定问题：明确要解决的问题或要回答的业务问题。设定目标：定义分析的具体目标和期望的结果，如提高销售

overfit同步小助手 2024-06-10 07:03:50 0 收藏

kafka部署

可见上篇文章，接着做就行（部署所有集群服务器）

overfit同步小助手 2024-06-10 05:03:44 0 收藏

windows系统kafka小白入门篇——下载安装，环境配置，入门代码书写

我们修改 log.dirs 的值为刚才创建的 data 文件夹的路径，在路径末尾再添加上 "/kafka" ，用来和刚才的zk做区分，kafka 文件夹用来存放kafka的日志文件，zk 文件夹用来存放zoopeeper的日志文件；如下图所示，我在生产者命令窗口输入 "hello kafka"，点击

overfit同步小助手 2024-06-10 04:03:49 0 收藏

Kafka 实战 - Kafka优化之实现延时队列

总结来说，在实现 Kafka 延迟队列时，可以根据项目的具体需求、现有技术栈以及团队的开发运维能力，选择上述的一种或多种方法进行组合。生产者根据消息的延迟要求，将消息发送到相应的延迟主题。同时运行一个后台任务（如定时任务或常驻服务），该任务订阅这些延迟主题，当消息到达预期处理时间时，将它们转发到最终

overfit同步小助手 2024-06-10 03:03:52 0 收藏

Spark大数据 Spark运行架构与原理

Spark大数据的运行架构与原理可以概括为以下几个方面：一、运行架构二、核心原理Spark的核心原理是将数据分散到多台计算机上并在这些计算机上并行执行计算任务，从而实现高效的数据处理和分析。

overfit同步小助手 2024-06-10 03:03:45 0 收藏

RabbitMQ三、springboot整合rabbitmq（消息可靠性、高级特性）

主要对rabbitmq的消息可靠性、高级特性进行阐述说了，理解rabbitmq的用法

overfit同步小助手 2024-06-10 03:03:26 0 收藏

01-Spark的Local模式与应用开发入门

在 local 模式下，Spark 会使用单个 JVM 进程来模拟分布式集群行为，所有 Spark 组件（如 SparkContext、Executor 等）都运行在同一个 JVM 进程中，不涉及集群间通信，适用本地开发、测试和调试。SparkContext 是 Spark 应用程序的主入口点，负责

overfit同步小助手 2024-06-10 02:03:23 0 收藏

大数据机器学习与深度学习——回归模型评估

回归模型的性能的评价指标主要有：MAE(平均绝对误差)、MSE(平均平方误差)、RMSE(平方根误差)、R2_score。但是当量纲不同时，RMSE、MAE、MSE难以衡量模型效果好坏，这就需要用到R2_score。

overfit同步小助手 2024-06-10 01:03:32 0 收藏

在Debian 12系统上安装Docker

在现代的开发环境中，容器技术发挥着至关重要的作用。Docker 提供了快速、可靠和易于使用的容器化解决方案，使开发人员和 DevOps 专业人士能够以轻松的方式将应用程序从一个环境部署到另一个环境。 Docker 的安装过程在 Debian 12 系统上非常简单，只需几条命令即可完成。在接下来的部分

overfit同步小助手 2024-06-09 23:03:48 0 收藏

【Spark系列6】如何做SQL查询优化和执行计划分析

Apache Spark SQL 使用 Catalyst 优化器来生成逻辑执行计划和物理执行计划。逻辑执行计划描述了逻辑上如何执行查询，而物理执行计划则是 Spark 实际执行的步骤。

overfit同步小助手 2024-06-09 22:03:47 0 收藏

kafka连接外网加密内网不加密的配置方式_kafka_server_jaas

最全的Linux教程，Linux从入门到精通。

overfit同步小助手 2024-06-09 22:03:10 0 收藏

RabbitMQ无法访问15672端口

1.检查安全组是否允许端口。2.是否启用管理面板插件。

overfit同步小助手 2024-06-09 20:03:23 0 收藏

Kafka重要配置参数全面解读(重要)

本文将深入探讨Kafka中一些重要的配置参数，包括生产者、消费者和Broker端的参数。通过详细的解释和实例说明，读者将了解到如何根据实际需求调整这些参数，以优化Kafka集群的性能和稳定性。

overfit同步小助手 2024-06-09 19:03:31 0 收藏

Hive 日期处理函数汇总

最近项目处理日期操作比较繁杂,使用Hive的日期函数也较频繁。

overfit同步小助手 2024-06-09 19:03:24 0 收藏

kafka的leader和follower

在Linux中强制杀掉该Kafka的进程，然后观察leader的情况。kafka的leader负责读写，follower不能读写数据(确保每个消费者消费的数据是一致的)，kafka一个topic有多个分区leader，一样可以实现负载均衡。如果kafka是居于ZK进行选举，ZK的压力比较大，例如某个

overfit同步小助手 2024-06-09 18:03:29 0 收藏

HBase高级特性：过滤器（一）

1.使用过滤器的步骤：（1）创建过滤器：RowFilter(CompareOperator op,ByteArrayComparable rowComparator)，第一个参数接收的是比较操作对象，第二个参数接收的是条件。（2）设置过滤器。

overfit同步小助手 2024-06-09 17:03:30 0 收藏

Hive中高频常用的函数和语法

如果没有前面的行（例如，当前行是第一行），则返回指定的默认值。在这些示例中，LAG()函数被用于获取结果集中的前一行的值，以进行相关的计算或分析。功能介绍： IFNULL(expression, default_value)函数用于处理NULL值，当表达式的值为NULL时，返回指定的默认值，以确保结

overfit同步小助手 2024-06-09 16:03:54 0 收藏

Zookeeper：常见的面试题和答案

overfit同步小助手 2024-06-09 16:03:47 0 收藏

【scau大数据技术与原理2】综合性实验Spark集群的安装和使用——安装启动spark shell篇

Spark是一个分布式计算框架，常用于大数据处理。本次实验中，首先设计一个包含主节点和从节点的Spark集群架构，并在CentOS的Linux环境下进行搭建。通过下载并解压Spark安装包，配置环境变量和集群参数，部署Spark集群。接着言编写Spark应用程序，并将其打包通过spark-submi

overfit同步小助手 2024-06-09 15:03:45 0 收藏