大数据 - overfit.cn

hivesever2编译sql慢问题处理

hive.metastore.event.listeners org.apache.hive.hcatalog.listener.DbNotificationListener --删掉。使用在线工具分析： https://spotify.github.io/threaddump-analyzer

overfit同步小助手 2024-11-04 18:03:51 0 收藏

使用RabbitMQ实现延迟消息的完整指南

延迟消息是指消息在发送到队列后，经过设定的时间延迟再被消费。RabbitMQ 本身没有直接支持延迟队列的功能，但可以通过TTL（Time To Live）+ 死信队列（Dead Letter Queue, DLQ）的组合来实现。当消息超过TTL（消息存活时间）后，不会被立即消费，而是会被转发到绑定的

overfit同步小助手 2024-11-04 18:03:39 0 收藏

微服务架构 --- 使用RabbitMQ进行异步处理

RabbitMQ 是一种流行的消息队列（Message Queue）实现，基于 AMQP 协议（Advanced Message Queuing Protocol）。它支持异步通信，使多个系统之间以非阻塞的方式交换数据。

overfit同步小助手 2024-11-04 17:03:30 0 收藏

windows 11 配置 kafka 使用SASL SCRAM-SHA-256 认证

windows 11 配置Kafka

overfit同步小助手 2024-11-04 17:03:24 0 收藏

rabbitmq发送的消息接收不到

2.主要说的2这种情况，就是在延迟队列中，忘记给一个bean加注解导致日志报exchange not found.这个报错，进而引发了bindings没有绑定。没有绑定的话，发送消息就会接收不到。1.消息被其他消费者消费。

overfit同步小助手 2024-11-04 17:03:19 0 收藏

大数据-202 数据挖掘机器学习理论 - 决策树 sklearn 绘制决策树防止过拟合

在每次分支的时候，不使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的节点。我们之前提过，无论决策树模型如何进化，在分支上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点计算出来的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但

overfit同步小助手 2024-11-04 14:03:33 0 收藏

【Hadoop】电脑虚拟机开启/关闭Hadoop的操作

1.在Oracle VM VirtualBox管理器选中三个节点，右键开启

overfit同步小助手 2024-11-04 13:03:53 0 收藏

基于Python+大数据爬虫+数据可视化大屏的颈椎病预防交流平台设计和实现(源码+LW+部署讲解)

随着现代生活节奏的加快和办公方式的改变，颈椎病的发病率逐年上升，尤其在长期使用电脑、手机等电子设备的群体中更为常见。颈椎病不仅影响人们的生活质量，还可能导致严重的健康问题，如头晕、肩颈疼痛甚至是神经功能障碍。因此，如何科学预防颈椎病、提高大众的健康意识，成为当前社会亟待解决的问题。在此背景下，基于P

overfit同步小助手 2024-11-04 12:03:31 0 收藏

大数据-198 数据挖掘机器学习理论 - scikit-learn 归一化距离的惩罚

最近邻点距离远近修正在对未知分类过程中，一点一票的规则是 KNN 模型优化的一个重要步骤，也就是说，对于原始分类模型而言，在选取最近的 K 个元素之后，将参考这些点的所属类别，并对其进行简单计数，而在计数的过程中这些点一点一票，这些点每个点对分类目标点的分类过程中影响效力相同。但这实际上不公平的，就

overfit同步小助手 2024-11-04 11:04:26 0 收藏

2023_Spark_实验十一：RDD基础算子操作

Spark3.4.1, Scala 2.13 RDD基础练习，使用Spark-shell练习，使用IDEA练习

overfit同步小助手 2024-11-04 10:03:34 0 收藏

在ubuntu系统上使用Hadoop搭建集群

修改/etc/hosts文件添加主机名和ip的映射，使得免ip修改~/.ssh/config 文件使得免用户名。

overfit同步小助手 2024-11-04 09:03:47 0 收藏

探索 Kafka 与 Confluent 的无限可能：kafka-docker-playground 项目推荐

???? 探索 Kafka 与 Confluent 的无限可能：kafka-docker-playground 项目推荐 kafka-docker-playground ????✨ Fully automated Apache Ka

overfit同步小助手 2024-11-04 08:03:52 0 收藏

hadoop入门

开始认真学习大数据方向了，先大概了解一下，基于尚硅谷的视频

overfit同步小助手 2024-11-04 08:03:49 0 收藏

RabbitMQ消息模型

当你运行许多消费者时，任务将在他们之间共享，但是一个消息只能被一个消费者获取。X：Exchange（交换机），接收生产者的消息，然后把消息递交给与routing key完全匹配的队列。但是，在某些场景下，我们希望不同的消息被不同的队列消费。4）生产者发送的消息，只能发送到交换机，交换机来决定要发

overfit同步小助手 2024-11-04 07:03:40 0 收藏

从 Hadoop 迁移到数据 Lakehouse 的架构师指南

从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域，但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反，越来越多

overfit同步小助手 2024-11-04 07:03:20 0 收藏

【Python数据分析】利用Pandas库轻松处理大数据

Pandas是基于Python的开源数据分析库，主要用于处理和分析结构化数据。Pandas提供了高效的数据结构，主要是Series和DataFrame，并为数据处理、清洗和转换等操作提供了丰富的API。Series: 一维数据结构，类似于Python中的列表和字典。DataFrame: 二维表格数据

overfit同步小助手 2024-11-04 06:03:19 0 收藏

Pyspark中pyspark.sql.functions常用方法（1）

是 PySpark 中用于定义用户自定义函数（UDF）的工具。UDF允许你在Spark DataFrame中使用Python函数处理数据。UDF的性能通常不如内置的Spark函数，因为它们会引入额外的Python虚拟机开销。只有当没有其他选项时才应该使用UDF。# 自定义函数df2.show()#

overfit同步小助手 2024-11-04 04:04:27 0 收藏

大数据-199 数据挖掘机器学习理论 - 决策树模型决策与条件香农熵计算

左图表示了特征空间的一个划分，假定现在只有 W10 和 W20 两个决策点，特征空间被决策点沿轴划分，并且相继划分相互正交，每个小矩形表示一个区域，特征空间上的区域构成了集合，X 取值为区域的集合。由于决策树表示一个条件概率的分布，所以深浅不同的决策树对应着不同的复杂度的概率模型，其中决策树的生成只

overfit同步小助手 2024-11-04 04:04:04 0 收藏

智能化升级：AI与大数据在TMS中的应用

例如，通过分析不同时间段的交通拥堵情况、车辆载重限制、司机工作时间等因素，系统能够动态调整运输计划，减少等待时间和空驶率，提高运输效率。在物流运输管理领域，TMS（运输管理系统）作为核心系统，通过集成AI技术和大数据分析，实现了智能调度、路线优化、异常预警等功能，显著提升了物流决策的精准度和效率。系

overfit同步小助手 2024-11-04 03:04:16 0 收藏

EureKa是什么?

Eureka 是一个源于 Netflix 公司的开源项目，主要用于实现服务注册和服务发现的功能。它是构建分布式系统中的微服务架构的一个关键组件。

overfit同步小助手 2024-11-04 03:03:50 0 收藏