大数据 - overfit.cn

17.RabbitMQ.记录

每个只能配置一个，因此我们可以在配置类中统一设置(因为只有一个我们可以在项目启动的时候去配置)。版本升级之后写法: 在发送者配置类里面/*** mq 发送者确认机制的回执的配置* */@Slf4jpublic class MqConfirmConfig implements Applicatio

overfit同步小助手 2024-11-14 01:04:23 0 收藏

RabbitMQ 持久化与不公平分发

持久化是指将消息或队列保存在磁盘上，以确保即使 RabbitMQ 服务器宕机或重启，数据也不会丢失。队列持久化意味着即使 RabbitMQ 重启后，队列依然存在，但它不会保证队列中的消息仍然存在。其中，true表示队列持久化。消息持久化是在生产者发送消息时指定的，确保消息在服务器重启后依然能够保留在

overfit同步小助手 2024-11-14 00:04:24 0 收藏

基于Flink搭建流式湖仓OpenLake方案

OpenLake解决方案建立在开放可控的OpenLake湖仓之上，提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据，提供湖仓数据表和文件的安全访问及IO加速，并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎，

overfit同步小助手 2024-11-13 23:03:56 0 收藏

kafka（启动集群，使用spring方法，自定义配置）

Apache Kafka 是一个开源的分布式流处理平台，最初由 LinkedIn 开发，后来成为 Apache 项目。Kafka 主要用于高吞吐量、低延迟的实时数据流处理，常用于日志收集、实时分析、消息传递等场景。

overfit同步小助手 2024-11-13 23:03:21 0 收藏

Couchbase Lite for Android 开源项目 FAQ

Couchbase Lite for Android 开源项目 FAQ couchbase-lite-android couchbase/couchbase-lite-android: Couchbase Lite for Andr

overfit同步小助手 2024-11-13 22:03:59 0 收藏

《深入浅出Apache Spark》系列③：Spark SQL解析层优化策略与案例解析

本系列是Spark系列分享的第三期。第一期分享了SparkCore的一些基本原理和一些基本概念，包括一些核心组件。Spark的所有组件都围绕SparkCore来运转，其中最活跃的一个上层组件是SparkSQL。第二期分享则专门介绍了SparkSQL的基本架构和原理。从第三期开始，后续的分享都围绕着S

overfit同步小助手 2024-11-13 22:03:42 0 收藏

大数据新视界 -- 大数据大厂之 Impala 与内存管理：如何避免资源瓶颈（上）（5/30）

本文深入探讨 Impala 内存管理。以星际航行类比，阐述其重要性、关键要素（分配策略与回收机制），结合某互联网公司案例，分析内存瓶颈与优化措施（查询语句重写、调整分配策略等）。还介绍了内存监控工具和指标，以及基于监控的调优策略，包括应对内存过高问题和处理内存与磁盘 I/O、网络传输的协同关系。此外

overfit同步小助手 2024-11-13 22:03:26 0 收藏

FlinkCDC 实现 MySQL 数据变更实时同步

Flink CDC 是 Apache Flink 提供的一个功能强大的组件，用于实时捕获和处理数据库中的数据变更。FlinkSQLFlink DataStream 和 Table API（本文使用该方式）

overfit同步小助手 2024-11-13 21:03:52 0 收藏

RabbitMQ

集群模式提供了横向扩展和容错能力。镜像队列确保队列及其消息在多个节点上复制，防止单点故障。队列分片（Quorum Queues）提供了高效的队列管理和更高的容错性。网络分区管理帮助处理集群中网络故障时的分区问题。心跳检测与自动恢复确保节点或客户端故障时的快速检测和恢复。负载均衡和自动重连提供了客户端

overfit同步小助手 2024-11-13 21:03:48 0 收藏

基于Hadoop的电商用户分析系统的设计与实现(源码+lw+部署文档+讲解等)

基于 Spring Boot + Vue 的 Hadoop 电商用户分析系统可实现电商用户数据的高效分析与可视化展示。该系统结合了多种技术，为电商企业提供深入的用户洞察。前端采用 Vue 构建用户界面，提供直观的操作和数据展示。用户可以通过界面进行数据查询、筛选和可视化操作。后端使用 Spring

overfit同步小助手 2024-11-13 21:03:32 0 收藏

Zookeeper的安装与使用

分享了zookeeper的安装使用

overfit同步小助手 2024-11-13 20:03:45 0 收藏

Dinky手把手教程 - 集成K8s，提交Flink On K8s Application任务

Dinky 是一个基于 Apache Flink 的实时计算平台，它提供了一站式的 Flink 任务开发、运维、监控等功能。Kubernetes 是一个强大的容器编排平台，能够自动化应用的部署、扩展和管理。将 Flink 与 Kubernetes 集成，可以充分利用 Kubernetes 的优势，实

overfit同步小助手 2024-11-13 20:03:40 0 收藏

HBase 部署及shell操作

overfit同步小助手 2024-11-13 19:03:39 0 收藏

基于Hadoop的短视频数据分析的设计与实现

Django-Admin来自django.contrib也就是Django的标准库，默认被配置好，只需要激活启用即可，它的优势在于可以快速对数据库的各个表进行增删改查，一行代码即可管理一张数据库表，相比于手动后台1个模型一般需要4个urls，4个视图函数和4个模板，可以说Django完成了一个程序编

overfit同步小助手 2024-11-13 17:03:44 0 收藏

【面试题】Hive 查询：如何查找用户连续三天登录的记录

在分析用户行为时，查询用户的连续登录数据是一个常见需求。例如，我们需要找出每个用户连续三天登录的记录。给定一个包含用户登录记录的表，我们需要对这些数据进行处理，提取出用户连续三天登录的日期。

overfit同步小助手 2024-11-13 17:03:32 0 收藏

Spark环境搭建

本文是使用VMware Workstation搭建Spark环境，操作系统为CentOS 7的详细步骤

overfit同步小助手 2024-11-13 17:03:23 0 收藏

flink中disableOperatorChaining() 的详解

是一个全局禁用算子链式合并的工具，适用于需要对每个算子进行细致的性能分析和调试的场景。通过禁用链式合并，开发者可以更清楚地看到每个算子的独立执行情况，从而更有效地优化资源使用或解决性能瓶颈。不过，禁用算子链也会增加调度和通信开销，因此通常只在调试和优化的特定场景下使用。

overfit同步小助手 2024-11-13 16:03:30 0 收藏

从事大数据行业，需要考或者可以考什么证书？看完你就知道了！

数据证书目前有2种类别，一种是国家认证的，一种是厂商认证的，国家认证即工信部颁发的证书。

overfit同步小助手 2024-11-13 15:03:28 0 收藏

毕业设计项目基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析🧿 项目分享:见文末!

overfit同步小助手 2024-11-13 13:03:51 0 收藏

flink 内存配置（二）：设置TaskManager内存

TaskManager在Flink中运行用户代码。根据需要配置内存使用，可以极大地减少Flink的资源占用，提高作业的稳定性。注意下面的讲解适用于TaskManager 1.10之后的版本。与JobManager进程的内存模型相比，TaskManager内存组件具有类似但更复杂的结构。

overfit同步小助手 2024-11-13 13:03:14 0 收藏