大数据 - overfit.cn

Hive：trunc函数

trunc函数对于日期和数值的截断详解。

overfit同步小助手 2024-06-19 02:03:17 0 收藏

深入解析Kafka消息丢失的原因与解决方案

Apache Kafka是一种高吞吐量、分布式的消息系统，广泛应用于实时数据流处理。然而，在某些情况下，Kafka可能会出现消息丢失的情况，这对于数据敏感的应用来说是不可接受的。本文将深入解析Kafka消息丢失的各种原因，包括生产者、broker和消费者配置问题，以及硬件故障等。同时，我们将提供详细

overfit同步小助手 2024-06-19 01:03:47 0 收藏

大数据基础:大数据组件文档

大数据组件使用指南

overfit同步小助手 2024-06-19 00:04:08 0 收藏

Kafka系列之高频面试题

简介、应用场景、概念、负载均衡与故障转移、分区、ACK、不丢失、去重、幂等性、有序性、消费者（再均衡、消费者组协调器、消费者和消费者组的关系）、与其他MQ中间件的比较、Kafka对比Pulsar、offset、Topic、删除Topic流程、ZooKeeper、Pull还是Push、消息事务、脚本、

overfit同步小助手 2024-06-18 22:03:54 0 收藏

基于spark 程序用scala统计淘宝商品数据分析

从Spark的上手到最后的项目，整个过程我一路磕磕绊绊的时常遇到一些奇怪的问题，但是好在本人寻找bug的能力还不错，都一一得到了解决，后半期学习结束了，但我还需要继续花时间去学习，尤其是Hadoop的知识点，结合两者的实际应用去体会不同。三、导入要使用到的依赖包，有两个依赖包，一个是saprk_li

overfit同步小助手 2024-06-18 22:03:42 0 收藏

通过 docker-compose 快速部署 Flink 保姆级教程

Apache Flink 是一个开源的流处理框架，用于处理和分析实时数据流。它支持事件驱动的应用和复杂的事件处理（CEP），并且可以处理批处理任务。Flink 提供了高吞吐量、低延迟以及强大的状态管理和容错能力。它可以在各种环境中运行，包括本地集群、云环境和容器化环境（如 Docker 和 Kube

overfit同步小助手 2024-06-18 21:03:54 0 收藏

记录一个Kafka客户端Offset Explore连不上的问题

英文翻译过来大概就是说遍历zk指定路径不存在，我还以为zk的问题，回去又把zk的文档翻了一遍，顺带浅浅复习了一下zk如何创建，删除节点啥的，研究了下好像不是这个原因。CSDN上的其他人不知道咋想的，这么简单一个问题都要写个收费的回答。那我来写个不收费的，

overfit同步小助手 2024-06-18 21:03:49 0 收藏

关于rabbitmq的prefetch机制

消息预取机制（Prefetch Mechanism）是RabbitMQ中用于控制消息传递给消费者的一种机制。它定义了在一个信道上，消费者允许的最大未确认的消息数量。一旦未确认的消息数量达到了设置的预取值，RabbitMQ就会停止向该消费者发送更多消息，直到至少有一条未完成的消息得到了确认。这个值指定

overfit同步小助手 2024-06-18 21:03:25 0 收藏

从零开始：大数据组件实现增量同步工具（maxwell,canal）：上

链接：https://pan.baidu.com/s/11peATgs1Ox3NMZQA4ciuBg?配置JAVA_HOME环境变量，以及将$JAVA_HOME/bin文件夹加入PATH环境变量中。其他设置如图，当然如果你电脑配置足够好，开个8+4+4简直是随心所欲的话，怎么开心怎么来。创建文件夹，

overfit同步小助手 2024-06-18 19:03:29 0 收藏

RabbitMQ知识点总结（一）

消息发送端产生消息重复的原因是消息成功进入消息存储后，因为各种原因使得消息发送端没有收到“成功”的返回结果，并且因为存在重试机制，所以消息重复发送。在投递过程中产生的消息重复接收主要是因为消息接收者成功处理完消息之后，消息中间件不能及时更新投递状态造成的（就是MQ没有收到ACK，就没删除掉消息）

overfit同步小助手 2024-06-18 18:03:44 0 收藏

Hadoop数据备份与数据恢复策略

Hadoop数据备份与数据恢复策略1.背景介绍随着大数据时代的到来,数据已经成为企业最宝贵的资源之一。无论是结构化数据还是非结构化数据,它们都可能包含着对企业至关重要的商业智能和洞察力。然而,由于数据量的快速增长和数据丢失的风险,有效的数据备份和恢复策略变得至关重要。A

overfit同步小助手 2024-06-18 14:03:49 0 收藏

2024-05-19 RabbitMq整合SpringBoot快速入门

rabbitmq的基础使用示例

overfit同步小助手 2024-06-18 14:03:19 0 收藏

Spark RDD与算子详解:案例解析(第3天）

本文主要详解Spark RDD和工作中常用RDD算子；

overfit同步小助手 2024-06-18 13:03:23 0 收藏

大数据学习——安装hive

overfit同步小助手 2024-06-18 12:03:43 0 收藏

RabbitMQ 延时消息实现

overfit同步小助手 2024-06-18 11:03:16 0 收藏

JAVA 整合 RabbitMQ

JAVA 整合 RabbitMQ。

overfit同步小助手 2024-06-18 10:03:50 0 收藏

Kafka 最佳实践：构建高性能、可靠的数据管道

Apache Kafka 是一个强大且灵活的分布式流处理平台，通过遵循上述最佳实践，可以显著提高 Kafka 系统的性能、可靠性和安全性。无论是部署、主题设计、生产者和消费者配置，还是安全性、监控和故障恢复，每个环节都需要仔细规划和合理配置。希望这篇指南能帮助你更好地理解和使用 Kafka，构建高效

overfit同步小助手 2024-06-18 10:03:43 0 收藏

Google BigTable与HBase：对比与解析

我们了解了Google BigTable和HBase的特点和应用实例。掌握这些技巧将有助于提高你的数据存储和分析效率，并确保你的应用程序能够稳定、高效地运行。希望这篇文章能够帮助你更好地理解和运用Google BigTable和HBase技术。祝你开发愉快！

overfit同步小助手 2024-06-18 10:03:40 0 收藏

FlinkCEP的绿色环保与社会责任

FlinkCEP的绿色环保与社会责任1.背景介绍随着工业化进程的不断加快,环境污染和资源浪费问题日益严重,对人类社会的可持续发展构成了巨大挑战。因此,实现绿色环保、节能减排已经成为各行各业的当务之急。在这一背景下,大数据领域的FlinkCEP(Flink Complex Event

overfit同步小助手 2024-06-18 09:03:48 0 收藏

【C/C++】用C语言写一个数据仓库，存储和修改数据

这个代码实现了一个简单的数据仓库，其中数据被存储在一个3x3的二维数组中。用户可以通过控制台界面与这个数据仓库进行交互，可以选择查看数据或者修改数据。

overfit同步小助手 2024-06-18 08:03:54 0 收藏