大数据 - overfit.cn

13、Kafka ------ kafka 消费者API用法（消费者消费消息代码演示）

Kafka ------ kafka 消费者API用法（消费者消费消息代码演示）

overfit同步小助手 2024-06-22 15:03:59 0 收藏

Docker 无法拉取镜像怎么办？一文教你轻松搞定！

这些工具提供了一系列的检查项，涵盖了Docker安全性的各个方面，包括主机配置、容器设置、网络配置等。根据研究，采用基于镜像层关联的预取策略（如LCPA）可以有效提高缓存命中率，从而减少拉取镜像的延迟。如果你有权限，可以考虑调整或优化你的Docker注册表的缓存策略。在这种情况下，联系你的云服务提供

overfit同步小助手 2024-06-22 15:03:36 0 收藏

7 | 史上最全大数据笔记-Hive函数

先来看一下这个需求：求每个部门的员工信息以及部门的平均工资。在mysql中如何实现呢FROM empJOIN (FROM emp) tfrom emp A;通过这个需求我们可以看到，如果要查询详细记录和聚合数据，必须要经过两次查询，比较麻烦。这个时候，我们使用窗口函数，会方便很多。那么窗口函数是

overfit同步小助手 2024-06-22 15:03:25 0 收藏

大数据基础hadoop / hive / hbase

HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。。

overfit同步小助手 2024-06-22 14:03:44 0 收藏

Flink 窗口概述

Flink是一种流式计算引擎，主要是来处理无界数据流的，数据源源不断、无穷无尽。想要更加方便高效地处理无界流，一种方式就是将无限数据切割成有限的“数据块”进行处理，这就是所谓的“窗口”（Window）。【把窗口理解成一个“桶”，Flink则可以把流切割成大小有限的“储存桶”，把数据分发到不同的桶里，

overfit同步小助手 2024-06-22 13:03:42 0 收藏

大数据自学路线笔记持续更新中

大数据三大特征数据存储（Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台）、数据计算（Apache Hadoop MapReduce 、Apache Spark、Apache Flink）、数据传输（Apache Kafka、Apache Pulsar

overfit同步小助手 2024-06-22 12:03:40 0 收藏

FlinkSQL 中lateral table

LATERAL TABLE 用于在查询中扩展表，并将表值函数的结果与查询的其余部分进行连接（LATERAL TABLE 可以用于将。使用LATERAL TABLE可以在查询中实现更复杂的逻辑，可以在SELECT子句中使用LATERAL TABLE关键字并调用表值函数，来查询所需要的列，得到的结果是：

overfit同步小助手 2024-06-22 11:03:48 0 收藏

大数据实训（三）——MapReduce编程实例：词频统计

http://t.csdnimg.cn/OySPS

overfit同步小助手 2024-06-22 11:03:40 0 收藏

RabbitMQ面试题

RabbitMQ高频面试题。

overfit同步小助手 2024-06-22 10:03:23 0 收藏

【WEEK16】【DAY2】Dubbo和Zookeeper集成第二部分【中文版】

接上文。

overfit同步小助手 2024-06-22 09:03:43 0 收藏

探索Spring Boot与Kafka的完美融合：实战配置指南

探索Spring Boot与Kafka的完美融合：实战配置指南项目地址:https://gitcode.com/thepracticaldeveloper/kafka-spring-boot-example在快速迭代的技术洪流中，实时数据处理成为了构建高效应用的关键。今天，我们带来了一个宝藏开源项目

overfit同步小助手 2024-06-22 06:03:51 0 收藏

Hadoop的性能优化与调优

1.背景介绍Hadoop是一个开源的分布式文件系统和分析平台，由Apache软件基金会开发。它可以处理大量数据，并提供高性能、高可用性和高扩展性。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统，可以

overfit同步小助手 2024-06-22 06:03:45 0 收藏

大数据基础知识-Hadoop、HBase、Hive一篇搞定

相应的，数据库由于规模较小，因此可以支持的数据规模较小，一般单张表中能存储百万条数据(最新版的MySQL经过优化，单表中可以存储千万条或者上亿条数据，即使是一亿条数据，也就10GB大小，且此时效率会非常低)。HBase数据存储依靠HDFS，HDFS存储数据具有一次写入，多次读取的特点，其不支持对数据

overfit同步小助手 2024-06-22 06:03:40 0 收藏

深入解析Apache Hadoop YARN：工作原理与核心组件

YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统中的一个重要组件，用于资源管理和作业调度。它是Hadoop 2.x版本中的一个关键特性，取代了旧版本中的JobTracker和TaskTracker。YARN的设计目标是使Hadoop能够处

overfit同步小助手 2024-06-22 05:03:45 0 收藏

Kafka—ISR机制

ISR机制Kafka 中的 ISR（In-Sync Replicas）机制是一种用于确保数据可靠性和一致性的重要机制。ISR 是一组副本，它包括分区的领导者（Leader）和追随者（Follower）副本，这些副本与领导者保持数据同步。

overfit同步小助手 2024-06-22 03:03:43 0 收藏

Spark on Yarn安装配置

今天我们讲解Spark的安装配置，spark的部署分为两种，一种是Standalone模式，另一种就是on yarn 模式，我们这一节着重讲解on yarn 模式，因为符合生产活动，但也会提到Standalone模式。

overfit同步小助手 2024-06-22 03:03:28 0 收藏

Spark SQL函数详解：案例解析(第8天)

本文主要通过案例解析工作中常用的Spark SQL函数，以及应用场景

overfit同步小助手 2024-06-22 02:03:48 0 收藏

KafkaFlink整合原理与代码实例讲解

Kafka和Flink的整合为实时大数据处理提供了强大的支持。

overfit同步小助手 2024-06-22 02:03:44 0 收藏

【flink实战】flink-connector-mysql-cdc导致mysql连接器报类型转换错误

overfit同步小助手 2024-06-22 01:03:53 0 收藏

Apache Kafka 数据保障机制详解：确保消息传递的可靠与一致性

这些机制紧密协作，共同确保了在复杂的分布式环境下，Kafka 能够提供高效、可靠且一致的消息传递服务，为企业的实时数据处理和流式计算提供了坚实的基础设施支撑。本文将深入剖析 Kafka 如何通过一系列严谨的技术手段，确保消息在生产、存储和消费过程中的数据保障，以满足不同业务场景下对数据完整性和一致性

overfit同步小助手 2024-06-22 01:03:38 0 收藏