大数据 - overfit.cn

初识大数据，一文掌握大数据必备知识文集(3)

Kafka 集群：Kafka 集群由一组 Kafka 节点组成，每个节点都运行着 Kafka 服务器。Kafka 客户端：Kafka 客户端是用来发送和接收消息的应用程序。Kafka 主题：Kafka 主题是一个逻辑上的分区集合，用于存储消息。Kafka 分区：Kafka 分区是一个物理上的文件，用

overfit同步小助手 2024-01-16 14:03:46 0 收藏

【kafka】记录用-----------1

后台同步任务是 Kafka 内部自动管理的，不需要人为干预。Kafka 设计了一些后台任务来确保副本之间的同步和数据的一致性，以提高整个系统的可用性和可靠性。滞后主要指的是追随者在处理消息时相对于领导者的位置较远，即它的日志文件中的消息相对较旧。这是通过追随者的日志文件中的偏移量（offset）来衡

overfit同步小助手 2024-01-16 10:03:28 0 收藏

Zookeeper使用详解

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键

overfit同步小助手 2024-01-16 08:03:35 0 收藏

Ubuntu 环境安装 Kafka、配置运行测试 Kafka 流程笔记

Kafka 是一个由 Apache 软件基金会开发的开源流式处理平台。它被设计用于处理大规模数据流，提供高可靠性、高吞吐量和低延迟的消息传递系统。Kafka 可以用于构建实时数据管道和流式应用程序，让不同应用、系统或者数据源之间能够高效地进行数据交换和通信。消息: Kafka 是基于发布/订阅模式的

overfit同步小助手 2024-01-16 08:03:25 0 收藏

掌握大数据--Hive全面指南

Hive全面指南

overfit同步小助手 2024-01-16 07:03:41 0 收藏

HCIA-Big Data V3.0 华为认证大数据工程师在线课程章节测试题汇总

本文为HCIA-Big Data V3.0华为认证大数据工程师在线课程的章节习题及答案

overfit同步小助手 2024-01-16 06:03:21 0 收藏

Flink源码-Task执行

里面有大约六七十个handler，如果客户端使用fink run的方式来提交一个job，最终会由WebMonitorEndpoint的submitJobHandler来处理。负责接收用户提交的jobGraph，然后启动Jobmaster。Flink集群的资源管理器，关于slot的管理和申请工作都由他

overfit同步小助手 2024-01-16 05:03:17 0 收藏

Hadoop 相关介绍

目录一、Hadoop介绍二、Hadoop 架构1、 Hadoop 1.x 架构2、Hadoop 2.x 3.x 架构三、HDFS介绍1、HDFS架构2、HDFS 特点四、 Hadoop 之 MapReduce 初体验1、使用上述的测试包, 计算圆周率2、使用上述的测试包, 进行词频统计1. Hado

overfit同步小助手 2024-01-16 04:03:42 0 收藏

RabbitMQ 高级

overfit同步小助手 2024-01-16 03:03:46 0 收藏

【Hadoop】

只能包含一个Map阶段和一个Reduce阶段，或者只有Map阶段kv键值对的形式流转。

overfit同步小助手 2024-01-16 02:03:57 0 收藏

RabbitMQ

RabbitMQ 是一个开源的消息代理软件，它实现了高级消息队列协议（AMQP，Advanced Message Queuing Protocol）。它设计用于在分布式系统中传递消息，提供了一种可靠的、异步的通信方式，帮助不同的应用程序或组件之间进行解耦。RabbitMQ 充当消息代理，负责接收、存

overfit同步小助手 2024-01-16 02:03:46 0 收藏

数据仓库基本信息

数据仓库是。

overfit同步小助手 2024-01-16 02:03:40 0 收藏

年终盘点：2023年炙手可热的10家大数据初创公司

大数据初创公司源源不断地开发领先技术来帮助企业访问、收集、管理、移动、转换、分析、理解、测量、治理、维护和保护数据。以下来看看2023年备受关注的十家大数据初创公司。

overfit同步小助手 2024-01-16 00:03:49 0 收藏

关于黑马hive课程案例FineBI中文乱码的解决

关于黑马hive课程案例FineBI中文乱码的解决。

overfit同步小助手 2024-01-16 00:03:29 0 收藏

大数据技术之Hive基础知识及基础操作（一）

一、数据仓库二、数据仓库的体系结构三、Hive简介四、Hive与其他组件关系五、Hive的数据单元六、Hive系统架构概述七、Hive组成模块数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数。据集合，用于支持管理决策。

overfit同步小助手 2024-01-15 22:03:44 0 收藏

【Kafka每日一问】kafka三种压缩方式差别?

根据压缩的特性和业务场景，可以选择最适合的压缩算法。如果需要更快的速度和更少的资源消耗，可以选择 LZ4。：GZIP 压缩比最高，DEFLATE 算法，但压缩和解压缩速度相对较慢；Snappy 压缩比次之，但压缩和解压缩速度非常快；压缩效率：GZIP 压缩效率最高，但需要较高的 CPU 和内存资源；

overfit同步小助手 2024-01-15 21:04:31 0 收藏

Hive常见报错与解决方案

上火山云，大数据组件升级，引发hive各类报错与处理方案。

overfit同步小助手 2024-01-15 21:04:23 0 收藏

为什么 Kafka 这么快？它是如何工作的？

随着数据以指数级的速度流入企业，强大且高性能的消息传递系统至关重要。Apache Kafka 因其速度和可扩展性而成为热门选择，但究竟是什么让它如此之快？在本期中，我们将探讨：Kafka 的架构及其核心组件，如生产者、代理和消费者Kafka 如何优化数据存储和复制这些优化使 Kafka 能够实现令人

overfit同步小助手 2024-01-15 21:04:18 0 收藏

简单讲讲ES在大数据规模下的性能问题与解决方案（一）

众所周知，在处理大规模数据量的时候，我们的传统关系型数据库，例如MySQL，Oracle等...它们对于这些大规模数据的处理与计算是非常吃力的，甚至于在内存资源不足的情况下导致在mysql中查询数据失败的情况，甚至由于数据的规模较大，会消耗更多的磁盘空间，得不偿失。它们都是非关系型数据库，都是以K-

overfit同步小助手 2024-01-15 21:04:15 0 收藏

Spark---RDD算子(单值类型转换算子)

RDD算子是用于对RDD进行转换（Transformation）或行动（Action）操作的方法或函数。转换算子用于从一个RDD生成一个新的RDD，但是原始RDD保持不变。常见的转换算子包括map、filter、flatMap等，它们通过对RDD的每个元素执行相应的操作来生成新的RDD。行动算子触发

overfit同步小助手 2024-01-15 20:05:25 0 收藏