大数据 - overfit.cn

【大数据】Hadoop学习笔记

Hadoop学习笔记, 包含了HDFS/YARN/MapReduce的学习笔记

overfit同步小助手 2024-07-07 21:03:44 0 收藏

【Kafka系列 04】Kafka 性能调优，怎么做？

通常来说，调优是为了满足系统常见的非功能性需求。在众多的非功能性需求中，性能绝对是我们最关心的那一个。不同的系统对性能有不同的诉求，比如对于数据库用户而言，性能意味着请求的响应时间，用户总是希望查询或更新请求能够被更快地处理完并返回。对 Kafka 而言，性能一般是指和。吞吐量，即TPS，是指 Br

overfit同步小助手 2024-07-07 20:03:48 0 收藏

Hive SchemaTool 命令详解

Hive schematool 是 hive 自带的管理 schema 的相关工具。

overfit同步小助手 2024-07-07 19:03:39 0 收藏

【AI大数据与人工智能】Spark SQL 原理与代码实例讲解

在大数据时代，数据处理和分析成为了一项关键的任务。Apache Spark 作为一个开源的大数据处理框架,凭借其高效的内存计算能力和通用性,已经成为了大数据领域中最受欢迎的技术之一。Spark SQL 作为 Spark 的一个重要模块,为结构化数据处理提供了强大的功能支持。Spark SQL 不仅支

overfit同步小助手 2024-07-07 18:03:44 0 收藏

安装zookeeper

1 //与zoo.cfg配置文件中对应，sdw为server.1，所以该处填写为1。-- 前台启动zk并显示具体报错（若启动zk时报错可使用该方式启动排查问题）1、各主机修改/etc/hosts，/etc/hostname文件。开启zk（注意三个机器都要开启，之后再查看zk状态）3、安装zookee

overfit同步小助手 2024-07-07 18:03:38 0 收藏

Kafka搭建(集群版)

Kafka集群版本搭建(一键启动)

overfit同步小助手 2024-07-07 17:03:46 0 收藏

注册中心不知选哪个？Zookeeper、Eureka、Nacos、Consul和Etcd 5种全方位剖析对比

本文给大家讲解 5 种常用的注册中心，对比其流程和原理，无论是面试还是技术选型，都非常有帮助。对于注册中心，在写这篇文章前，我其实只对 ETCD 有比较深入的了解，但是对于 Zookeeper 和其他的注册中心了解甚少，甚至都没有考虑过 ETCD 和 Zookeeper 是否适合作为注册中心。经过近

overfit同步小助手 2024-07-07 15:03:47 0 收藏

RabbitMQ如何保证消息不丢失

本文将从三个方面详细介绍在使用RabbitMQ时如何确保消息不丢失的方法：1. 持久化机制2. Confirm机制3. 消费者ack

overfit同步小助手 2024-07-07 15:03:40 0 收藏

Hive的一系列启动命令

• 会基于 yarn-site.xml 中配置的 yarn.resourcemanager.hostname 来决定在哪台机器上启动 resourcemanager。• 读取 core-site.xml内容（ fs.defaultFS 项），确认 NameNode所在机器，启动 NameNode。•

overfit同步小助手 2024-07-07 14:03:34 0 收藏

Flink CDC

Flink是一个流处理引擎，Flink CDC是指利用Apache Flink框架来实现数据变更捕获的技术（即用Apache Flink这个流处理框架来实现CDC的技术）。FlinkCDC是一个开源的数据库变更日志捕获和处理框架，它可以实时地从各种数据库(如MySQL、PostgreSQL、Orac

overfit同步小助手 2024-07-07 13:03:43 0 收藏

pandas，polars，pyspark的df对象常见用法对比

pandas，pyspark，polars的常见用法对比，切片筛选分组排序合并连接.....

overfit同步小助手 2024-07-07 11:03:33 0 收藏

使用Spring Cloud与Eureka：实用教程

overfit同步小助手 2024-07-07 10:03:46 0 收藏

kafka单机安装及性能测试

Apache Kafka是一个分布式流处理平台，最初由LinkedIn开发，并于2011年开源，随后成为Apache项目。Kafka的核心概念包括发布-订阅消息系统、持久化日志和流处理平台。它主要用于构建实时数据管道和流处理应用，广泛应用于日志聚合、数据传输、实时监控和分析等场景。Kafka具有高吞

overfit同步小助手 2024-07-07 10:03:30 0 收藏

Asp .Net Core 系列：集成 CAP + RabbitMQ + MySQL（含幂等性）

官网：https://cap.dotnetcore.xyz/事件总线是一种机制，它允许不同的组件彼此通信而不彼此了解。组件可以将事件发送到 Eventbus，而无需知道是谁来接听或有多少其他人来接听。组件也可以侦听 Eventbus 上的事件，而无需知道谁发送了事件。这样，组件可以相互通信而无需相互

overfit同步小助手 2024-07-07 09:03:53 0 收藏

【大数据技术原理与应用（概念、存储、处理、分析与应用）】第2章-大数据处理架构 Hadoop习题与知识回顾

这一章节主要介绍大数据处理架构 Hadoop

overfit同步小助手 2024-07-07 07:03:48 0 收藏

Hadoop 部署

Hadoop部署，一键开启大数据之旅！在几台廉价服务器上，轻松构建高效、可靠、可扩展的分布式计算平台。HDFS存储海量数据，MapReduce加速处理，为数据分析和挖掘提供强大动力。无需深究底层细节，轻松驾驭大数据时代！

overfit同步小助手 2024-07-07 06:03:51 0 收藏

Spark学习3.0

，避免了多次转换操作之间数据同步的等待，而且不用担心有过多的中间数据，因为这些具有血缘关系的操作都管道化了，一个操作得到的结果不需要保存为中间数据，而是直接管道式地流入到下一个操作进行处理。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层数据的分布式特性，只需将具体的

overfit同步小助手 2024-07-07 06:03:25 0 收藏

【实战指南】SpringBoot结合Zookeeper/Nacos构建Dubbo微服务

Nacos整合Dubbo能够提供动态服务发现、配置管理和服务治理，简化了微服务间的通信和管理，提升了开发效率和系统可维护性。而Zookeeper与Dubbo结合，利用其分布式协调服务特性，保证了服务注册与发现的高可用性和一致性，增强了系统的稳定性和故障恢复能力。两者皆为Dubbo生态提供了强大的支撑

overfit同步小助手 2024-07-07 05:03:45 0 收藏

Hadoop 安装与伪分布的搭建

在Hadoop生态系统中，YARN（Yet Another Resource Negotiator）是一个通用的资源管理系统，它不仅可以管理MapReduce作业，还可以支持其他类型的计算框架。Secondary NameNode并不存储集群的实时状态，但它定期合并NameNode的fsimage和

overfit同步小助手 2024-07-06 22:03:32 0 收藏

46道ZooKeeper高频题整理(附答案背诵版)

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Zookeeper的目标就是封装好复杂易出错的关键

overfit同步小助手 2024-07-06 20:03:54 0 收藏