大数据 - overfit.cn

Docker—共享应用程序

overfit同步小助手 2023-12-25 21:03:40 0 收藏

rabbitMQ发布确认-交换机不存在或者无法抵达队列的缓存处理

rabbitMQ在发送消息时，会出现交换机不存在（交换机名字写错等消息），这种情况如何会退给生产者重新处理？【交换机层】生产者发送消息时，消息未送达到指定的队列，如何消息回退？

overfit同步小助手 2023-12-25 20:03:57 0 收藏

理解 Spark 写入 API 的数据处理能力

这张图解释了 Apache Spark DataFrame 写入 API 的流程。它始于对写入数据的 API 调用，支持的格式包括 CSV、JSON 或 Parquet。流程根据选择的保存模式（追加、覆盖、忽略或报错）而分岔。每种模式执行必要的检查和操作，例如分区和数据写入处理。流程以数据的最终写入

overfit同步小助手 2023-12-25 19:03:43 0 收藏

Kafka常见面试问题

Apache Kafka是一种分布式流处理平台，它使用分布式复制协议来实现高可用性和容错性。在Kafka中，每个主题（topic）都有一个或多个分区（partition），每个分区都有一组副本（replica），其中一个是主副本（leader），其余的是从副本（follower）。主副本负责处理来自

overfit同步小助手 2023-12-25 17:03:47 0 收藏

7. Hive解析JSON字符串、JSON数组

说明：将字符串A中符合 java正则表达式B 的部分替换为C。注意，在有些情况下要使用转义字符，类似oracle中的regexp_replace函数。解析出其中的website、name。当我们数据的结构如下，我们想要获取的数据为，

overfit同步小助手 2023-12-25 17:03:44 0 收藏

PySpark中DataFrame的join操作

常见的类型有 “inner”, “outer”, “left_outer”, “right_outer”, “leftsemi”。在进行 JOIN 操作时，如果两个 DataFrame 有相同的列名，可能需要使用别名（alias）来避免列名冲突。on 参数是一个字符串（单列名）或一个列表（多列名）或

overfit同步小助手 2023-12-25 17:03:40 0 收藏

HBase之HBCK2

hbase集群修复工具

overfit同步小助手 2023-12-25 17:03:16 0 收藏

Kafka--从Zookeeper数据理解Kafka集群工作机制

Kafka其实天生就是为了集群而生，即使单个节点运行Kafka，他其实也是作为一个集群运行的。而Kafka为了保证在各种网络抽风，服务器不稳定等复杂情况下，保证集群的高性能，高可用，高可扩展三高，做了非常多的设计。而这一章节，其实是从可见的Zookeeper注册信息为入口，理解Kafka的核心集

overfit同步小助手 2023-12-25 16:03:15 0 收藏

五、Eureka服务注册、续约、剔除、下线源码分析

总结：当 eureka 启动的时候，会向我们指定的 serviceUrl 发送请求，把自己节点的数据以post请求的方式，数据以json 形式发送过去。当返回的状态码为 204 的时候，表示注册成功。重要的类：DiscoveryClient 里面的 register()方法完后注册的总体构造Abst

overfit同步小助手 2023-12-25 15:03:46 0 收藏

Hadoop集群搭建详细步骤(只有JDK和Hadoop)

Hadoop集群搭建详细步骤，跟着尚硅谷做的，直接用root用户也可以

overfit同步小助手 2023-12-25 15:03:16 0 收藏

SpringBoot 2.2.5 整合RabbitMQ，实现Topic主题模式的消息发送及消费

【代码】SpringBoot 2.2.5 整合RabbitMQ，实现Topic主题模式的消息发送及消费。

overfit同步小助手 2023-12-25 13:03:24 0 收藏

【Hadoop】执行start-dfs.sh启动hadoop集群时，datenode没有启动怎么办

执行start-dfs.sh后，datenode没有启动，很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令（hdfs namenode -format)，这时主节点namenode的clusterID会重新生成，而从节点datanode的clusterID 保持不变。打开name目录

overfit同步小助手 2023-12-25 13:03:21 0 收藏

Spring Boot 整合kafka：生产者ack机制和消费者AckMode消费模式、手动提交ACK

kafka生产者ack机制和消费者AckMode消费模式、手动提交ACK

overfit同步小助手 2023-12-25 12:03:35 0 收藏

GoLong的学习之路，进阶，RabbitMQ （消息队列）

快有一周没有写博客了。前面几天正在做项目。正好，项目中需要MQ（消息队列），这里我就补充一下我对mq的理解。其实在学习java中的时候，自己也仿照RabbitMQ自己实现了一个单机的mq，但是mq其中一个特点也就是，分布式我在项目中没有涉及。这里我用go语言将RabbitMQ的操作进行一次整理。

overfit同步小助手 2023-12-25 10:03:48 0 收藏

Flink 数据序列化

大家都应该清楚Task和StreamTask两个概念，Task是直接受TaskManager管理和调度的，而Task又会调用StreamTask，而StreamTask中真正封装了算子的处理逻辑。在run()方法中，首先将反序列化后的数据封装成StreamRecord交给算子处理；然后将处理结果通过

overfit同步小助手 2023-12-25 08:03:19 0 收藏

元数据管理-Atlas的介绍和使用(集成Hive、Solr、Kafka、Kerberos)

概述介绍架构发展架构原理类型系统介绍类型hive_table类型介绍DataSet类型定义Asset类型定义Referenceable类型定义Process类型定义Entities(实体)Attributes(属性)安装安装环境准备安装Solr-7.7.3安装Atlas2.1.0Atlas配置Atl

overfit同步小助手 2023-12-25 07:03:47 0 收藏

Java - RabbitMq的安装&使用

手动ACK：当消息成功后，需要手动ACK响应mq服务器，否则在连接未断开前，一直是unacked状态，不会重新分配消费者，直到连接断开才会回到ready状态，并重新分配消费者。如果ack失败，在RabbitMQ将消息交给其他的消费者时，先执行setnx，如果key已经存在，获取他的值，如果是0，当前

overfit同步小助手 2023-12-25 07:03:37 0 收藏

【大数据】Hive入门➕安装（尚硅谷大数据Hive 3.1.3教程）

hive尚硅谷面试刷题网站✍命令行客户端beeline是Apache Hive提供的一个交互式工具，用于与Hive进行交互式的数据库操作和查询。具体来说，beeline允许用户通过命令行界面连接到Hive服务器，并在该界面下执行Hive SQL语句、查看查询结果、管理数据库和表等。连接到Hive服务

overfit同步小助手 2023-12-25 04:03:31 0 收藏

HiveServer2 常见异常和处理方法

HiveServer2 常见的3种异常和处理方案

overfit同步小助手 2023-12-25 03:03:48 0 收藏

Linux环境下RabbitMQ的安装(手把手教你安装与配置)

Linux下,rabbitmq的安装与配置

overfit同步小助手 2023-12-25 03:03:45 0 收藏