大数据 - overfit.cn

Spark

Spark知识点

overfit同步小助手 2023-08-26 19:04:31 0 收藏

RabbitMQ ---- 消息队列

MQ(message queue)，从字面意思上看，本质是个队列，FIFO 先入先出，只不过队列中存放的内容是message 而已，还是一种跨进程的通信机制，用于上下游传递消息。在互联网架构中，MQ 是一种非常常见的上下游“逻辑解耦+物理解耦”的消息通信服务。使用了 MQ 之后，消息发送上游只需要依

overfit同步小助手 2023-08-26 18:04:00 0 收藏

RabbitMQ 和 Kafka的区别比较

关于Rabbitmq和kafka的特点比较，可以说这是一道老生常谈的面试题了，今天耀哥也来回答一下。废话少说，我们直接来看RabbitMQ和Kafka各自的特点及区别到底有哪些。

overfit同步小助手 2023-08-26 17:03:39 0 收藏

【Java/大数据】Kafka简介

主要内容是kafka的原理和使用参考。

overfit同步小助手 2023-08-26 14:04:26 0 收藏

6.EFLFK(EFLK+kafka)

Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目Zookeeper 工作机制Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就

overfit同步小助手 2023-08-26 13:04:12 0 收藏

[数据存储]HDFS的简介、初始化配置与运行

HDFS（Hadoop Distributed File System）Hadoop分布式文件系统，是Hadoop项目中关于数据存储的组件，是Hadoop项目的一部分。

overfit同步小助手 2023-08-26 13:04:00 0 收藏

Seatunnel实战：hive_to_starrocks

本篇文章带大家了解使用Seatunnel将Hive中的数据导入到StarRocks中。

overfit同步小助手 2023-08-26 12:04:19 0 收藏

二、Kafka生产与消费全流程

代码见：代码中使用到了自定义序列化。id的长度4个字节，字符串的长度描述4个字节，字符串本身的长度nameSize个字节自定义序列化容易导致程序的脆弱性。举例，在我们上面的实现里，我们有多种类型的消费者，每个消费者对实体字段都有各自的需求，比如，有的将字段变更为long型，有的会增加字段，这样会出

overfit同步小助手 2023-08-26 11:04:37 0 收藏

大数据场景下clickhouse查询时长优化sop

3.join查询 1）左大右小（在join的时候右表会被全部加载到内存中和左表比较） 2)谓词下推 3）避免多表join 4）global join （global关键字可以使右表只在接收查询请求的那个节点查询一次，将其分发到其他节点上，如果不加的话每个节点都会请求一次，造成很大的开销）为了提高查询

overfit同步小助手 2023-08-26 11:04:21 0 收藏

Apache Kafka Learning

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以收集并处理用户在网站中的所有动作流数据以及物联网设备的采样信息。Apache Kafka是Apache软件基金会的开源的流处理平台，该平台提供了消息的订阅

overfit同步小助手 2023-08-26 09:03:59 0 收藏

在Ubuntu上安装和设置RabbitMQ服务器，轻松实现外部远程访问

RabbitMQ是一个在 AMQP(高级消息队列协议)基础上完成的，可复用的企业消息系统，是当前最主流的消息中间件之一。由erlang开发的AMQP（Advanced Message Queue 高级消息队列协议）的开源实现，由于erlang 语言的高并发特性，性能较好，本质是个队列，FIFO 先

overfit同步小助手 2023-08-26 08:04:08 0 收藏

大数据面试题：Kafka的单播和多播

overfit同步小助手 2023-08-26 07:04:15 0 收藏

Kafka高性能集群部署与优化

Kafka是由Apache Software Foundation开发的一个分布式流处理平台，源代码以Scala编写。Kafka最初是由LinkedIn公司开发的，于2011年成为Apache的顶级项目之一。高吞吐量：Kafka每秒可以处理数百万条消息。持久化：数据存储在硬盘上，支持数据可靠性和持久

overfit同步小助手 2023-08-26 07:04:01 0 收藏

CentOS7 OpenSearch2.6单机安装

一、安装OpenSearch1. 下载二进制软件包，下载地址如下： https://opensearch.org/downloads.html # 软件包 opensearch-2.6.0-linux-x64.tar.gz二、安装OpenSearch Dashboards

overfit同步小助手 2023-08-26 06:04:23 0 收藏

利用logstash/filebeat/插件，将graylog日志传输到kafka中

在System-outputs，选择GELF Output，填写如下内容，其它选项默认。也可以使用filebeat将日志转发到kafka中，原理一样。在要输出的Stream中，选择Manage Outputs。选择GELF Output，右边选择刚才创建好的test。上传到服务器，编写test.co

overfit同步小助手 2023-08-26 05:04:15 0 收藏

Hadoop中命令检查hdfs的文件是否存在

示例中，使用hadoop fs -test -e命令检查/user/hadoop/myfile.txt文件是否存在。接着，通过检查命令的返回值来确定文件的存在与否。如果文件存在，命令返回0；如果文件不存在，命令返回非0值。其中，是要检查的HDFS文件的路径。

overfit同步小助手 2023-08-26 05:03:54 0 收藏

ZooKeeper客户端使用与经典应用场景

overfit同步小助手 2023-08-26 03:04:11 0 收藏

Spring Boot 中的 RabbitMQ 是什么，如何使用

本文介绍了 RabbitMQ 的基本概念，以及如何在 Spring Boot 中使用 RabbitMQ。我们还介绍了 RabbitMQ 的一些高级功能，包括消息确认、消息持久化、消息 TTL 和死信队列。通过学习本文，你应该已经有了足够的知识来开始在 Spring Boot 中使用 RabbitMQ

overfit同步小助手 2023-08-26 03:04:01 0 收藏

rabbitMQ服务自动停止（已解决

自己去rabbitmq_server-3.7.5文件夹下创建一个data，再执行这个命令（用自己的目录哈。在rabbitmq的sbin目录下操作。

overfit同步小助手 2023-08-26 02:04:05 0 收藏

Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

NameNode根据一定的策略选择可用的DataNode，并为文件的每个数据块分配一个主节点（Primary DataNode）和多个副本节点（Replica DataNode），NameNode返回文件的数据节点列表给客户端。5、客户端根据数据节点列表，将数据切分成数据块，并按照指定的策略将这些数

overfit同步小助手 2023-08-26 01:04:26 0 收藏