从零开始手写RPC框架(3)——ZooKeeper入门

ZooKeeper简介 ZooKeeper中的一些概念 ZooKeeper安装与常用命令 常用命令 ZooKeeper Java客户端 Curator入门

Kafka入门及生产者详解

传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管

Hadoop 专栏

Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架,以至于到现在很多大数据的技术框架底层或者生态都是依赖它的,也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多

Spark Map 和 FlatMap 的比较

本节将介绍Spark中map(func)和两个函数的区别和基本使用。

从零开始学习Spark大数据技术与应用

Spark是一种快速、通用、可扩展的大数据分析引擎,项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展

kafka-eagle 配置文件修改使用自带的数据库

efak.password=t密码。

Pulsar 社区周报 | No.2024.03.08 Pulsar-Spark Connector 助力实时计算

关于ApachePulsarApache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。Gi

Leo赠书活动-21期 《一篇讲明白 Hadoop 生态的三大部件》

进入大数据阶段就意味着进入NoSQL阶段,更多的是面向OLAP场景,即数据仓库、BI应用等。大数据技术的发展并不是偶然的,它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳定但价格较为昂贵的小型机、一体机或者PC服务器等,扩展性相对较差;而大数据计算框架可以基于

Spark实战-基于Spark日志清洗与数据统计以及Zeppelin使用

基于spark的数据清洗与统计,以及Zeppelin的配置与使用

基于 Spark 的电商用户行为分析系统

基于Spark的电商用户行为数据分析

【RabbitMQ | 第二篇】RabbitMQ基本使用

RabbitMQ基本使用篇文章介绍了RabbitMQ的核心概念(生产者消费者、交换机、消息队列、消息中间件的服务节点、以及交换机类型:fanout广播、direct:bindingdkey与routingkey相同)、topic:更灵活的匹配规则、AMQP介绍、以及死信队列的介绍,导致死信消息的原因

Spark---创建DataFrame的方式

5、DataFrame是一个Row类型的RDD,df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时,表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists:如果存在就报错。1、

Spark_spark shell退出方式

本文介绍了四种退出Spark Shell的方式:使用退出命令、使用Ctrl+D组合键、使用系统命令和结束Shell进程。这些方式都可以有效地退出Spark Shell,并释放资源。在使用Spark Shell时,我们可以根据实际需求选择合适的退出方式。遵循良好的退出习惯,可以提高工作效率,同时避免资

Kafka

数据传输的事务定义通常有以下三种级别:(1)最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输(2)最少一次: 消息不会被漏发送,最少被传输一次,但也有可能被重复传输.(3)精确的一次(Exactly once): 不会漏传输也不会重复传输,每个消息都传输被一次而且仅仅被传输一次,

Spark搭建日志,记录一些踩过的坑

本文记录在搭建hadoop与Spark的standalone模式中踩过的坑,有一定的借鉴作用

java分布式面试快问快答

Java分布式开发涉及到Dubbo、Redis、Zookeeper等技术,这些技术在实际工作中扮演着重要角色。以下是50道Java分布式面试题,涵盖了Dubbo、Redis、Zookeeper等方面的知识点,希望对大家的面试准备有所帮助。

Kafka MQ 生产者

Kafka MQ 生产者

MQ(Rabbit MQ)基础知识

普通集群:多个服务共享 交换机、队列等元信息,但是不共享队列中存储的数据,而是其它服务保存指向存有真实数据队列的地址, 在保存或访问数据,访问节点中没有真实数据,会将信息转发到有真是信息的节点保存或获取数据,如果真实保存数据的节点宕机了,就无法保存获取数据了。消息消费者怎么知道去那个队列拿信息?死信

kafka(三)——librdkafka编译与使用(c++)

依赖库直接下载源码编译即可。生成c和c++动态库。

Spark概述

结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。5.MapReduce和Spark的区别(1)Spark的速度比MapReduce

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈