Spark-Scala语言实战(6)

今天我会给大家带来如何在IDEA中导入jars包,以及使用SparkRDD,并正确使用它们同时也会给大家讲解一道实训题例。希望在本篇文章中,大家有所收获。也欢迎朋友们到评论区下一起交流学习,共同进步。

【年后找工作】Java八股必备知识 -- MQ篇(RabbitMQ)

想要保证发送者一定能把消息发送给RabbitMQ,一种是通过confirm机制,另外一种就是通过事务机制。RabbitMQ的事务机制,允许生产者将一组操作打包成一个原子事务单元,要么全部执行成功,要么全部失败。事务提供了一种确保消息完整性的方法,但需要谨慎使用,因为它们对性能有一定的影响。Rabbi

Spark读写MySQL数据库

使用Spark读写MySQL数据

FlinkSql 窗口函数

以前用的是Grouped Window Functions(分组窗口函数),但是分组窗口函数只支持窗口聚合现在FlinkSql统一都是用的是Windowing TVFs(窗口表值函数),Windowing TVFs更符合 SQL 标准且更加强大,支持window join、Window aggreg

RabbitMQ消息的重复消费问题

消息重复消费是分布式消息传递系统常见的一个问题。:设计消费者的消息处理逻辑,确保即使消息被多次消费也不会对系统造成不良影响。:在消息或处理逻辑中使用唯一标识符,并在消费者中实现去重检查。:通过手动确认(acknowledgment)消息,可以控制消费者何时确认消息,如果处理失败可以选择重新入队或者丢

Flink on Yarn安装配置

Apache Flink,作为一个开源的分布式处理引擎,近年来在大数据处理领域崭露头角,其独特的流处理和批处理一体化模型,使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍,以及他的安装配置。

浅谈 kafka

Kafka传统定义:kafka是一个分布式的基于发布/订阅模式的消息队列。Kafka最新定义:kafka用于构建实时数据处理系统,它具有横向扩展、高可用,速度极快等特点,已经被很多公司使用。

Flink 调度源码分析1:拓扑图创建与提交过程

在Flink中,拓扑图提交过程是将用户编写的数据处理逻辑转换为实际可执行的作业并提交到集群运行的过程。首先,用户编写Flink程序,定义数据源、转换操作和输出目标等。然后,Flink会将这些操作转换为一个有向无环图(DAG),表示数据处理流程。接着,Flink会将DAG图优化并生成作业图,包括任务的

云上大数据初学

大数据的定义是指规模庞大、多样化、高速度的数据集合。与传统的数据不同,大数据以及从中提取的信息可以改变人们的行为和决策。大数据的特点主要有以下几点。第一,大数据的规模庞大。传统数据的收集、处理和存储都需要考虑到计算资源的有限性,但是大数据的规模已经远远超过了传统数据的处理能力。它们可以来自多个来源,

Ubuntu实现Hive与HBase的安装与配置(单机)

大数据作业四,整合了Hive和HBase的Ubuntu单机配置的操作步骤以及常见错误

从零开始手写RPC框架(3)——ZooKeeper入门

ZooKeeper简介 ZooKeeper中的一些概念 ZooKeeper安装与常用命令 常用命令 ZooKeeper Java客户端 Curator入门

Kafka入门及生产者详解

传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管

解析线上HBase集群CPU飙高的原因与解决方案

jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息:所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的

大数据开发(Hadoop面试真题-卷八)

YARN是Apache Hadoop生态系统中的一个集群资源管理器。它的主要目的是管理和分配集群中的资源,并为运行在Hadoop集群上的应用程序提供资源。YARN的架构基于两个主要组件:ResourceManager(资源管理器)和NodeManager(节点管理器)。负责整个集群的资源管理和调度。

Hadoop 专栏

Hadoop 是使用 Java 编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。也是我们最早常用的开源的大数据框架,以至于到现在很多大数据的技术框架底层或者生态都是依赖它的,也是我们学习大数据或者从事互联网的人学习的第一个大数据框架。而且它的思想至今也是很多

Hive3 on Spark3配置

之后,将 HDFS 路径“hdfs://cdh01:8020/spark-jars/*”下的原始 “zstd-jni-1.4.4-3.jar” 删除,并替换为 “zstd-jni-1.4.9-1.jar” 后(如上图所示),经再度测试,该问题就解决了。:Hive既作为存储元数据又负责SQL的解析优化

Spark Map 和 FlatMap 的比较

本节将介绍Spark中map(func)和两个函数的区别和基本使用。

从零开始学习Spark大数据技术与应用

Spark是一种快速、通用、可扩展的大数据分析引擎,项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展

Docker安装部署RabbitMQ(单机版)

p 15672:15672 和 -p 5672:5672: 这两个参数分别将容器内的 RabbitMQ 管理控制台服务端口 15672 和 AMQP 服务端口 5672 映射到主机上,可以通过主机的这两个端口访问 RabbitMQ 服务。-v mq-plugins:/plugins: 这个参数使用了

数据仓库学习笔记三

外部表的真实数据不被Hive管理,即当删除一-张内部表时,元数据以及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。RCFILE遵循“先水平划分,再垂直划分-的设计理念:首先把Hive表水平切分成多个行组,保证同一行的数据位于同一节点, 其次在行组内按照“列”垂直切分,

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈