Spark基础知识

Apache Spark是用于大数据处理的统一分析引擎;

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署Hadoop HA的过程时,当进行到hdfs namenode -format格式化这一步骤时显示查阅多篇文章分析可知其原因是节点之间无法通信,所以无法建立连接。

Flink 维表关联方案

Flink 维表关联方案

Hive内核调优(一)

注:CPU时间:表示运行程序所占用服务器CPU资源的时间。用户等待耗时:记录的是用户从提交作业到返回结果期间用户等待的所有时间。

Structured Streaming: Apache Spark的流处理引擎

Structured Streaming简介

消息队列zookeeper集群+kafka

可恢复性:系统当中的有一部分组件小时,不影响整个系统,也就是消息队列当中,即使一个处理消息的进程失败,一旦恢复还可以重新加入到队列当中继续处理消息。经纪人:broker每个kafka节点都有一个 borker,每个负责一台kafka,id唯一,存储主题分区当中数据,处理生产和消费者的请求,B启动,在

Flink-SQL join 优化 -- MiniBatch + local-global

Flink-SQL 在多流join时,若数据过多,既会增加内存开销,也会导致container超时,checkpoint失败,因此要尽量减少参与计算数据量,优化聚合算子

CentOS7安装Zookeeper分布式集群

集群规模较小时,分发和打包的操作可以手动在每个节点一步一步的操作,但当集群的节点规模成百上千时,显然需要一种批量操作的方式,下面代码块中的for循环语句就是用于批量处理的。的文本文件,其内容为Zookeeper集群中节点的id,例如令host01、host02、host03对应的myid依次为1、2

SpringCloud之Eureka注册中心解读

​ Eureka 又称 服务注册中心,全部服务都需要进行注册才能使用,也是微服务架构中必不可少的一个组件。Spring Cloud 封装了 Netflix 公司开发的 Eureka 模块来实现服务治理 在传统的rpc远程调用框架中,管理每个服务与服务之间依赖关系比较复杂,管理比较复杂,所

SpringCloud之Eureka 服务注册中心

Eureka 服务注册中心

2024 .1.7 Day05_Spark_HomeWork; Spark_SQL

需要手动指定schema信息.如果手动指定的时候,名称字段与json中的key名称不一致,会解析不成功, 以null值填充。csv/json中schema的结构,如果是字符串类型,那么字段名称和字段数据类型间,只能以空格分隔。1. Sparksql是基于内存计算 , Hivesql底层是运行在Mr上

RayOnSpark 快速入门

在本指南中,我们将通过两个简单的步骤来描述如何使用 RayOnSpark 直接在大数据集群上运行 Ray 程序。

大数据OLAP引擎发展原因及特性分析

大数据OLAP分析能力,纯计算的有:MapReduce、SparkSql、FlinkSql,这些都是可以灵活构建在存储系统之上,拥有数据处理和分析能力;存算嵌合的组件有:Hive、Impala、Druid、kylin、ES、ClickHouse、Doris,这些都具备OLAP分析能力,实时分析还拥有

智能算法实现PID智能车控制系统

本文选择了内模控制方法进行主要研究根据等效反馈结构,将内模控制方法引入 PID控制器的设计,得到PID参数的明确解析结果。针对典型的工业过程控制对象(一阶和二阶纯滞后过程)根据内模控制原理提出了一种 PID控制器参数整定的新方法针对一类不稳定时滞过程,采用双环控制结构,首先选取P控制器参数,使得广义

共享单车之数据分析-统计共享单车每天的平均使用时间

任务描述本关任务:使用的对已经存在 Hbase 的共享单车运行数据进行分析,统计共享单车每天的平均使用时间,其中共享单车运行数据在的表中(表结构可在编程要求中进行查看)。相关知识为了完成本关任务,你需要掌握:如何配置的类是运行在上的一个并行计算框架,分为节点和节点。提供了的和两个方法来完成的配置。i

RabbitMq整合Springboot超全实战案例+图文演示+源码自取

RabbitMQ是一种开源的消息队列软件,它实现了高级消息队列协议(AMQP),提供了可靠的消息传递机制以及支持分布式应用程序之间的通信。RabbitMQ支持多种编程语言,如Java、Python、Ruby、PHP等等,并且可以在不同的操作系统上运行,如Windows、Linux、Mac OS等。

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

全文链接:分析师:Enno案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。由于案例公司商业模式类似新零售,或者说有向此方向发展利好的趋势,所以本次基于利于公司经营与发展的方向进行数据分析。用

详解Kafka 复制与副本机制

Apache Kafka 是一个高度可扩展、分布式的消息系统,适用于大规模数据流处理和事件驱动的应用程序。在本文中,我们将深入探讨 Kafka 的复制与副本机制,包括副本同步、复制架构和 ISR(In-Sync Replicas)概念以及分析 Kafka 中的副本管理,以确保 Kafka 的可靠性和

分布式消息队列:Kafka vs RabbitMQ vs ActiveMQ

1.背景介绍在现代分布式系统中,消息队列是一种常见的异步通信模式,它可以帮助系统处理高并发、高可用性以及容错等问题。在这篇文章中,我们将深入探讨三种流行的分布式消息队列:Apache Kafka、RabbitMQ和ActiveMQ。我们将讨论它们的核心概念、算法原理、特点以及使用场景。1.1 背景

SpringBoot 集成 Kafka (SSL证书)

SpringBoot 集成 Kafka (SSL证书)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈