spark-udf函数

from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user

Hive HWI 配置

1、下载安装好hive后,发现hive有hwi界面功能,研究下是否可以运行,于是使用hive –service hwi命令启动hwi界面报错。启动hwi功能2、访问192.168.126.110:9999/hwi,发现访问错误一、HWI介绍HWI)是Hive-2-1版本之前的源码中提供的网页控制台工

zookeeper 常见客户端介绍和使用 zkCli、自带API、 zkClient、Curator

Zookeeper的基本客户端使用,包括自带的控制台、自带的API、第三方API例如zkClient、Curator等

Hive表操作

external , 创建外部表partitioned by,分区表clustered by , 分桶表stored as , 存储格式location , 存储位置2.数据类型分类类型描述字面量示例原始类型TINYINT1字节的有符号整数 -128~1271YSMALLINT2字节的有符号整数 -

大数据英文考试复习——第一章(了解大数据)

相关数据的集合或者组称为数据集analysis译为“数据分析”是通过检查数据来发现事实、关系、模式、见解、趋势等的过程,analysis的总体目标是支持更好的决策analytics与analysis同译为“数据分析”,但analytics是更广泛的术语,包括对完整数据生命周期的管理,包括收集、清理、

Hive行转列[一行拆分成多行/一列拆分成多列]

hive有张表armmttxn_tmp,其中有一个字段lot_number,该字段以逗号分隔开多个值,每个值又以冒号来分割料号和数量,如:A3220089:-40,A3220090:-40,A3220091:-40,A3220083:-40,A3220087:-40,A3220086:-40,A32

SpringBoot 整合 RabbitMQ

当我们在构建分布式系统时,消息队列成为了一个不可或缺的组件,用于解耦系统中的不同部分,提高系统的可靠性和可扩展性。Spring Boot 提供了良好的支持,使得与消息队列的集成变得相对简单。在本篇博客中,我们将讨论如何使用 Spring Boot 整合 RabbitMQ,一个功能强大的开源消息代理。

Kafka(二)【文件存储机制 & 生产者】

Kafka 文件存储机制、生产者发送数据、分区、数据的容错与一致性保证

【史上最细教程】CentOS7 下载安装 RabbitMQ(两种方式:手动安装 / Docker安装)

CentOS7 下载安装 RabbitMQ(两种方式:手动安装 / Docker安装)

kafka处理大量消息积压tips —— 筑梦之路

场景:1. 如果是Kafka消费能力不足,则可以考虑增加 topic 的 partition 的个数,同时提升消费者组的消费者数量,消费数 = 分区数 (二者缺一不可)2. 若是下游数据处理不及时,则提高每批次拉取的数量。批次拉取数量过少(拉取数据/处理时间 < 生产速度),使处理的数据小于生产的数

阿里技术官亲笔:Kafka限量笔记,一本书掌握Kafka的精髓

我们常常仰望那些大厂的大神们,但要知道,他们也不过是平凡的人,只是比菜鸟程序员多付出了几分心思。如果你不努力,差距只会越拉越大。作为程序员,充实自己的知识和技能是至关重要的。在我看来,付出的努力和回报是成正比的。学习Kafka并不难,这份Kafka限量笔记的内容将会对你的学习大有裨益。如果你想要这份

深入理解 Flink(三)Flink 内核基础设施源码级原理详解

本章节主要介绍了 Flink 的通信框架 akka、Flink on YARN 的三种部署模式、Flink 高可用服务、Flink 文件服务 BlobService。读者可从中进一步了解到 Flink 的工作原理与设计哲学,无论从事 Flink 开发、应用、维护,还是其他分布式系统的设计,均会有启发

RabbitMQ扩展

在当今的分布式系统和微服务架构中,消息队列扮演着至关重要的角色。而 RabbitMQ 作为一款强大而灵活的消息队列中间件,以其高级特性、死信队列和延迟队列等功能,成为了许多企业和开发人员的首选。在这篇博客中,我们将深入探讨 RabbitMQ 的一些高级特性,如消息优先级、持久性、队列和交换器的绑定、

Flink实时写入Apache Doris如何保证高吞吐和低延迟

随着实时分析需求的不断增加,数据的时效性对于企业的精细化运营越来越重要。借助海量数据,实时数仓在有效挖掘有价值信息、快速获取数据反馈、帮助企业更快决策、更好的产品迭代等方面发挥着不可替代的作用。在这种情况下,Apache Doris 作为一个实时 MPP 分析数据库脱颖而出,它具有高性能和易用性,并

RabbitMQ 学习笔记

Fanout 扇形,散开的;扇形交换机投递到所有绑定的队列,不需要路由键,不需要进行路由键的匹配,相当于广播、群发。

【flink番外篇】9、Flink Table API 支持的操作示例(8)- 时态表的join(scala版本)

系统介绍某一知识点,并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分,比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

Spark二、Spark技术栈之Spark Core

spark核心:包括RDD、RDD算子、RDD的持久化/缓存、累加器和广播变量。

Java技术栈 —— Hadoop入门(一)

Java技术栈 —— Hadoop入门(一)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈