Hive中的NVL函数与COALESCE函数
说明: COALESCE是一个函数, (v1, v2, …,vn)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。Hive SQL 中的一种聚合函数,它可以返回第一个非空值。功能:如果value为NULL,则NVL函数返回。如果两个参数都为NUL
RabbitMQ的交换机与队列
首先先介绍一个简单的一个消息推送到接收的流程,提供一个简单的图黄色的圈圈就是我们的消息推送服务,将消息推送到 中间方框里面也就是 rabbitMq的服务器,然后经过服务器里面的交换机、队列等各种关系(后面会详细讲)将数据处理入列后,最终右边的蓝色圈圈消费者获取对应监听的消息。
linux安装kafka3.5.2、kafka可视化管理工具kafka-ui-lite
linux安装kafka3.5.2、kafka可视化管理工具kafka-ui-lite。
Kafka客户端工具:Offset Explorer 使用指南
Kafka客户端工具:Offset Explorer 使用指南
Spark运行流程及架构设计
【代码】Spark运行流程及架构设计。
Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数
concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。
Redis第15讲——RedLock、Zookeeper及数据库实现分布式锁
由于篇幅原因,在上篇文章我们只介绍了redis实现分布式锁的两种方式——setnx和Redission,并对Reidssion加锁和看门狗机制的源码进行了分析,但这两种方案在极端情况下都会出现或多或少的问题。那么针对上述问题,比较主流的解决方案有两种:RedLock和Zookeeper实现的分布式锁
孙悟空被压500年也想不出看文档瞬间就会scala和spark以及hadoop
export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop #指定hadoop路径。解压tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src。export HADOOP_HOME
震惊Hadoop伪分布式+spark+scala竟如此简单!
验证hdfs:可以登录浏览器地址:192.168.20.11:50070 (ip地址是master的地址)export JAVA_HOME=/opt/jdk #这里是opt目录。修改 hdfs-site.xml 将dfs.replication设置为1。在最后加上export JAVA_
Flink学习(1):Flink本地模式安装及简单试用
Flink 的本地模式安装及简单试用,基本参照官网教程进行。
ubuntu 部署spark
确保机器能够正常上网。首先下载spark安装包,
Maven 构建 Flink 应用程序的最佳实践(根除各种类冲突/类加载问题)
作为开发者,在构建 Flink 应用程序时的体验真是一言难尽,想必大家都曾遇到过各种 ClassNotFoundException、NoSuchMethodError 以及 Could not find any factory for identifier kafka/jdbc/hive/hudi
毕业设计项目 基于大数据人才岗位数据分析
这里是毕设分享系列,学长分享优质毕业设计项目,今天要分享的是🚩基于大数据人才岗位数据分析毕业设计 基于大数据人才岗位数据分析。
spark错误集锦
spark遇到的错误 持续更新
Flink 部署模式
Flink 是一个多功能框架,以混合搭配的方式支持许多不同的部署场景。
毕设项目 大数据招聘岗位数据分析与可视化
该项目一共分为三个子任务完成,数据采集—数据预处理—数据分析/可视化。项目流程图项目架构图Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比,Flask的灵活性、轻便性和安全性更高,而且容易上手,它可以与MVC模式很好地结合进行开发。Flask也有强大
kafka消费数据,有时消费不到原因?
7:消费者客户端启动后未消费消息:如果发现一个消费者客户端已经启动了,但是就是不消费消息,应该检查该消费者所在的组中是否还有其他的消费者。综上所述,解决Kafka消费数据不到的问题,需要从多个方面进行排查和优化,包括但不限于检查配置、调整生产与消费的速度匹配、提高消费者的处理能力、确保网络稳定以及及
Kafka学习笔记(二、linux和docker安装及使用demo)
第一个总是Kafka Connect进程的配置,包含常见的配置,比如Kafka要连接的代理和数据的序列化格式。这些示例配置文件,包含在Kafka中,使用您之前启动的默认本地集群配置并创建两个连接器:第一个是源连接器,它从输入文件中读取行并将每个行生成到Kafka主题,第二个是接收器连接器,它从Kaf
【hive】transform脚本
和udf差不多的作用,支持用python实现。通过标准输入流从hive读取数据,内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些,只需要上传脚本=>add file加载到分布式缓存=>使用。
FlinkSQL优化器查询重写技术引发UDF翻倍调用问题分析及解决方案
Flink SQL无疑是实时数仓领域一个最耀眼的明星,他对于统一流批一体的设计可谓是居功至伟。鉴于Flink SQL在实时数仓领域的卓越表现,我们很有必要对Flink SQL在ETL场景下的表现要有深刻的理解。本文聚焦于Flink SQL UDF使用场景下由于SQL重写导致UDF翻倍调用的原理分