大数据 - overfit.cn

Hive中的NVL函数与COALESCE函数

说明： COALESCE是一个函数， (v1, v2, …,vn)依次参考各参数表达式，遇到非null值即停止并返回该值。如果所有的表达式都是空值，最终将返回一个空值。Hive SQL 中的一种聚合函数，它可以返回第一个非空值。功能：如果value为NULL，则NVL函数返回。如果两个参数都为NUL

overfit同步小助手 2024-05-26 00:03:31 0 收藏

RabbitMQ的交换机与队列

首先先介绍一个简单的一个消息推送到接收的流程，提供一个简单的图黄色的圈圈就是我们的消息推送服务，将消息推送到中间方框里面也就是 rabbitMq的服务器，然后经过服务器里面的交换机、队列等各种关系（后面会详细讲）将数据处理入列后，最终右边的蓝色圈圈消费者获取对应监听的消息。

overfit同步小助手 2024-05-25 23:04:55 0 收藏

linux安装kafka3.5.2、kafka可视化管理工具kafka-ui-lite

linux安装kafka3.5.2、kafka可视化管理工具kafka-ui-lite。

overfit同步小助手 2024-05-25 23:04:48 0 收藏

Kafka客户端工具：Offset Explorer 使用指南

overfit同步小助手 2024-05-25 23:04:42 0 收藏

Spark运行流程及架构设计

【代码】Spark运行流程及架构设计。

overfit同步小助手 2024-05-25 21:04:21 0 收藏

Hive中的CONCAT、CONCAT_WS与COLLECT_SET函数

concat用于连接字符串。concat_ws用于按照指定的分隔符连接字符串。与group by和concat_ws一起使用可以实现"列转行。

overfit同步小助手 2024-05-25 21:04:01 0 收藏

Redis第15讲——RedLock、Zookeeper及数据库实现分布式锁

由于篇幅原因，在上篇文章我们只介绍了redis实现分布式锁的两种方式——setnx和Redission，并对Reidssion加锁和看门狗机制的源码进行了分析，但这两种方案在极端情况下都会出现或多或少的问题。那么针对上述问题，比较主流的解决方案有两种：RedLock和Zookeeper实现的分布式锁

overfit同步小助手 2024-05-25 20:04:37 0 收藏

孙悟空被压500年也想不出看文档瞬间就会scala和spark以及hadoop

export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop #指定hadoop路径。解压tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src。export HADOOP_HOME

overfit同步小助手 2024-05-25 20:04:33 0 收藏

震惊Hadoop伪分布式+spark+scala竟如此简单！

验证hdfs：可以登录浏览器地址：192.168.20.11:50070 （ip地址是master的地址）export JAVA_HOME=/opt/jdk #这里是opt目录。修改 hdfs-site.xml 将dfs.replication设置为1。在最后加上export JAVA_

overfit同步小助手 2024-05-25 20:04:13 0 收藏

Flink学习（1）：Flink本地模式安装及简单试用

Flink 的本地模式安装及简单试用，基本参照官网教程进行。

overfit同步小助手 2024-05-25 19:04:03 0 收藏

ubuntu 部署spark

确保机器能够正常上网。首先下载spark安装包，

overfit同步小助手 2024-05-25 19:03:48 0 收藏

Maven 构建 Flink 应用程序的最佳实践（根除各种类冲突/类加载问题）

作为开发者，在构建 Flink 应用程序时的体验真是一言难尽，想必大家都曾遇到过各种 ClassNotFoundException、NoSuchMethodError 以及 Could not find any factory for identifier kafka/jdbc/hive/hudi

overfit同步小助手 2024-05-25 19:03:36 0 收藏

毕业设计项目基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析。

overfit同步小助手 2024-05-25 18:04:01 0 收藏

spark错误集锦

spark遇到的错误持续更新

overfit同步小助手 2024-05-25 18:03:43 0 收藏

Flink 部署模式

Flink 是一个多功能框架，以混合搭配的方式支持许多不同的部署场景。

overfit同步小助手 2024-05-25 18:03:27 0 收藏

毕设项目大数据招聘岗位数据分析与可视化

该项目一共分为三个子任务完成，数据采集—数据预处理—数据分析/可视化。项目流程图项目架构图Flask是一个基于Werkzeug和Jinja2的轻量级Web应用程序框架。与其他同类型框架相比，Flask的灵活性、轻便性和安全性更高，而且容易上手，它可以与MVC模式很好地结合进行开发。Flask也有强大

overfit同步小助手 2024-05-25 17:04:04 0 收藏

kafka消费数据，有时消费不到原因？

7：消费者客户端启动后未消费消息：如果发现一个消费者客户端已经启动了，但是就是不消费消息，应该检查该消费者所在的组中是否还有其他的消费者。综上所述，解决Kafka消费数据不到的问题，需要从多个方面进行排查和优化，包括但不限于检查配置、调整生产与消费的速度匹配、提高消费者的处理能力、确保网络稳定以及及

overfit同步小助手 2024-05-25 17:03:47 0 收藏

Kafka学习笔记（二、linux和docker安装及使用demo）

第一个总是Kafka Connect进程的配置，包含常见的配置，比如Kafka要连接的代理和数据的序列化格式。这些示例配置文件，包含在Kafka中，使用您之前启动的默认本地集群配置并创建两个连接器:第一个是源连接器，它从输入文件中读取行并将每个行生成到Kafka主题，第二个是接收器连接器，它从Kaf

overfit同步小助手 2024-05-25 17:03:35 0 收藏

【hive】transform脚本

和udf差不多的作用，支持用python实现。通过标准输入流从hive读取数据，内部处理完再通过标准输出流将处理结果返回给hive。实现流程上比udf要更简单灵活一些，只需要上传脚本=>add file加载到分布式缓存=>使用。

overfit同步小助手 2024-05-25 17:03:31 0 收藏

FlinkSQL优化器查询重写技术引发UDF翻倍调用问题分析及解决方案

Flink SQL无疑是实时数仓领域一个最耀眼的明星，他对于统一流批一体的设计可谓是居功至伟。鉴于Flink SQL在实时数仓领域的卓越表现，我们很有必要对Flink SQL在ETL场景下的表现要有深刻的理解。本文聚焦于Flink SQL UDF使用场景下由于SQL重写导致UDF翻倍调用的原理分

overfit同步小助手 2024-05-25 16:04:08 0 收藏