flink on yarn-per job源码解析、flink on k8s介绍

YARN per job模式下用户程序在Client端被执行,Client端即执行flink shell命令的执行节点。Client端主要工作就是将用户写的代码转换为JobGraph,向YARN提交应用以执行JobGraph。PipelineExecutor(YarnJobClusterExecut

Hadoop Delegation Token

hadoop 委托令牌

数据批量操作:如何在HBase中进行批量操作

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、ZooKeeper等其他组件集成。HBase适用于大规模数据存储和实时数据访问场景,如日志记录、实时数据分析、实时数据流处理

Spark-Scala语言实战(9)

今天开始的文章,我会带给大家如何在spark的中使用我们的RDD方法,今天学习RDD方法中的filter,distinct,intersection三种方法,并进行一代。希望我的文章能帮助到大家,也欢迎大家来我的文章下交流讨论,共同进步。

Linux环境搭建Hadoop及完全分布式集群

本人通过学习Hadoop以及搭建Hadoop集群所整理的快速搭建完全分布式集群代码模板

【大数据 - Doris 实践】数据表的基本使用(一):基本概念、创建表

在 Doris 的存储引擎中,用户数据首先被划分成若干个分区(Partition),划分的规则通常是按照用户指定的分区列进行范围划分,比如按时间划分。而在每个分区内,数据被进一步的按照 Hash 的方式分桶,分桶的规则是要找用户指定的分桶列的值进行 Hash 后分桶。每个分桶就是一个数据分片(Tab

Hive SQL必刷练习题:留存率问题(*****)

其实这类问题的关键在于,你要想办法将每个用户的最初登录时间和第二天登录时间这两个信息,放到一行中。这就是先求出来初次登陆时间后,然后借助这个表进行left join,之后再此基础上以最初登录时间进行分组group by,再用聚合函数即可。但是还有一种思路,就是直接进行开窗排序,然后用row_numb

Kafka之offset位移

Kafka中关于 offset 位移的一些 API,包括自动、手动提交,指定 offset 、时间消费

关于Hadoop不得不看的小知识

数字表示 用 3 个数字表示文件或目录的权限,第 1 个数字表示所有者的权限,第 2个 数字表示与所有者同组用户的权限,第 3 个数字表示其他用户的权限。Spark的中心数据存放于内存中,有更高的迭代运算效率,而Hadoop MapReduce每次迭代的中间数据存放在HDFS中,涉及硬盘的读写,运算

spark 搭建 及测试

(1)复制spark-defaults.conf.template,命名为spark-defaults.conf。复制spark-env.sh.template,命名为spark-env.sh。关闭spark集群?cd/usr/local/spark3/sbin/切换到spark的安装目录的sbin

RabbitMQ简单介绍

消息队列是一种在应用程序之间传递消息的通信模式。它提供了一种异步的、可靠的方式来处理分布式系统中的消息传递。在消息队列中,消息发送者(Producer)将消息发送到队列(Queue)中,而消息接收者(Consumer)则从队列中获取消息进行处理。消息队列作为中间件,解耦了消息的发送者和接收者,使它们

RabbitMQ与RocketMQ:消息队列的两大强者对比

在现代分布式系统中,消息队列已成为不可或缺的一部分,它们帮助我们在不同的服务之间实现异步通信、解耦和流量削峰。RabbitMQ是一个开源的消息代理软件,它实现了高级消息队列协议(AMQP),并提供了一套易于使用的API。RocketMQ是阿里巴巴开源的一款分布式消息中间件,它遵循发布-订阅模式,支持

毕业设计 大数据电商用户行为分析及可视化(源码+论文)

今天学长向大家介绍一个机器视觉的毕设项目,大数据电商用户行为分析及可视化(源码+论文)毕业设计 基于大数据淘宝用户行为分析。

我为什么选择大数据和技术人生两三事

程序员这个职业赛道的确如同一座充满未知与奇遇的迷宫,无论你是钟情于前端的绚烂之美,醉心于后端的深沉之力,还是倾慕于数据科学的神秘魅力,都需要我们怀揣热情与勇气。万里归来颜愈少,微笑,笑时犹带岭梅香。试问岭南应不好,却道:此心安处是吾乡。—— 苏轼。

国产化系统操作说明以及各个配置(redis、minio、kafka、mysql)

参考链接https://blog.csdn.net/nexttoparadise/article/details/122679955。#重新加载某个服务的配置文件,如果新安装了一个服务,归属于systemctl 管理,要使新服务的服务程序配置文件生效,需重新加载。3. 表名统一加模式名前缀"D

微服务系统中服务注册与发现Zookeeper的使用

刚才讲要改admin.serverPort端口值为8081,就是为了这里能使用,ZooInspector就是连接这个端口来呈现服务器端的节点数据,在运行ZooInspector在弹出的窗口中输入上面的ip和端口8081,即可查看当前的服务注册情况。Zookeeper可以认为是一个分布式协调服务指挥官

大数据在金融行业的变革:风险管理与金融技术

1.背景介绍大数据技术在过去的几年里已经成为金融行业中最热门的话题之一。随着数据的产生和收集量日益增加,金融机构需要更有效地利用这些数据来提高业务效率、降低风险和提高收益。在这篇文章中,我们将探讨大数据在金融行业中的应用,特别是在风险管理方面的变革。1.1 大数据在金融行业的定义和特点大数据在金融行

云上大数据

非结构化数据需要特殊的技术和工具来进行处理和分析。多样性(Variety):大数据来自多种来源,包括结构化数据(如数据库中的数据)、半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频、视频等)。非结构化数据:社交媒体上的用户评论、推文和帖子内容,这些数据通常包含文本、

消息驱动:如何使用 KafkaTemplate 集成 Kafka?

消息通信机制的整体工作流程如下图所示:消息通信机制示意图上图中位于流程中间的就是各种消息中间件,消息中间件一般提供了消息的发送客户端和接收客户端组件,这些客户端组件会嵌入业务服务中。消息的生产者负责产生消息,在实际业务中一般由业务系统充当生产者;而消息的消费者负责消费消息,在实际业务中一般是后台系统

Hive sql

那么cluster by就是多了一个分组的功能,但是分组和排序的字段只能是1个,而且只能是升序排序。关于相关子查询,其实是这样的,会先执行select A from t1这个操作,也就是先执行父查询这个操作,然后会逐个的到子查询的集合中去检查是否存在这个父查询的数据,如果子查询的集合中存在我这个父查

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈