Docker安装与完全卸载(这一篇绝对够用)
这个命令会停止所有容器,包括正在运行的容器和已经停止的容器。
Hive-安装与配置(1)
Hive在Hadoop生态系统中运行,依赖Hadoop分布式文件系统(HDFS)和YARN资源管理器。元数据存储:Hive使用关系型数据库(如MySQL、Derby等)来存储元数据,包括表的结构、分区信息、数据位置等。Hive服务:Hive提供Hive CLI(命令行界面)和HiveServer2两
2023_Spark_实验五:Scala面向对象部分演示(一)(IDEA开发)
基于Idea,Scala面向对象部分演示(一),讲解面向对象中的三大特征:封装、继承、多态。类的定义。
ES-ElasticSearch查询命令
根据条件查询符合标准的doc文档,需要使用更进阶的查询方式,在ES中一般采用请求体格式通过**_search**来进行查询,query子句主要用于编写查询条件,类似SQL中的where语句。
大数据Flink(七十四):SQL的滑动窗口(HOP)
与滚动窗口功能一样,也有窗口大小的概念。不一样的地方在于,滑动窗口有另一个参数控制窗口计算的频率(滑动窗口滑动的步长)。因此,如果滑动的步长小于窗口大小,则滑动窗口之间每个窗口是可以重叠。这样,每 5 分钟会划分一次窗口,这个窗口包含的数据是过去 10 分钟内的数据,如下图所示。:比如计算同时在线的
Hadoop格式化时报错,已解决!
Re-format filesystem in Storage Directory root= /usr/local/hadoop/tmp/dfs/name; location= null ? (Y or N) Y
【大数据】Flink 详解(六):源码篇 Ⅰ
PipeExecutor在 Flink 中被叫做流水线执行器,它是一个接口,是Flink Client生成 JobGraph 之后,将作业提交给集群的重要环节。前面说过,作业提交到集群有好几种方式,最常用的是yarn方式,yarn方式包含3种提交模式,主要使用session模式,per-job模式。
Beyond Big Data: New Applications in the Age of 5G and
作者:禅与计算机程序设计艺术 1.简介随着经济、科技和社会的快速发展,信息技术正在改变我们的生活。从20世纪70年代开始,大数据技术已经成为热门话题。基于大数据的应用如搜索引擎、推荐系统、图像识别、地图导航等已经发展出一批商业化产品。但在最近几年里,随着5G网络
数据仓库的可视化和报告
作者:禅与计算机程序设计艺术 1.简介数据分析过程中,通常会生成海量的数据,这些数据需要通过数据仓库进行存储、清洗、统计、整合等过程后才能用于数据分析。在数据仓库中,往往会存在大量的多维数据表,对于数据的快速查询、分析、报表等需求,数据可视化是关键。数据可视化可
SparkLauncher提交spark 正确的退出方式以及状态获取
SparkLauncher 提交 Spark任务,使用CountDownLatch获取任务状态,出现状态获取不准确问题,spark任务是失败的,但是返回成功。
hive 架构及 metastore 功能简单介绍
hive 内部执行过程以及 Metastore 的作用。
Elasticsearch 集成--Flink 框架集成
是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。掀开了内存计算的先河,以内存作为赌注,赢得了内存计算的飞速发展。但是在其火热的同时,开发人员发现,在Spark中,计算框架普遍存在的缺点和不足依然没有完全解决,而这些问题随着5G时代的来临以及决策者对实时数据分析结果的迫切需要而凸显的更加明显:
流数据湖平台Apache Paimon(三)Flink进阶使用
默认情况下,不仅checkpoint会导致文件生成,writer的内存(write-buffer-size)耗尽也会将数据flush到DFS并生成相应的文件。稍后可能会发生异步Compaction,CompactManager 生成的提交表包含有关先前文件和合并文件的信息,以便 Committer
大数据-玩转数据-Flink 网站UV统计
在实际应用中,我们往往会关注,到底有多少不同的用户访问了网站,所以另外一个统计流量的重要指标是网站的独立访客数(Unique Visitor,UV)。对于UserBehavior数据源来说,我们直接可以根据userId来区分不同的用户。将userid放到SET集合里面,统计集合长度,便可以统计到网站
Sparkthrift Server 启动命令调优及问题报错解决
文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase sp
使用 Apache SeaTunnel 实现 Kafka Source 解析复杂Json 案例
近些时间,我们正好接手一个数据集成项目,数据上游方是给我们投递到Kafka,我们一开始的技术选型是SpringBoot+Flink对上游数据进行加工处理(下文简称:方案一),由于测试不到位,后来到线上,发现数据写入效率完全不符合预期。后来将目光转到开源项目SeaTunnel上面,发现Source支持
实现 Kafka 分区内消费者多线程顺序消费
生产者在写的时候,可以指定一个 key,被分发到同一个 partition 中去,而且这个 partition 中的数据一定是有顺序的。消费者从 partition 中取出来数据的时候,也一定是有顺序的。到这里,顺序还是没有错乱的。但是消费者里可能会有多个线程来并发处理消息,而多个线程并发处理的话,
flink数据流 单(kafka)流根据id去重
配置: table.exec.state.ttl。
python rabbitmq 手动ack
【代码】python rabbitmq 手动ack。
RabbitMQ快速上手及讲解
先附加下官网文档。