Hive数仓模型
Hive数仓模型
kafka3.0创建topic出现zookeeper is not a recognized option
在linux云服务器上搭建了一套kafka3.0集群,然后安装以前的创建topic指令,例如这样——注意,这里的master是我主机ip映射的主机名,改成该kafka服务器对应的IP即可。测试一下,在master服务器上创建一个topic为test,然后生产几条信息——在另一台机器上,开启消费者控制
实验2-spark编程
(1)通过实验掌握Spark的基本编程方法;(2)熟悉RDD到DataFrame的转化方法;(3)熟悉利用Spark管理来自不同数据源的数据。
Flink CDC整库同步
Flink CDC整库同步
HiveQL练习(hive3.x)
本文详细介绍了Hive关于管理表、外部表、分区表和桶表的创建和基本操作,结合emp和dept数据介绍了Hive的各种查询语句的写法。
kafka消费者接收不到消息
kafka消费者消费不到消息
大数据学习之Flink,了解Flink的多种部署模式
应用模式是对单作业模式的优化,不管是会话模式还是单作业模式,代码都是在客户端是进行执行的,然后由客户端提交给JobManager的,这种方式下客户端会比较耗资源,因为需要下载依赖和发送二进制文件到JobManager。会话模式就是在作业提交之前通过启动集群并创建会话,我们通过这个会话提交任务,所有的
深入理解Spark BlockManager:定义、原理与实践
Spark是一个开源的大数据处理框架,其主要特点是高性能、易用性以及可扩展性。在Spark中,BlockManager是其核心组件之一,
Redis与RabbitMQ配合使用多线程(多消费者)处理消息
通过本次演示的案例,希望大家可以掌握并且多加练习,在日常的开发中缓存数据库和异步队列是必备的手段,同时也是大家找工作时的一个亮点。本文如有不妥之处希望大家指正!!!
Python三方库:Pika(RabbitMQ基础使用)
MQ(Message Queue,消息队列),是一个在消息传输过程中保存消息的容器,多用在分布式系统之间进行通信。MQ优势应用解耦:提高系统容错性和可维护性。异步提速:提升用户体验和系统吞吐量,MQ可短时间接收和保存大量消息(请求),其他服务可以异步地进行消息的消费。削峰填谷:提高系统稳定性,当MQ
Kafka学习之:mac 上安装 kafka
kafka 在 mac 上的配置和安装
hive 简简单单易如反掌
1. 实验一:Linux操作系统环境设置实验环境 本实验所需之主要资源环境:资源环境 服务器集群 单节点,机器最低配置:双核 CPU、8GB 内存、100G 硬盘 运行环境 CentOS 7.4 服务和组件 服务和组件根据实验需求安装。
RocketMQ、Kafka、RabbitMQ 消费原理,顺序消费问题【图文理解】
1. RocketMQ,一个queue只能有一个consumer,消费者是多线程的,但开启顺序消费的时候,会对 queue加锁从而保证顺序2. Kafka,一个 partitions只能由一个consumer的一个线程去消费,基于单线程就保证了顺序性3. RabbitMQ,queue和consume
Flink源码分析(5)JobMaster启动源码分析
Flink JobMaster源码启动入口从Dispatcher.runJob()方法处开始,下面让我们一起进入到JobMaster的源码分析中。这里启动jobmaster服务,注册心跳同时创建了监听服务,在jobmaster内部创建了slotpool,用于维护整个任务的资源。内执行了jobgr
HBase报错:Master is initializing
2、如果以上方式仍然没有效果,可能报错的原因二是:HDFS中和Zookeeper中的HBase没有删除,所以这里需要将其进行删除,具体的命令如下:注意:删除Zookeeper中的 /hbase 目录,需要保证zookeeper已经开启,否则无法连接上。在启动HBase之后进入bin/hbase sh
Flink Stream API实践
Flink Stream API实践
Flink 生态对 Confluent / Kafka Schema Registry 支持情况的研究报告
这几年,在流式链路上引入一个 Schema Registry 变得越来越流行,也越来越有必要, Schema Registry 能有效控制 Schema 的变更,合理推进 Schema Evolution,同时,引入它以后还能有效精简消息内容(特别是针对 Avro 格式),提升消息的传输效率,所以引
数据仓库 vs 数据湖 vs 湖仓一体:如何基于自身数据策略,选择最合适的数据管理方案?
一文读懂数据仓库、数据湖、湖仓一体的区别,找准更适合的数据策略。结合大型视频流平台、电商、医疗等行业场景深入剖析。
hive的简单认识
今天写的比较急,先凑活看,有空的话再完善一下
RabbitMQ(四种使用模式)
/ 定义一个交换机,两个队列的名称// 创建两个队列和一个交换机// 创建队列1@Bean// 创建队列2@Bean// 创建交换机@Bean// 将队列一和交换机绑定@Bean// 将队列二和交换机绑定@Bean// ----------------- Direct模式 -------------