05-用户画像+mysql-hive数据导入
新建 create_hive_table.sh文件。
实时同步:使用 Canal 和 Kafka 解决 MySQL 与缓存的数据一致性问题
由此可见,对数据库的每一个修改操作,都是对应固定格式的一个数据,所以可以监听对应的 topic 并针对 data 中的数据进行一个提取,得到一个 cacheKey,然后删除对应的缓存,使得下一次的查询去访问数据库,并同步缓存。canal 监控 binlog 日志,binlog 日志的传输默认使用
zookeeper+kafka的消息队列
需要注意的是,kafka作为一个支持多生产者多消费者的架构,再写入消息时允许多个生产者写道同一个partition,但是消费者读取的时候一个partition仅允许一个消费者消费,但一个消费者可以消费多个partition。partition的数量决定了组成topic的log的数量, 因此推荐par
Hadoop平台搭建(hive前的步骤)
1.1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop。1.4. 执行以下命令修改 hadoop-env.sh 配置文件。在浏览器的地址栏输入:http://master:8088。配置两个子节点slave1、slave2的JDK环境。1.3. 使配置的 Hadoop 的环境变量生效。
Spark RDD结课总结
生成的RDD中保存的是T的值,Seq[String]部分的数据会按照Seq[(T,Seq[String])]的顺序存放到各个分区中,一个Seq[String]对应存放至一个分区,并为数据提供位置信息,通过preferredLocations()方法可以根据位置信息查看每一个分区的值。reduceBy
MLlib机器学习入门:用Spark打造预测模型
Apache Spark 已然成为大数据处理领域的一颗璀璨明星。它以其卓越的性能、易用性以及丰富的生态系统,吸引了无数开发者投身于大数据的浪潮之中。如果你正是一名向往大数据领域的开发者,或是已经涉足其中但希望更深入地掌握Spark技术,那么请跟随这篇指南,我们将以一种“糙快猛”的策略,高效开启你的大
pyspark从0开始的入门教程
PySpark 是 Python 中 Apache Spark 的接口。使用 PySpark,您可以编写类似 Python 和类似 SQL 的命令,以在分布式处理环境中操作和分析数据。这是一个初学者程序,将引导您使用 PySpark 操作数据、构建机器学习管道和调整模型。
ZooKeeper 搭建详细步骤之二(伪集群模式)
ZooKeeper 伪集群是指在一个单一的物理或虚拟机环境中模拟出一个由多个 ZooKeeper 节点构成的集群。尽管这些节点实际上运行在同一台机器上,但它们通过配置不同的端口、数据目录和配置文件,以模拟在真实分布式环境下不同服务器上运行的效果。
CDH6.3.2之升级spark-3.3.1
CDH中Spark默认版本2.4.0,我们对Hive升级到3.1.3版本,由于并未找到对应的 spark-hive 包,于是尝试使用Spark-3.3.1。spark3.3.1 for CDH6.3.2 包下载链接。
Hive笔记-6
Group By语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。max(),求最大值,不包含null,除非所有值都是null;min(),求最小值,不包含null,除非所有值都是null;count(某列),表示该列一共有多少行,不包含null值;count
【IDEA配置连接Linux虚拟机的Hive数据库(超详细)】
填写hive server2所在的服务器或主机的主机名或者ip,登录的用户名,然后测试连接。打开IDEA,创建或打开一个项目,点击Database,选择”+“号,点击Driver。添加Hive的jdbc jar包。之后点击Apply完成添加。的文件,即可快乐的进行hive QL的代码编写。点击OK,
使用 Llama-Agents、Qdrant 和 Kafka 进行高级实时 RAG
在当今数据驱动的世界中,实时处理和检索信息的能力至关重要。本文深入探讨了使用Llama-Agents、Qdrant 和 Kafka 的高级实时检索增强生成 (RAG)。通过集成这些强大的工具,我们创建了一个可以有效管理数据提取、处理和检索的代理系统。了解此架构如何动态处理用户查询、平衡工作负载并确保
Hadoop学习笔记1
本文主要介绍了hadoop环境搭建的前置准备工作,包括对Hadoop集群的相关配置以及zookeeper的安装及相关知识说明
大数据SQL题47 打车问题
注:不同时段定义:早高峰 [07:00:00 , 09:00:00)、工作时间 [09:00:00 , 17:00:00)、晚高峰 [17:00:00 ,20:00:00)、休息时间 [20:00:00 , 07:00:00) 时间区间左闭右开(即7:00:00算作早高峰,而9:00:00不算做早高
kafka 常用命令
Kafka 基本的使用命令总结。
SpringCloud---服务注册(Eureka)
注册中心的初步学习,Eureka的部署及其使用!
敲详细的springboot中使用RabbitMQ的源码解析
@RabbitListener的方式在实际使用时创建MessagingMessageListenerAdapter,这个对象是ChannelAwareMessageListener接口的实现类,实现了onMessage()方法,这个方法利用了适配器模式。使用消费者Consumer和监听器Listen
消息队列Kafka简单使用(可以直接上手)
记录一下自己快速学习怎么使用Kafka消息队列的过程
【消息队列】Kafka学习笔记
Kafka学习笔记
Kafka快速入门+SpringBoot简单的秒杀案例
感谢你的关注,欢迎点赞评论交流。