springboot集成ElasticSearch
springboot集成ES 7.6.2
TiDB基本原理学习
TiDB的基本概念学习和原理介绍。
centos7 - elasticsearch 7.6.2集群
小伙伴们,你们好呀,我是老寇注意:上一篇安装elasticsearch 7.6.2教程的扩展,需要看上篇的安装教程,点击我1.准备三台机器(三台需提前安装好elasticsearch 7.6.2)192.168.1.1 node-elasticsearch-1192.168.1.2 node-ela
客快物流大数据项目(五十六): 编写SparkSession对象工具类
编写SparkSession对象工具类后续业务开发过程中,每个子业务(kudu、es、clickhouse等等)都会创建SparkSession对象,以及初始化开发环境,因此将环境初始化操作封装成工具类,方便后续使用实现步骤:在公共模块的scala目录的common程序包下创建SparkUtils
【LeetCode-SQL每日一练】—184. 部门工资最高的员工
SQL每个人都要用,但是用来衡量产出的并不是SQL本身,你需要用这个工具,去创造其它的价值。
大数据组件之Hive(Hive学习一篇就够了)
文章目录一、Hive安装1、解压环境2、环境变量配置3、配置文件信息1.打开编辑文件2.输入以下内容4、拷贝mysql驱动5、更新guava包和hadoop一致6、mysql授权7、初始化8、hive启动模式9、Hadoop的core-site.xml配置二、Hive1、Hive的文件结构2、MyS
Mysql 窗口函数
一, MySQl 8.0 窗口函数窗口函数适用场景: 对分组统计结果中的每一条记录进行计算的场景下, 使用窗口函数更好;可以跟Hive的对比着看: 点我, 特么的花了一晚上整理, 没想到跟Hive 的基本一致, 还不因为好久没复习博客了, 淦注意: mysql 因为没有array数据结构, 无法像
Flink HA模式环境搭建
Flink HA安装部署
2022暑期实习字节跳动数据研发面试经历
🌟今天下午面试两家,字节跳动数据研发一面和百度三面,百度那边突然不面了,hr说下个星期再看看,是直接过了还是再来一面,需要和部门商量一下,先来总结一下字节跳动的面试吧。废话,对百度面试感兴趣的同学可以参考如下文章:链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并
Zookeeper会话管理源码深入探讨
深入探讨会话创建、分桶管理、清理和激活原理。
Day548.Kafka相关外部系统整合 -kafka
Kafka相关外部系统整合一、集成 FlumeFlume 是一个在大数据开发中非常常用的组件。可以用于 Kafka 的生产者,也可以用于Flume 的消费者。1、Flume 生产者启动 kafka 集群zk.sh startkf.sh start启动 kafka 消费者bin/kafka-cons
AWS、Azure等国外云计算如何迁移到国内阿里云上?
首先需要了解到云迁移流程:前期调研-制定方案-迁移-运营。这里主要介绍的是如何解决迁移过程中的难点。我从这个问题中看到了两个云迁移的难点:不同云平台之间的异构迁移 用户缺少迁移经验,对迁移流程不够了解那么从这两个难点出发,有什么解决方案呢?其他的方案我就不多介绍了,因为我只介绍我使用过的最好的云迁移
kafka初学(自己觉得好难)
kafka初学一、介绍Kafka是是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统低延迟的实时系统Storm/Spark流式处理引擎web
四种常用的微服务架构拆分方式
微服务架构并无标准架构,不然什么架构师大会也不会各个系统架构百花齐放了。虽然没有固定的套路,却有一些经验,今天就来做一个总结。基于角色拆分这种拆分方式常见于基础设施以及其PaaS层的架构,...
HBase 过滤器
HBase过滤器、比较器
记一次RocketMQConsumer 服务关闭出现InterruptException异常
记一次RocketMQConsumer 服务关闭出现InterruptException异常背景提要出现问题主要还是版本升级老版本核心rocketmq依赖<dependency> <groupId>org.apache.rocketmq</groupId>
hive-SQL学习笔记11
之前有人问我,如何挑出一个月的最大值及其特征,比如有三列,分别是user_id,item_id,time,其中time是停留时长,这个问题就是找出这个用户,他这一行是什么,我当时就懵逼了。我说我直接全部拉下来这个月的数据,然后py操作取最大值即可。。。game overFor Recommendat
几分钟明白Flink水位线
Flink水位线1、Flink中不同的事件概念Processing time(处理时间): 即事件被机器处理的时间,事件流向某个算子的系统时间Event Time(事件时间): 事件时间是再某个生产设备上发生时间,指事件进入Flink之前嵌入的时间,通常可以从事件中获取一个时间戳,此时间戳可以用来得
DolphinScheduler无故删除HDFS上的Hive库表目录
亲爱的朋友们,我可爱的同事又搞了个大BUG待我慢慢道来…DolphinScheduler大家应该都用过,中国人开源的一个调度工具,类似Azkaban,本次的事情就是在DolphinScheduler上发生的。据领导描述,某团队负责的某业务数仓上云后,HDFS上的Hive库表目录总是无故被删,他们找不