RabbitMQ 部署指南
在Centos7虚拟机中使用Docker来安装。
HBase与Python的集成: 如何将HBase与Python进行集成
1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase非常适合存储大量结构化数据,如日志、时间序列数据、实时数据等。Python是一种流行
JDK8 和 JDK17 下基于JDBC连接Kerberos认证的Hive(代码已测试通过)
打开了debug后,如果是正常情况,我们能观察到控制台会打印到krb5.conf相关内容信息,出现问题优先根据debug日志查看,如果没有打印出krb5文件内容,去看看路径/文件权限。之前自研平台是基于jdk8开发的,连接带Kerberos的hive也是jdk8,现在想升级jdk到17,发现过Ker
Kafka在美团数据平台的实践
基于Kafka的应用层去实现,具体就是Kafka的数据按照时间维度存储在不同设备上,对于近实时数据直接放在SSD上,针对较为久远的数据直接放在HDD上,然后Leader直接根据Offset从对应设备读取数据。这种方案的优势是它的缓存策略充分考虑了Kafka的读写特性,确保近实时的数据消费请求全部落在
Spark大数据分析与实战笔记(第三章 Spark RDD弹性分布式数据集-01)
RDD (Resilient Distributed Dataset),即弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,若是后面需要中间结果参与计算时,则可
大数据技术之Hadoop
hadoop之父:道格 卡丁。
Fink CDC数据同步(四)Mysql数据同步到Kafka
这里指定的Kafka topic会自动创建,也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。
大数据技术之Hive(三)hive常用函数
hive自带了一些函数,比如max/min等。但是数量有限,自己可以通过UDF来方便的扩展。当hive提供的内置函数无法满足业务需求时,就可以考虑用户自定义函数UDF根据用户自定义函数类别分为以下三种:UDF一进一出UDAF用户自定义聚合函数,多进一出类似于:count/max/minUDTF用户自
阿里巴巴内部:全技术栈PPT分享(架构篇+算法篇+大数据)
我只截图不说话,PPT大全,氛围研发篇、算法篇、大数据、Java后端架构!除了大家熟悉的交易、支付场景外,支撑起阿里双十一交易1682亿元的“超级工程”其实包括以下但不限于客服、搜索、推荐、广告、库存、物流、云计算等。Java核心技术栈:覆盖了JVM、锁、并发、Java反射、Spring原理、微服务
Hive 的 安装与使用
hive的元数据是存在 MySql 里的,如果不使用元数据服务的话,hive直接会操作MySql里的元数据,使用元数据服务的话,hive会操作元数据服务,元数据服务再去操作 MySql 里的元数据。用于列出系统中已安装的所有软件包的名称,CentOS 6系统自带的数据库 MySql,CentOS 7
Spark SQL调优实战
spark sql参数调优
【大数据】Flink SQL 语法篇(一):CREATE
CREATE 语句用于向当前或指定的 Catalog 中注册库、表、视图或函数。注册后的库、表、视图和函数可以在 SQL 查询中使用。
Flink CEP实现10秒内连续登录失败用户分析
Flink CEP实现10秒内连续登录失败用户分析
一文详解pyspark中sql的join
我们是通过学生表的sclass和班级表的cid将两张表关联在一起,所以定义join表达式如下。
Kafka连接zookeeper超时
配置文件检查好几遍没有错,防火墙也没有开,zookeeper正常启动,配置的都是内网。终于,也是瞎猫碰死耗子,修改了kafka连接zookeeper的超时时间,然后居然启动了!一个头疼的事:kafka和zookeeper,部署在一台服务器,zookeeper正常启动,配置也没任何问题。但是kafka
银行数据仓库体系实践(2)--系统架构
(2)元数据管理:元数据指描述数据的数据,比如数据表和数据字段的定义以及关系,那在元数据中除了查询数据仓库中各表和字段的定义外,最重要的还有两个功能:血缘分析和影响分析。UML对系统架构的定义是:系统的组织结构,包括系统分解的组成部分,它们的关联性,交互,机制和指导原则,例如对系统群就是定义各子系统
基于python物流管理系统 Echarts可视化 Django框架 大数据 毕业设计(源码)✅
基于python物流管理系统 Echarts可视化 Django框架 大数据 毕业设计(源码)✅
Hive学习(13)lag和lead函数取偏移量
在数据处理和分析中,窗口函数是一种重要的技术,用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架,也提供了窗口函数的支持。在Hive中,Lag函数是一种常用的窗口函数,可以用于计算前一行或前N行的值。
SpringBoot集成Eureka
这里注意一下eureka服务本服的注解是server的。其他注册到这个服务用的注解是client,不要搞错,不然会启动报错的╮(╯▽╰)╭。这里简单说一下http://localhost:8078/eureka/项目。
3.0 Hadoop 概念
本章着重介绍 Hadoop 中的概念和组成部分,属于理论章节。如果你比较着急可以跳过。但作者不建议跳过,因为它与后面的章节息息相关。