头歌 HBase(相关的五个实验)
头歌 HBase(相关的五个实验)
flink-sql大量使用案例
本文是 flink sql 的一些使用案例,同时也包括了一些特殊用法展示。
Eureka之使用详解
Eureka
Kafka消息底层存储结构介绍
Kafka的底层消息存储架构
Kafka系列 - 06 Kafka 集群环境搭建(三台服务器)
hadoop-101 虚拟机的 IPADDR 的地址改为:192.168.38.23;hadoop-103 虚拟机的 hostname 的地址改为:hadoop103;kafka集群搭建,需要3台虚拟机环境,但是我目前只安装了一台虚拟机,因此还需要准备两台虚拟机环境,正常情况下应该再安装2台虚拟机,
【NLP】AI相关比赛汇总(2022)
主要查找的是国内的一些比赛平台。以往举办的一些平台不能够访问的,或者比赛列表中近年来没有相关比赛的就没有放上去。读者可以根据自己的喜好选择合适自己的平台进行学习和演练,好运哦。当然,以上平台也是从互联网中查找的也不一定全面,欢迎补充。......
数据湖系列文章
数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。数据湖中的数据包括结构化数据(关系数据库数据
RabbitMQ,手动ACK情况下,消费消息的时候出现异常,如何手动ACK或NACK
@RabbitListener里的errorHandler(实际是RabbitListenerErrorHandler)的方式来处理,并把spring-amqp的版本提升到2.1.7以上,消息消费出现异常之后,进行手动的ack或者nack
Rabbitmq消息队列详解
Rabbitmq消息队列详解
Hive Lateral View + explode 详解
hive中的函数分为3类,UDF函数、UDAF函数、UDTF函数UDF:一进一出 UDAF:聚集函数,多进一出,类似于:count/max/min UDTF:一进多出,如explore()、posexplode(),UDTF函数的时候只允许一个字段百度explode()时,经常会出现lateral
linux 远程拷贝命令
一、scp命令 --远程拷贝文件Linux scp命令用于linux之间进行复制文件scp 是secure copy 的缩写,scp 是基于ssh登录来进行安全拷贝补充知识:ssh进行登陆ssh 用户名@IP地址scp优势:当服务器的磁盘变为read only system时,可以通过scp将文件移
Hive与HBase之间的区别和联系
首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通
Datax与Datax-Web安装部署
详细记录了datax与datax-web安装部署过程。
hadoop格式化时报错
Re-format filesystem in Storage Directory root= /data/hadoop/hdfs/name; location= null ? (Y or N)
docker搭建hadoop和hive集群
Dockfile文件的内容解释:基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop。因为集群的服务器之间需要通信,而且每次虚拟机给集群分配的ip地址都不一样,所以需要创建网桥,给每台
hadoop3.3.4集群安装部署
Hadoop集群安装部署
Spark项目实战-数据清洗
SparkSql单次处理Web日志,分析用户留存率
Spring Boot整合RabbitMq 重写confirm不生效
Spring Boot整合RabbitMq 重写confirm不生效
【Kafka】Kafka在多Partition多实例情况下,消息的消费和生产情况验证
通过实验验证了Kafka在多Partition多实例情况下,消息的消费和生产情况:(1)一个partition最多被一个实例(同一消费组)消费。(2)一个实例可以同时消费多个partition。(3)当通过key将topic消息写入Kafka时,相同key的消息保证能写入同一个partition。
查es大于10000条数据-滚动查询(scroll)
查es大于10000条数据-滚动查询(scroll),总所周知,es一般查询只支持最多查询出前1w条数据,很难受。想要一次性查询出你想要的数据,一些大数据的场景下,我们需要用到ElasicSearch的两种查询方式:==深度分页==或者==滚动查询==,我们今天使用的是滚动查询方式,因为需要一批次加