Hadoop2.0高可用集群搭建【保姆级教程】
Hadoop高可用集群搭建
配置docker-compose.yaml文件
配置docker-compose.yaml文件
MapReduce(eclipse)求2020年部门工资平均值,求2021年员工平均工资
MapReduce(eclipse)求2020年部门工资平均值,求2021年员工平均工资
大数据必学Java基础(七十七):线程的生命周期和常见方法
(2)run() : 线程类 继承 Thread类 或者 实现Runnable接口的时候,都要重新实现这个run方法,run方法里面是线程要执行的内容。join方法:当一个线程调用了join方法,这个线程就会先被执行,它执行结束以后才可以去执行其余的线程。(1)start() : 启动当前线程,表
记录我爬虫持久化到mongo中的文档在navicat中常用的一些操作语句
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BuHwKqwF-1665726498173)(https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f0d1c5816d824c63acc2b11d12b599e1~tplv-
Kafka入门教程
Apache Kafka是一个分布式消息发布订阅系统。它最初由LinkedIn公司基于独特的设计实现为一个分布式的提交日志系统( a distributed commit log),之后成为Apache项目的一部分。Kafka采用订阅-发布模式提供消息服务,支持不同消费组分别消费。在性能方面,它具有
Hive安装与配置及常见问题解决
Hive安装与配置及常见问题解决
[Spark、hadoop]Spark Streaming整合kafka实战
Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点:其优点具体:(1)解耦。Kafka 具备消息系
大数据必学Java基础(七十五):多线程与程序、进程、线程之间概念详解
是程序的一次执行过程。正在运行的一个程序,进程作为资源分配的单位,在内存中会为每个进程分配不同的内存区域。(进程是动态的)是一个动的过程 ,进程的生命周期 : 有它自身的产生、存在和消亡的过程。进程可进一步细化为线程, 是一个程序内部的一条执行路径。若一个进程同一时间并行执行多个线程,就是支持多
带上ES一起寻找理想的另一半
😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本文讲解使用Java实现父子节点功能和搜索引擎,欢迎大家多多关注!🔔一起卷起来叭!
HDFS的API操作 (Eclipse版)
HDFS的API客户端操作,基本环境配置,hdfs文件上传下载删除更名等操作,以及hdfs的I/O流操作!!!
数据库与缓存一致性解决方案
项目中如果用到了缓存,就会涉及到数据库与缓存的双写,由于这两个操作不是原子性的,在并发的场景下,容易产生数据库与缓存不一致的情况。
Elasticsearch:运用 Python 实时通过 Logstash 写入日志到 Elasticsearch
在我之前的文章,我详细地介绍了如何通过 Filebeat 来收集日志并写入到 Elasticsearch。在今天的文章中,我将分享如何使用 Logstash 把日志文件发送到 Elasticsearch。使用 Logstash 的好处是它可以很方便地使用它丰富的过滤器对数据进行清洗以便更好地对数据进
hive窗口函数极速入门及在拉链表上的运用案例
hive开窗函数
PTA - 数据库合集34
10-180 在读者表中查询账号和姓名分数 3全屏浏览题目切换布局作者 刘冬霞单位 山东理工大学在读者表中查询账号和姓名。
[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每
大数据ClickHouse进阶(十八):数据字典类型
在创建字典表语句中使用“layout”来指定字典的类型,目前扩展字典支持7种类型,分别为flat、hashed、range_hashed、cache、complex_key_hashed、complex_key_cache、ip_trie,不同的字典类型决定了数据在内存中以何种结构组织和存储。使用c
RabbitMQ:死信队列
队列中不能被消费的消息称为死信队列有时候因为特殊原因,可能导致队列中的某些信息无法被消费,而队列中这些不能被消费的消息在后期没有进行处理,就会变成死信队列,死信队列中的消息称为死信。应用场景:未来保证订单业务的消息数据不丢失,我们需要使用到RabbitMQ的死信队列机制,当消息消费发生异常的时候,我
RabbitMQ如何保证幂等性
幂等性是分布式中比较重要的一个概念,是指在多作业操作时候避免造成重复影响,其实就是保证同一个消息不被消费者重复消费两次,但是可能存在网络波动等问题,生产者无法接受消费者发送的ack信息,因此这条消息将会被重复发送给其他消费者进行消费,实际上这条消息已经被消费过了,这就是重复消费的问题。如何避免重复消
Mysql索引失效的常见原因&如何用好索引
本篇文章主要介绍了索引失效的常见原因和如何用好索引,并以案例的形式进行了说明