等保三级认证基本要求
等保三级认证基本要求
ElasticSearch - 索引增加字段并查询增加字段前的历史数据
从上面的结果可以看出,在ElasticSearch中为已有索引增加一个新字段以后,老的数据并不会自动就拥有了这个新字段,也就不可能给他一个默认值。我们项目中有一个需求:ElasticSearch存在很多历史数据,然后需求中索引新增了一个字段,我们需要根据条件查询出历史数据,但历史数据中这个新增的字段
kafka-producer batch.size与linger.ms参数
kafka-producer参数
hive存储压缩格式对比说明
hive压缩说明
MQ的快速入门及RabbitMQ的五种工作模式
Mq消息中间件的基础知识,rabbitmq的工作模式,springboot集成rabbitmq
如何学习大数据
大数据依然是当下热门的技术之一,就犹如之前的移动开发刚开始火的时候一样,之前写了一系列的大数据开发所需的组件安装,但还从来没想过要怎么学习大数据,正好趁这次机会写一写。大数据技术是当前互联网和信息化领域的热门技术之一,随着数据量急剧增长和结构复杂化,对大数据技术的需求也越来越大。如果想要从事相关领域
Hive-数据倾斜
在计算各省份的GMV时,有可能会发生数据倾斜,解决办法如下:
成为大数据开发工程师要学习哪些知识?
首先,作为一名大数据开发工程师,你需要掌握至少一门编程语言。作为一个大数据开发工程师,你需要掌握Hadoop生态系统的各个组件。最后,作为一名大数据开发工程师,你需要了解如何将数据可视化。常见的数据可视化工具包括Tableau、R语言和Python中的Matplotlib等。在本文中,我们将会详细介
SpringBoot整合Zookeeper
还有很多其他的方法可以自行扩展。Zookeeper配置连接信息。
02_kafka_基本概念_基础架构
02_kafka_基本概念_基础架构
hive 全量表、增量表、快照表、切片表和拉链表
切片表根据基础表,往往只反映某一个维度的相应数据。其表结构与基础表结构相同,但数据往往只有某一维度,或者某一个事实条件的数据。:记录每条信息的生命周期,当一条记录的生命周期结束,就会重新开始一条新的记录,并把当前日期放入生效开始日期。3)合并变动数据和旧拉链表数据(有更新的信息需要修改生效结束日期,
windows上简单部署flink
Windows上配置Flink
springboot整合ELK+kafka采集日志
在分布式的项目中,各功能模块产生的日志比较分散,同时为满足性能要求,同一个微服务会集群化部署,当某一次业务报错后,如果不能确定产生的节点,那么只能逐个节点去查看日志文件;logback中RollingFileAppender,ConsoleAppender这类同步化记录器也降低系统性能,综上一些问题
采用seatunnel提交Flink和Spark任务
seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。seatunnel 让Spark和Flink的使用更简单,更高效。特性。
SpringBoot 整合RabbitMq 自定义消息监听容器来实现消息批量处理
RabbitMQ是一种常用的消息队列,Spring Boot对其进行了深度的整合,可以快速地实现消息的发送和接收。在RabbitMQ中,消息的发送和接收都是异步的,因此需要使用监听器来监听消息的到来。Spring Boot中提供了默认的监听器容器,但是有时候我们需要自定义监听器容器,来满足一些特殊的
Presto、Spark 和 Hive 即席查询性能对比
Spark 则是一个基于内存的分布式计算框架,可以快速地处理大规模的数据,并且具有很高的可扩展性。Presto 可以很容易地集成到现有的数据架构中,并且可以在不同的数据源之间进行无缝的查询。它们都具有各自的优缺点,在不同的场景下都有着不同的应用价值。Spark 是一个基于内存的分布式计算框架,它可以
hadoop的8088端口无法访问
如果 8080 端口无法访问,可能是因为以下几种原因之一:该端口可能被防火墙阻止了访问。您可以尝试关闭防火墙,或者将 8080 端口添加到防火墙的信任列表中。Hadoop 服务可能没有启动。您可以尝试通过运行 start-dfs.sh 和 start-yarn.sh 脚本来启动 Hadoop 服务。
CentOS7部署kettle9.3.0并部署自服器远程提交任务
centos7部署kettle9.3.0并配置远程执行及其详细,中间碰到的问题全都有详细的解决办法
2 分钟就能抓取任何网站的数据是怎么做到的?? #Browse AI
尽管现在使用网络的方式或多或少与 20 年前相同,但网络在我们生活中占据的地位越来越重要,网站却变得越来越繁琐。最重要的是,即使网络上有大量有价值的实时数据,收集它们也是非常昂贵和耗时的。Browse AI 是一款可以从任何网站提取和监控数据的方法。图源:Browse AI 官网Browse AI
数据仓库系列:StarRocks 下一代高性能分析数据仓库的架构、数据存储及表设计
本文是学习StarRocks的读书笔记,让你快速理解下一代高性能分析数据仓库的架构、数据存储及表设计。