【1.2】Java微服务:eureka注册中心,完成服务注册

这段配置的作用是将当前模块注册到eureka,因为eureka自己也是一个微服务 ,所以在eureka模块也写上这段配置,注册到eureka,为后期euraka集群准备,多个euraka服务相互注册。可以直接启动全部模块,可以点击后面的端口连接,直接打开对应页面,比如eureka页面。这里表示的是当

Spark操作HBase的数据,实现列值的计算

本文将介绍如何使用Spark操作HBase的数据,实现列之间的计算,以特征值计算为例。主要内容如下:创建SparkSession和HBaseConfiguration对象。读取HBase表的数据,并转化成RDD。进行列式计算,得到特征值,并转化成RDD。写入HBase表的数据。验证HBase表的数据

机器学习 —— Sklearn包中StandardScaler()、transform()、fit()的详细介绍

机器学习 —— Sklearn包中StandardScaler()、transform()、fit()的详细介绍。数据标准化

【大数据】Pyarrow简单使用

- Arrow是一个Python库,为创建,操作,格式化和转换日期,时间和时间戳提供了一种明智的,人性化的方法。 它实现和更新日期时间类型,填补功能上的空白,并提供支持许多常见创建场景的智能模块API。# 二、使用小栗子- 离线测试时,有时为了更快使用dataloader对测试集预测,而且df较大,

一文带你理解Kafka的Header

Kafka从 0.11.0.0 版本开始提供了一种在生产者和消费者之间传递元数据的机制,叫做 Kafka header。使用这个机制,你可以在消息中添加一些与数据内容无关的附加信息,如消息的来源、类型、版本、生产时间、过期时间、分区数、用户 ID 等等。Kafka header 是由一个或多个键值对

C币下载C币下载

截至13日沧州volte质差小区共计84个,占比为0.67%(较上周减少11个),其中低接入小区45个,高掉话小区20个,空口上行高丢包小区12个,空口下行高丢包小区8个;截至13日沧州volte质差小区共计84个,占比为0.67%(较上周减少11个),其中低接入小区45个,高掉话小区20个,空口上

SparkSQL中数据转换的方法

以上代码中,我们按照"department"列对DataFrame进行分组,并计算每个部门的平均工资和总工资。以上是SparkSQL中常见的数据转换方法,可以根据实际需要进行选择和组合,完成复杂的数据处理和分析任务。,并将其应用于DataFrame中的"salary"列,计算每个员工的奖金。以上代码

学会RabbitMQ的延迟队列,提高消息处理效率

延迟队列指的是当我们将消息发送到RabbitMQ时,可以指定消息的有效期或者消息需要在未来某个时间点才能被消费。这种消息被称为“延迟消息”。

Flink详解系列之五--水位线(watermark)

在进行窗口处理时,不可能无限期的等待延迟数据到达,当到达特定watermark时,认为在watermark之前的数据已经全部达到(即使后面还有延迟的数据), 可以触发窗口计算,这个机制就是 Watermark(水位线),具体如下图所示。如果水位线设置的过于宽松,好处是计算时能保证近可能多的数据被收集

【从0开始离线数仓项目】——数据仓库的环境搭建(1)

Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等,下面说明上述几个文件之间的关系和区别。

rabbitmq:retry重试机制和延迟消息的实现

rabbitmq重试机制 retry和死信队列实现延迟消息

【Hive-Partition】Hive添加分区及修改分区location

【Hive-Partition】Hive添加分区及修改分区location

大数据基础平台实施及运维

处理框架和处理引擎负责对数据系统中的数据进行计算虽然“引擎”和“框架”之间的区别没有什么权威的定义,但大部分时候可以将前者定义为实际负责处理数据操作的组件,后者则可定义为承担类似作用的一系列组件。(ELK日志监控处理框架)Apache Hadoop项目用于高可用,可扩展的分布式计算的开源软件Apac

Kafka的常用命令

Kafka的常用命令

Hadoop-YARN介绍

yarn介绍

基于Filebeat+Kafka+ELK实现Nginx日志收集并采用Elastalert2实现钉钉告警

基于Filebeat+Kafka+ELK实现Nginx日志收集并采用Elastalert2实现钉钉告警

Zookeeper学习笔记

Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。

【数据架构系列-02】从《数据中台能力成熟度模型》的发布,聊聊火了的中台

2023年1月4日,信通院发布了《数据中台能力成熟度模型》框架,不由让我浮想联翩,之后是不是还会出现业务中台、技术中台、AI 中台、算法中台的能力成熟度模型呢。不知道为什么,按理应该同时公开发布的文档截止到1月30日在网上也没有找到,只是查到发布会的部分PPT,大致浏览了一下,依然是熟悉的套路,基于

Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

HDFS介绍

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Cor

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈