大数据 - overfit.cn

Spark 提交命令和参数介绍

参考：spark官网配置介绍：Configuration - Spark 3.5.0 Documentationspark-sql参数一、提交命令参数名格式参数说明--packages包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifac

overfit同步小助手 2024-03-01 07:03:49 0 收藏

Hive实战：网址去重

在本次实战任务中，我们利用Hive大数据处理框架对三个文本文件（ips01.txt、ips02.txt、ips03.txt）中的IP地址进行了整合与去重。首先，在虚拟机上创建了这三个文本文件，并将它们上传至HDFS的目录下作为原始数据源。接着，启动了Hive Metastore服务和客户端，以管理和

overfit同步小助手 2024-03-01 07:03:34 0 收藏

计算机毕设分享基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现

基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现提示：适合用于课程设计或毕业设计，工作量达标，源码开放。

overfit同步小助手 2024-03-01 06:03:38 0 收藏

kafka-splunk数据通路实践

鉴于目前网络上没有完整的kafka数据投递至splunk教程，通过本文操作步骤，您将实现kafka数据投递至splunk日志系统。

overfit同步小助手 2024-03-01 06:03:35 0 收藏

RabbitMQ监控方法以及核心指标

探讨rabbitmq的监控数据采集方式以及需要关注的核心指标，便于日常生产进行监控和巡检。

overfit同步小助手 2024-03-01 06:03:32 0 收藏

HBase与Phoenix:高性能SQL数据库

1.背景介绍1. 背景介绍HBase 是一个分布式、可扩展、高性能的列式存储系统，基于 Google 的 Bigtable 设计。它是 Hadoop 生态系统的一部分，可以与 HDFS、ZooKeeper 等组件集成。HBase 的核心特点是提供低延迟、高吞吐量的随机读写访问，适用于实时数据处理和分

overfit同步小助手 2024-03-01 05:04:00 0 收藏

【大数据】Flink SQL 语法篇（四）：Group 聚合、Over 聚合

Group 聚合定义（支持 Batch / Streaming 任务）：Flink 也支持 Group 聚合。Group 聚合和上面介绍到的窗口聚合的不同之处，就在于 Group 聚合是按照数据的类别进行分组，比如年龄、性别，是横向的；而窗口聚合是在时间粒度上对数据进行分组，是纵向的。如下图所示，就

overfit同步小助手 2024-03-01 05:03:54 0 收藏

Kafka的核心原理

Kafka核心原理介绍

overfit同步小助手 2024-03-01 04:03:52 0 收藏

Windows安装和使用kafka

由于kafka依赖jdk和zookeeper，安装kafka之前需要先安装jdk和zookeeper，也可以使用kafka自带的zookeeper。，此处使用kafka自带的zookeeper，不单独安装。下面在Windows系统中安装kafka时使用的ip地址是192.168.10.188，这是我

overfit同步小助手 2024-03-01 04:03:46 0 收藏

【用户画像】ClickHouse简介、特点、安装和部署

之前数仓和画像的处理都是批处理，一般在夜间进行，花费时间很长，按照脚本和调度去完成，后来的处理称为即时处理，即时处理要求计算的时间非常之短，存放在hive中，肯定是不行的，这种需求既要求从一定的数据量中提取（如果是小数量可以从MySQL提取），同时需要速度快。这种数据库就需要在hive中和OLAP中

overfit同步小助手 2024-03-01 04:03:11 0 收藏

消息队列-RabbitMQ：延迟队列、rabbitmq 插件方式实现延迟队列、整合SpringBoot

延时队列内部是有序的，最重要的特性就体现在它的延时属性上，延时队列中的元素是希望在指定时间到了以后或之前取出和处理，简单来说，延时队列就是用来存放需要在指定时间被处理的元素的队列。rabbitmq_delayed_message_exchange 插件

overfit同步小助手 2024-03-01 03:03:44 0 收藏

RabbitMQ专栏目录

ActiveMQ、RabbitMQ、Kafka、RocketMQ、ZeroMQ消息中间件选型消息中间件应用场景1.RabbitMQ消息队列介绍2.RabbitMQ下载及其安装配置3.RabbitMQ UI管理界面使用（用户、虚拟主机）4.RabbtiMQ消息队列常用命令5.RabbitMQ消息队列类

overfit同步小助手 2024-03-01 02:03:48 0 收藏

Flink｜《Flink 官方文档 - 部署 - 命令行界面 - 提交 PyFlink 作业》学习笔记

提交的 Python 作业，Flink 会执行 python 命令。因此，在启动 Python 作业前，需要先确定当前环境中的 python 命令指向 3.7+ 版本的 Python。命令将 PyFlink 作业提交到 native Kubernetes cluster，这需要一个已经安装了 PyF

overfit同步小助手 2024-03-01 02:03:35 0 收藏

Flink与Kafka集成

1.背景介绍Flink与Kafka集成是一种常见的大数据处理技术，它可以帮助我们实现实时数据处理和分析。Flink是一个流处理框架，可以处理大量数据并提供实时分析功能。Kafka是一个分布式消息系统，可以用于构建实时数据流管道。在本文中，我们将深入了解Flink与Kafka集成的背景、核心概念、算法

overfit同步小助手 2024-03-01 02:03:16 0 收藏

Kafka：kafka的技术架构？ ①

6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个p

overfit同步小助手 2024-03-01 02:03:09 0 收藏

springboot(eureka)

把resttemplate注入容器,通过此对象在java代码中发起http请求,用id查询对应的user数据,拿到对应的json,再自动json反序列化成对应对象。eureka通过拿服务器提供者每30s的心跳判读啊你这个服务端口能否使用,否则就剔除.消费者通过负载均衡去访问不同的端口。这样就实现不同

overfit同步小助手 2024-03-01 01:03:51 0 收藏

RabbitMQ 模型

1：hello world体验最直接的方式，P端发送一个消息到一个指定的queue，中间不需要任何exchange规则。C端按queue方式进行消费。关键代码：(其实关键的区别也就是几个声明上的不同。2.Work queues 工作序列这就是kafka同一groupId的消息分发模式Producer

overfit同步小助手 2024-03-01 01:03:38 0 收藏

RabbitMQ基础

按照123的顺序依次执行如果每个业务都用50ms，呢么整个支付服务完成，则需要的时间是几个小demo的时间加和所以同步调用会出现扩展性差性能下降级联失败（一个小demo失效了，整个业务都失效了）的问题，但是某些业务只能使用同步调用。

overfit同步小助手 2024-02-29 20:03:53 0 收藏

Hive内核调优(三)

了解业务需求后，考虑使用直接编写MR实现，MAP的输入为用户信息表USER及所有指标表的目录下的文件，MAP输出为用户ID、指标值，REDUCE输入为用户ID、指标值序列，REDUCE输出为用户ID和按顺序排列的指标值，落地成结果文件。如下场景，需要将用户信息表USER与INDICT_1、INDIC

overfit同步小助手 2024-02-29 20:03:46 0 收藏

实战：使用Docker和Spark构建大数据分析系统

1.背景介绍1. 背景介绍大数据分析是现代企业和组织中不可或缺的一部分，它有助于提取有价值的信息和洞察，从而支持决策过程。然而，构建高效的大数据分析系统是一项复杂的任务，涉及多种技术和工具。Docker是一个开源的应用容器引擎，它使用一种名为容器的虚拟化方法来隔离软件应用的运行环境。这使得开发人员可

overfit同步小助手 2024-02-29 20:03:16 0 收藏