大数据 - overfit.cn

基于docker安装flink

注意：当你在流式查询上使用这种模式时，Flink 会将结果持续的打印在当前的控制台上。如果流式查询的输入是有限数据集，那么 Flink 在处理完所有的输入数据之后，作业会自动停止，同时控制台上的打印也会自动停止。滚动窗口可以定义在事件时间（批处理、流处理）或处理时间（流处理）上。Tableau模式（

overfit同步小助手 2024-07-28 21:03:47 0 收藏

RabbitMQ保证消息被成功发送和消费

overfit同步小助手 2024-07-28 21:03:20 0 收藏

【SpringCloud学习笔记】RabbitMQ（上）

介绍了如何基于Docker环境安装RabbitMQ、RabbitMQ相关控制台操作、基于SpringAMQP收发消息，最后介绍了WorkQueue任务模型

overfit同步小助手 2024-07-28 20:03:52 0 收藏

微服务数据流的协同：Eureka与Spring Cloud Data Flow集成指南

Spring Cloud Data Flow是一个用于构建和操作数据流应用程序的框架。它允许开发者轻松地定义、部署和管理数据流。

overfit同步小助手 2024-07-28 18:03:31 0 收藏

MySQL、Redis 和 Zookeeper 实现分布式锁方法及优缺点

MySQL、Redis 和 Zookeeper 都可以用来实现分布式锁，每种技术都有其特定的实现方法以及各自的优缺点。

overfit同步小助手 2024-07-28 18:03:26 0 收藏

Eureka服务注册与发现中心

我们在一个项目中通常会有各种各样的模块服务，比如说在一个电商项目中可能会有订单模块服务、付款模块服务、发货模块服务，实际项目中的每个模块服务在Eureka服务注册与发现中心都是对应client客户端；而对于Eureka服务注册与发现中心的server服务端，可以理解成是一个独立于项目之外的一个管理中

overfit同步小助手 2024-07-28 17:03:49 0 收藏

zookeeper基本使用

zookeeper允许用户在指定节点上注册一些watcher,并且在一些特定事件触发的时候,zookeeper服务端会将时间通知到感兴趣的客户端上去,该机制是zookeeper实现分布式协调服务的重要特性。在进行单机应用开发的时候,涉及到并发同步的时候,我们使用synchronized或者lock的

overfit同步小助手 2024-07-28 16:03:53 0 收藏

Spark 秘籍（三）

以下是维基百科对监督学习的定义：“监督学习是从标记的训练数据中推断函数的机器学习任务。监督学习有两个步骤：使用训练数据集训练算法；这就像是先提出问题和它们的答案使用测试数据集向训练好的算法提出另一组问题。回归：这预测连续值输出，比如房价。分类：这预测离散值输出（0 或 1）称为标签，比如一封电子邮件

overfit同步小助手 2024-07-28 16:03:30 0 收藏

Scala 和 Spark 大数据分析（四）

UDFs 定义了扩展 Spark SQL 功能的新基于列的函数。通常，Spark 提供的内置函数不能处理我们确切的需求。在这种情况下，Apache Spark 支持创建可以使用的 UDF。udf()在内部调用一个案例类用户定义函数，它本身在内部调用 ScalaUDF。让我们通过一个简单将 State

overfit同步小助手 2024-07-28 15:03:49 0 收藏

Flink中定时器的使用

我们在其processElement()方法中注册Timer，然后覆写其onTimer()方法作为Timer触发时的回调逻辑。基于处理时间或者事件时间处理过一个元素之后，注册一个定时器，然后在指定的时间运行。监控水位传感器的水位值，如果水位值在（处理时间）5秒内连续上上，则报警。当水位线大于等于定时

overfit同步小助手 2024-07-28 14:03:56 0 收藏

Hive窗口函数

在 Apache Hive 中，窗口函数是一种特殊类型的函数，它允许你在查询中对分区数据执行复杂的分析。窗口函数在标准 SQL 中可用，Hive 作为 Apache Hadoop 的一个组件，也支持这些功能。以下是一些常见的窗口函数以及如何在 Hive 中使用它们的示例。

overfit同步小助手 2024-07-28 14:03:37 0 收藏

HBase RowKey设计原理与代码实例讲解

HBase RowKey设计原理与代码实例讲解1. 背景介绍1.1 问题的由来HBase 是一个构建在分布式文件系统（如 HDFS）上的高性能、可扩展、面向列的数据库。它被设计用于处理大规模的数据集，并支持实时读取和写入。H

overfit同步小助手 2024-07-28 12:03:46 0 收藏

hadoop上的spark和Scala安装与配置

进入 /opt/software/ 查看是否导入scala、spark包（刚开始就导入包了，这里直接查看）然后进行文件的托拽到（/opt/software）目录下，也可以复制哦（可以两个包一起导入）（2）进入 /opt/software/ 查看是否导入scala、spark包。然后用tar命令解

overfit同步小助手 2024-07-28 12:03:43 0 收藏

spark运行的基本流程

Stage的DAG通过最后执行Stage为根进行广度优先遍历，遍历到最开始执行的Stage执行，如果提交的Stage仍有未完成的父母Stage，则Stage需要等待其父Stage执行完才能执行。我们都知道， spark计算模型是在分布式的环境下计算的，这就不可能在单进程空间中容纳所有的计算数

overfit同步小助手 2024-07-28 11:03:20 0 收藏

大数据期末复习——hadoop、hive等基础知识

Hadoop提供了高可用性的解决方案，如HDFS的NameNode HA(高可用性)机制和VARN的ResourceManager HA机制，确保即使在节点故障的情况下，集群仍能保持高可用性，不影响作业的执行。2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

overfit同步小助手 2024-07-28 10:03:51 0 收藏

Flink集群搭建教程最详细最简单一看就会

Flink集群搭建

overfit同步小助手 2024-07-28 08:04:14 0 收藏

大数据在网约车行业应用（46天）

大数据在网约车行业应用

overfit同步小助手 2024-07-28 08:03:41 0 收藏

HIVE3.1.3+ZK+Kerberos+Ranger2.4.0高可用集群部署

HIVE3.1.3+ZK+Kerberos+Ranger高可用集群部署

overfit同步小助手 2024-07-28 08:03:37 0 收藏

Flink-CDC解析（第47天）

本文主要概述了Flink-CDC

overfit同步小助手 2024-07-28 08:03:34 0 收藏

32 | KafkaAdminClient：Kafka的运维利器

今天要和你分享的主题是：Kafka 的运维利器 KafkaAdminClient。

overfit同步小助手 2024-07-28 07:03:46 0 收藏