大数据 - overfit.cn

【大数据】Flink SQL 语法篇（九）：Window TopN、Deduplication

小伙伴萌会问了，我有了 TopN 为啥还需要 Window TopN 呢？还记得上一篇博客介绍 TopN 说道的 TopN 时会出现中间结果，从而出现回撤数据的嘛？Window TopN 不会出现回撤数据，因为 Window TopN 实现是在窗口结束时输出最终结果，不会产生中间结果。而且注意，因为

overfit同步小助手 2024-03-13 17:03:51 0 收藏

大数据技术Hadoop+Spark

MapReduce是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎。spark框架包含多个紧密集成的组件，包括Spark S

overfit同步小助手 2024-03-13 17:03:17 0 收藏

Kafka｜处理 Kafka 消息丢失的有效措施

消息丢失是 Kafka 系统中一个严重的问题，可能会发生在生产者、Broker 或消费者任何方面。今天我们来讨论一些可能导致消息丢失的场景以及如何解决。

overfit同步小助手 2024-03-13 16:03:42 0 收藏

如何在 Ubuntu 20.04 上安装 Apache Kafka

Apache Kafka是一种分布式消息代理，旨在处理大量实时数据。Kafka 集群具有高度可扩展性和容错性。与ActiveMQ和RabbitMQ等其他消息代理相比，它还具有更高的吞吐量。尽管它通常用作*发布/订阅*消息传递系统，但许多项目也将其用于日志聚合，因为它为已发布的消息提供持久存储。

overfit同步小助手 2024-03-13 16:03:10 0 收藏

微服务（SpringCloud）第四篇之RabbitMQ（消息队列基础篇）

springcloud 微服务 RabbitMQ 消息队列

overfit同步小助手 2024-03-13 15:03:28 0 收藏

浅析大数据汇总

传统，大数据主要关注数据的采集、存储和处理能力。随着互联网的快速发展，用户在互联网上产生了大量的数据，这些数据包括用户行为数据、社交媒体数据、传感器数据等。传统的数据库技术已经无法满足对这些海量数据的存储和处理需求，因此出现了分布式存储和计算技术，如Hadoop、HBase等。这些技术使得大数据的存

overfit同步小助手 2024-03-13 13:03:51 0 收藏

大数据开发（Hadoop面试真题-卷一）

输入分片是将大文件切割成适合并行处理的小块数据，每个小块数据叫做一个输入分片。作为MapReduce任务的基本单元，输入分片使得多个计算节点可以同时处理不同的输入数据，并发执行任务。这样可以提高整体任务的执行效率和并发度。数据倾斜指在分布式计算环境下，某个或几个计算节点负责处理的数据量远大于其它计算

overfit同步小助手 2024-03-13 13:03:34 0 收藏

业务拓展利器！跨境电商如何选对代理IP？IPIDEA 一键连接全球商机！

overfit同步小助手 2024-03-13 11:03:28 0 收藏

Zookeeper 集群中是怎样选举leader的

其过程和启动时期的Leader选举过程基本一致。假设正在运行的有Server1、Server2、Server3三台服务器，当前Leader是Server2，若某一时刻Leader挂了，此时便开始Leader选举。对于Server1而言，它的投票是(1, 0)，接收Server2的投票为(2, 0)，

overfit同步小助手 2024-03-13 10:03:49 0 收藏

Flink介绍

Flink 可以处理实时产生的事件流数据，并实时进行事件处理和响应，用于物联网、智能监控等实时事件处理场景。例如，如果要将数据写入到 Kafka 主题中，可以使用 FlinkKafkaProducer，如果要将数据写入到文件中，可以使用 TextOutputFormat。：Flink 可以与机器学习

overfit同步小助手 2024-03-13 09:03:29 0 收藏

大数据职业技能大赛样题(数据采集与实时计算：使用Flink处理Kafka中的数据)

另外对于数据结果展示时，不要采用例如：1.9786518E7的科学计数法）。

overfit同步小助手 2024-03-13 09:03:21 0 收藏

【sentry 到 ranger 系列】二、Sentry 的 Hadoop 鉴权插件

Sentry 的 Namenode 插件如何更新权限信息和提供鉴权能力

overfit同步小助手 2024-03-13 08:03:35 0 收藏

上一世当上失败的Java工程师，这一世我卷土重来怒学spark

Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。根据服务对象和层次分为：数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下来对Hadoop生态圈中出现的相关组件做一个简要介绍。HQL用于运行存储在Hadoop上的查询语句，H

overfit同步小助手 2024-03-13 06:03:30 0 收藏

ClickHouse生产运维系列[部署篇]-02_Zookeeper介绍及集群安装部署

Zookeeper是Apache开源的一个分布式框架，它主要为分布式应用提供协调服务。Zookeeper最早由雅虎研究院开发，是Google Chubby的开源实现，后来托管到Apache，并于2010年11月正式成为Apache的顶级项目。有个比较有意思的是，大数据生态系统里很多组件选用动物或昆虫

overfit同步小助手 2024-03-13 05:03:46 0 收藏

Zookeeper的集群故障排查与诊断

1.背景介绍1. 背景介绍Apache Zookeeper是一个开源的分布式协调服务，用于构建分布式应用程序的基础设施。它提供了一组原子性的基本服务，如集群管理、配置管理、同步、通知和组管理。Zookeeper的高可用性和容错性是其核心特性，使得它在分布式系统中具有广泛的应用。在实际应用中，Zook

overfit同步小助手 2024-03-13 05:03:14 0 收藏

Flink StreamTask启动和执行源码分析

Flink的StreamTask的启动和执行是一个复杂的过程，涉及多个关键步骤。初始化：StreamTask的初始化阶段涉及多个任务，包括Operator的配置、task特定的初始化以及初始化算子的State等。在这个阶段，Flink将业务处理函数抽象为operator，并通过operatorCha

overfit同步小助手 2024-03-13 03:03:42 0 收藏

大数据之flume（一）

flume是一个分布式、高可用、高可靠的海量日志采集、聚合、传输系统，支持在日志系统中定制各种数据发送方从而收集数据，并提供数据简单处理能力并传到各种数据接收方。flume设计原理是基于数据流的，能够将不同数据源的海量日志进行高效收集、聚合、移动、存储，能做到近似实时。自定义拦截器自定义source

overfit同步小助手 2024-03-13 03:03:20 0 收藏

基于hive的安顺旅游景点数据分析的设计与实现

*背景介绍：基于Hive的安顺旅游景点数据分析的设计与实现**随着信息技术的迅猛发展，大数据分析逐渐成为了解决复杂问题和优化业务决策的关键工具。在旅游业这一日益繁荣的行业中，利用大数据技术进行景点数据分析具有重要的实际意义。安顺，作为中国贵州省的一个重要旅游城市，其丰富的自然风光和深厚的历史文化为游

overfit同步小助手 2024-03-13 02:03:23 0 收藏

大数据智能化-长视频领域

随着数字化与AI时代的到来，长视频领域的发展迎来了新的机遇和挑战。在这一背景下，大数据智能化技术的应用成为长视频行业提升用户体验、优化运营管理的重要手段之一。本文将从优爱腾3大长视频背景需求出发，分析静态资源CDN、视频文件存储与分发、UGC/PGC/AIGC内容管理与应用、用户APP埋点数据分析等

overfit同步小助手 2024-03-13 01:03:57 0 收藏

hadoop（伪分布式）上的spark和Scala安装与配置详细版

这里我使用是xshell进行的操作，需要的可以自行下载，这里就不多做解释了（（4）进入spark/sbin 启动spark ./start-all.sh。然后进行文件的托拽到（/opt/software）目录下，也可以复制哦。然后用tar命令解压文件，解压到/opt/module目录下。出现上面的情

overfit同步小助手 2024-03-13 01:03:38 0 收藏