大数据 - overfit.cn

Spark核心知识要点（八）Shuffle配置调优

overfit同步小助手 2024-08-23 12:03:45 0 收藏

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

上节研究了Spark的RDD的Super Word Count程序，实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系，RDD的持久化、RDD的缓存机制。RDD任务切分中间分为：Driver program、Job、Stage(TaskSet) 和 Task。Dri

overfit同步小助手 2024-08-23 12:03:37 0 收藏

CKafka如何赋能企业日志压缩与监控数据聚合新纪元

腾讯云CKafka作为一款分布式、高吞吐量、高可扩展性的消息系统，在大数据处理领域展现出了强大的实力。它不仅为企业提供了高效、稳定的日志压缩收集与监控数据聚合解决方案，还为企业数字化转型提供了强有力的支撑。随着大数据技术的不断发展，我们有理由相信，CKafka将在未来发挥更加重要的作用，为企业创造更

overfit同步小助手 2024-08-23 10:03:51 0 收藏

从零开始大模型开发与微调：编码器的实现

随着人工智能在自然语言处理(NLP)领域的快速发展，对大规模预训练模型的需求日益增长。这些大型模型不仅需要具备广泛的语言理解能力，还需要能适应各种下游任务需求。传统上，针对特定任务训练的较小模型往往无法达到所需的泛化效果或性能上限。因此，近年来出现了大量用于大规模数据集上的预训练模型，如BERT、G

overfit同步小助手 2024-08-23 10:03:41 0 收藏

大数据-Big Data（一）：概述与基础

在当今数字化时代，大数据（Big Data）已成为各行各业的核心驱动力。从商业决策到科学研究，数据的规模和复杂性日益增加。本文旨在深入探讨大数据的概念、基础技术及其在各个领域的应用，帮助读者全面理解大数据的基本理论和实践方法。

overfit同步小助手 2024-08-23 09:03:53 0 收藏

kafka监控工具EFAK

overfit同步小助手 2024-08-23 09:03:50 0 收藏

大数据-54 Kafka 安装配置环境变量配置启动服务 Ubuntu配置 ZooKeeper

上节我们看了Kafka的核心架构概念，Producer、Consumer、Topic等等，本节我们下载安装配置部署Kafka服务器，并启动Kafka，前置依赖需要Java和ZooKeeper。Kafka在3版本以下都是需要ZooKeeper来做协调器的，在3版本以上，Kafka实现了自己的协议去做高

overfit同步小助手 2024-08-23 09:03:28 0 收藏

Hologres+Flink企业级实时数仓核心能力介绍

overfit同步小助手 2024-08-23 08:03:55 0 收藏

kafka+zookeeper教程

创建节点(znode)-s: 创建顺序节点。-e: 创建临时节点。获取znode的数据。设置znode的数据。查看znode的状态。递归删除其子节点使用。

overfit同步小助手 2024-08-23 05:04:15 0 收藏

得物Flink内核探索实践

随着大数据技术的飞速发展，实时处理能力变得越来越重要。在众多实时处理框架中，Apache Flink以其强大的流处理能力和丰富的功能集，受到了广泛关注和应用。在实时业务日益增长的趋势下，这促使我们深入探索Flink的内核，以更好地保障Flink任务的维护。本次分享将重点介绍得物在Flink内核方面的

overfit同步小助手 2024-08-23 05:04:11 0 收藏

数仓实践：一文读懂数仓 ODS 层模型设计

具体使用的方式可用全外连接（full outer join） + 数据全量覆盖重新加载（insert overwrite）的方式，即如日调度，则将当天增量数据和前一天全量数据做全外连接，重新加载为最新的全量数据。具体使用的方式可用主键去重（row_number）+ 数据全量覆盖重新加载（insert

overfit同步小助手 2024-08-23 04:03:52 0 收藏

如何保证Kafka顺序消费

确保 Kafka 顺序消费需要结合生产者配置、消费者配置和应用设计来实现。对于单分区内的顺序保证相对简单，通过分区键或自定义分区器即可实现。对于全局顺序性，需要在设计上进行更多考虑，如使用单分区、应用层排序或 Kafka Streams 等方法。此外，确保消费逻辑的幂等性也是顺序消费的一部分。根据具

overfit同步小助手 2024-08-23 03:03:39 0 收藏

Spark-SparkContext类解析

SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎，SparkContext 初始化完毕，才能向 Spark 集群提交应用程序，而 SparkContext 的配置参数则由 SparkConf 负责

overfit同步小助手 2024-08-23 03:03:26 0 收藏

Doris: Multi Catalog 多源数据目录

overfit同步小助手 2024-08-23 02:04:05 0 收藏

深入理解Kafka核心设计与实践原理_03

消费者并非逻辑上的概念，它是实际的应用实例，它可以是一个线程，也可以是一个进程。Kafka 同时支持两种消息投递模式，而这正是得益于消费者与消费组模型的契合：· 如果所有的消费者都隶属于同一个消费组，那么所有的消息都会被均衡地投递给每一个消费者，即每条消息只会被一个消费者处理，这就相当于点对点模式的

overfit同步小助手 2024-08-23 02:03:45 0 收藏

ApacheFlink的窗口操作：滚动窗口滑动窗口和session窗口

ApacheFlink的窗口操作：滚动窗口、滑动窗口和session窗口作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM

overfit同步小助手 2024-08-23 01:03:55 0 收藏

标题：探索阿里云Spark on MaxCompute：高性能数据分析利器

标题：探索阿里云Spark on MaxCompute：高性能数据分析利器 aliyun-cupid-sdkSDK for open source framwork to interact with MaxCompute项目地址:https://gitcode.com/gh_mirrors/al/a

overfit同步小助手 2024-08-23 00:03:49 0 收藏

hive的优化策略

以 on,where 多条件字段顺序，建【多重】分区表，默认开启支持,以分区字段为条件筛选数据，tez引擎：动态分区剪裁支持。控制Mapper和Reducer数量，mapper的启动和初始化开销较大,【数量过多】导致开销大于逻辑处理,浪费资源。从表：不存在以NULL填充，where不能下推，on可以

overfit同步小助手 2024-08-23 00:03:42 0 收藏

OceanBase 实时分析Demo 解析：Flink + OceanBase

本文介绍如何基于Flink和OceanBase AP数据库，实现在线下单与实时分析的Demo。

overfit同步小助手 2024-08-22 23:03:52 0 收藏

Elastic：监控不同于可观察性的 3 个原因

监控是收集、提取和分析应用程序、基础设施和/或云遥测数据以评估系统运行状况的过程。监控依赖于指标，例如 CPU 或内存使用率和网络流量、日志和跟踪。这些数据使 IT 团队能够实时跟踪其基础设施和应用程序的性能和可用性。监控工具和平台可以提供仪表板和警报，并具有报告功能，以帮助 IT 团队监控组件、识

overfit同步小助手 2024-08-22 23:03:17 0 收藏