大数据 - overfit.cn

一文了解和区分数据中台、数据平台、数据湖、数据仓库

在当今数字化时代，数据已经成为推动科技发展和商业创新的关键要素之一。数据中台、数据平台、数据湖和数据仓库是构建现代数据架构的重要组成部分。然而，这些概念之间往往容易混淆。本文将深入介绍并区分这些概念，通过生动的例子帮助读者更好地理解它们之间的关系和区别。

overfit同步小助手 2024-07-17 13:03:37 0 收藏

Spark产生小文件的原因及解决方案

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之

overfit同步小助手 2024-07-17 12:03:55 0 收藏

Kafka消息能正常发送，但是无法消费问题排查

如果kafka能正常发送消息，但是消费异常，一般是消费位点出现了问题，即管理消费位点的这个toipc目前来看新增了3个brokerkafka并没有自动对进行分区迁移，需要手动进行迁移所以后续出现消费相关的问题可以优先检查这个topic的情况,毕竟kafka得消费位点都依赖于这个topic。

overfit同步小助手 2024-07-17 12:03:52 0 收藏

Flink原理与代码实例讲解

Flink原理与代码实例讲解1.背景介绍1.1 什么是FlinkApache Flink是一个开源的分布式流处理和批处理框架,由Apache软件基金会开发。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可

overfit同步小助手 2024-07-17 11:03:48 0 收藏

PySpark实战教程：大数据处理与分析案例

在开始使用PySpark之前，首先需要安装Apache Spark。Apache Spark是一个开源的大数据处理框架，它提供了对大规模数据集进行快速处理的能力。PySpark则是Spark的Python API，允许开发者使用Python编写Spark应用程序。

overfit同步小助手 2024-07-17 10:03:52 0 收藏

hadoop3.0高可用分布式集群安装

hadoop高可用，依赖于zookeeper。

overfit同步小助手 2024-07-17 10:03:39 0 收藏

【原创】OGG21.3 CENTOS配置ORACLE 19C ADG至KAFKA

GROUPTRANSOPS为以事务传输时，事务合并的单位，减少IO操作；GETUPDATEBEFORES ----12.3版本要加此参数，若不加，在普通update时，即便抽取进程加了GETUPDATEBEFORES等参数，kafka表中的被修改字段修改前的值也不会被写入，11G版本不需要此参数亦

overfit同步小助手 2024-07-17 09:04:05 0 收藏

Spark编程基础

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎特点：运行速度快、容易使用、通用性、运行模式多样。

overfit同步小助手 2024-07-17 09:03:34 0 收藏

交易-软件科技股F4（kafka、NET、snow、MongoDB）

Cloudflare通过其遍布全球的CDN优化内容的交付速度和可靠性。：该公司提供领先的DDoS防护服务，以保护客户免受大规模网络攻击的影响。：Cloudflare的WAF服务增强了网站的安全性，通过阻止恶意流量来保护客户免受应用层攻击。

overfit同步小助手 2024-07-17 07:03:32 0 收藏

基于RabbitMQ的异步消息传递：发送与消费

mq消息队列

overfit同步小助手 2024-07-17 05:03:35 0 收藏

Hive怎么调整优化Tez引擎的查询？在Tez上优化Hive查询的指南

在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中，应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改，并最好在开发环境中评估调优更改的影响，然后再在生产环境中使用。

overfit同步小助手 2024-07-17 04:03:38 0 收藏

Hive中的数据类型和存储格式总结

overfit同步小助手 2024-07-17 04:03:17 0 收藏

Spark算法之ALS模型（附Scala代码）

ALS模型，全称为交替最小二乘法（Alternating Least Squares），是一种基于协同过滤思想的矩阵分解算法。它的核心思想是通过隐含特征（latent factors）联系用户兴趣和物品（item），基于用户的行为找出潜在的主题和分类，然后对物品进行自动聚类，划分到不同类别或主题（代

overfit同步小助手 2024-07-17 03:03:52 0 收藏

探索大数据的瑞士军刀：Apache Gobblin

探索大数据的瑞士军刀：Apache Gobblin项目地址:https://gitcode.com/apachegobblin/gobblin在海量数据的时代，如何高效、可靠地将数据从各种来源迁移到Hadoop生态系统中成为了数据工程师的一大挑战。今天，我们将深入探索一个由LinkedIn贡献并已孵

overfit同步小助手 2024-07-17 03:03:40 0 收藏

Hive概述与基本操作

Hive基本概念，hive架构，hive的数据库操作、表操作，内部表与外部表

overfit同步小助手 2024-07-17 02:03:46 0 收藏

Apache Spark 入门指南：概述、安装、使用及RDD基础

Apache Spark 是一个快速且通用的大规模数据处理引擎。它提供了一个易于使用的编程模型，支持Java、Scala、Python和R等多种编程语言。Spark 能够高效地处理各种数据，包括批量数据和实时数据流。在Spark中，RDD（Resilient Distributed Dataset）

overfit同步小助手 2024-07-17 01:03:38 0 收藏

【头歌】HBase扫描与过滤答案解除复制粘贴限制

当作者遇到这个限制的时候火气起来了三分，然后去网上搜索答案，然后发现了一位【碳烤小肥肠】居然不贴代码，XX链接，贴截图，瞬时火气冲顶，怒写此文

overfit同步小助手 2024-07-17 00:03:52 0 收藏

Kafka入门-基础概念及参数

overfit同步小助手 2024-07-16 23:03:50 0 收藏

【大数据】什么是数据清洗？（附应用场景及解决方案）

本文介绍了数据清洗的概念、应用场景以及难点，并提出解决方案，就如何用FDL进行数据清洗提供了具体操作步骤。

overfit同步小助手 2024-07-16 21:03:43 0 收藏

zookeeper学习、配置文件参数详解

ZooKeeper 是一个分布式协调服务，它可以维护配置信息、命名空间、分布式同步等。ZooKeeper 的配置文件通常是 zoo.cfg，这个文件中包含了 ZooKeeper 运行所需要的配置信息。

overfit同步小助手 2024-07-16 21:03:40 0 收藏