大数据 - overfit.cn

Spark Streaming原理与代码实例讲解

Spark Streaming 是Apache Spark生态系统中的核心组件之一,是建立在Spark Core之上的实时流处理框架。它扩展了Spark的核心API,支持弹性,高吞吐,可容错的实时数据流处理。Spark Streaming能够从多种数据源(如Kafka, Flume, HDFS等)实

overfit同步小助手 2024-07-24 03:03:51 0 收藏

摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profi

overfit同步小助手 2024-07-24 03:03:44 0 收藏

Linux下安装Hive

安装hive前确保mysql已经安装安装需要的文件链接：https://pan.baidu.com/s/1AnZanBBwa_hYjfxfuGmYgQ?pwd=wf06提取码：wf06。

overfit同步小助手 2024-07-24 01:03:37 0 收藏

RabbitMQ 高级功能

RabbitMQ 是一个广泛使用的开源消息代理，它支持多种消息传递协议，可以在分布式系统中用于可靠的消息传递。除了基本的消息队列功能外，RabbitMQ 还提供了一些高级功能，增强了其在高可用性、扩展性和灵活性方面的能力。

overfit同步小助手 2024-07-24 01:03:25 0 收藏

Azure DevOps与大数据：Apache Spark的流处理任务

好了，朋友们！🎉 你已经学会了如何使用Azure DevOps和Apache Spark来自动化流处理任务的构建和部署。这不仅加快了开发速度，也保证了代码的质量和一致性。继续探索吧，DevOps和数据科学的世界充满了无限可能！请注意，在实际部署中，你可能需要根据你的具体需求和环境进行一些调整，比如

overfit同步小助手 2024-07-24 01:03:21 0 收藏

Spark使用map函数出现：Python worker exited unexpectedly (crashed)

本编使用的是python12.exe解释器，解决问题，将python.exe版本降低即可，我这里降低到了python10.exe；

overfit同步小助手 2024-07-24 00:03:49 0 收藏

项目实战--Spring Boot 3整合Flink实现大数据文件处理

性能优化策略利用Spring Boot 3.+和Flink构建一个高效的大数据文件处理应用

overfit同步小助手 2024-07-24 00:03:41 0 收藏

Python API(happybase)操作Hbase案例

想要使用Python API连接HBase，需要开启HBase的Thrift服务。所以，在Linux服务器上，执行如下命令，开启HBase的Thrfit服务。链接：https://pan.baidu.com/s/14n-2XoXyxZL7hN80cNTJMw。至此启动Thrift服务并安装了Happ

overfit同步小助手 2024-07-24 00:03:23 0 收藏

Spark 中如何去处理数据倾斜

在大数据环境中，使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spa

overfit同步小助手 2024-07-23 23:04:25 0 收藏

实时数仓-电商数据仓库系统

作为集合元素，查询结果的每一行对应一个实体类对象，将所有对象封装到 List 集合中，返回给方法调用者。

overfit同步小助手 2024-07-23 22:03:53 0 收藏

kafka-Stream详解篇（附案例）

Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。Kafka Stream提供了一个非常简单而轻量的Library，它可以非常方便地嵌入任意Java应用中，也可以任意方式打包和部署除了Kafka外

overfit同步小助手 2024-07-23 19:03:42 0 收藏

Zookeeper入门篇，了解ZK存储特点

继上次说完 Zookeeper 的安装后，已经过去半年多了，一直没有后续，本次得空就更新一下入门篇，给同学们介绍一下 Zookeeper ，并着重说一下其存储原理

overfit同步小助手 2024-07-23 18:03:19 0 收藏

PySpark（一）Spark原理介绍、PySpark初体验及原理

Apache Spark是用于处理的统一（unified）分析引擎，其特点就是对任意类型的数据进行自定义计算。

overfit同步小助手 2024-07-23 17:03:47 0 收藏

深入探索Apache ZooKeeper：关键技术学习与实践指南

深入学习ZooKeeper不仅需要理解其分布式一致性原理、数据模型与API，还需掌握集群架构、会话管理、Watcher机制以及在实际场景中的应用。同时，重视监控与运维、安全与权限管理，确保ZooKeeper在生产环境中稳定、高效、安全地运行。通过理论学习与实践操作相结合，读者将能全面驾驭这一强大的分

overfit同步小助手 2024-07-23 17:03:43 0 收藏

实现分布式锁，Zookeeper 与 Redis 哪个更好一点？

# 1. 为什么使用分布式锁？分布式锁有什么用途？## (1)使用分布式锁的目的使用分布式锁的目的很简单，就是为了保证在同一时间里面，只有一个 JVM 进程可以实现对于共享资源的操作。## 确保数据的一致性在分布式环境中，多个节点可能会同时访问和修改同一数据或资源。分布式锁可以确保在任何时刻只有一个

overfit同步小助手 2024-07-23 16:03:56 0 收藏

二百四十、Hadoop——解决Hadoop 未授权访问漏洞

Hadoop——解决Hadoop 未授权访问漏洞

overfit同步小助手 2024-07-23 15:03:41 0 收藏

Nacos和Eureka有什么区别

Eureka具有自我保护模式，当在短时间内，统计续约失败的比例达到一定阈值时，Eureka Server会触发自我保护的机制，不会剔除任何微服务，以保证集群的剩余健康实例能正常工作。综上所述，Nacos和Eureka在功能范围、自我保护机制、支持模式、连接方式、动态DNS服务以及服务和元数据管理等方

overfit同步小助手 2024-07-23 13:03:53 0 收藏

Kafka系列之：Kafka存储数据相关重要参数理解

在Apache Kafka中，数据底层文件主要包括以下几种类型：这几个文件是Apache Kafka在存储和管理消息时使用的，以下是对每个文件的解释：

overfit同步小助手 2024-07-23 12:03:39 0 收藏

hive 数仓开发实战

对于一个公司或者组织来说，使用数据的用户可能成百上千，如何降低大家对于数据使用的沟通成本、如何通过规范大家的行为来降低使用数据的风险，这些问题是必须加以考虑的。作为新的大数据架构，数据湖采集和存储一切数据，既包含结构化的数据也包含非结构化（如语音、视频等）和半结构化的数据（如JSON 和XML 等）

overfit同步小助手 2024-07-23 11:03:57 0 收藏

Flink架构底层原理详解：案例解析（43天）

本文主要详解了Flink架构，通过案例详解Flink流式开发，本地提交，阿里云平台提交。

overfit同步小助手 2024-07-23 09:03:28 0 收藏