大数据 - overfit.cn

PySpark 读写Hive数据源

Hive 3.0以后，默认建立的表是ORC格式的（不用在hive-site.xml中开启行级事务支持）。但如果是在Hive交互命令行创建的表，在spark程序看来都是HiveFileFormat格式的表。因此，上面的代码中采用.format('Hive')。要回避这个问题，也可以采用以下代码，即从一

overfit同步小助手 2024-03-14 19:03:51 0 收藏

终于找到了最新版的Zookeeper入门级教程，建议收藏！

官方解释ZooKeeper 是一个集中式服务，用于维护配置信息、命名、提供分布式同步、提供组服务。所有这些类型的服务都以某种形式由分布式应用程序使用。每次实施它们时，都需要进行大量工作来修复不可避免的错误和竞争条件。由于实现此类服务很困难，应用程序最初通常会忽略它们，这使得它们在发生变化时变得脆弱并

overfit同步小助手 2024-03-14 18:03:37 0 收藏

【MQTT】MQTT协议与指令下发；MQTT与Kafka比较

它提供了发布/订阅的模式，允许设备和系统之间实现松耦合的通信。在结合MQTT时，需要定义好指令的主题（Topic），确保设备和控制中心都订阅了正确的主题，以便指令的传递。MQTT最初是为低带宽、不稳定网络环境下的传感器和设备之间的通信而设计的，但现在已经广泛应用于各种应用领域。上述代码演示了一个简单

overfit同步小助手 2024-03-14 18:03:31 0 收藏

【Xiao.Lei】- Eureka工作原理详解：构建高可用微服务注册中心

Eureka是Netflix开源的一套服务发现框架，用于构建分布式系统中的微服务架构。它允许微服务在运行时注册自己，并允许其他服务发现和调用这些微服务实例。通过本文，你深入了解了Eureka的工作原理，包括服务注册与发现流程、心跳机制、失效剔除、高可用与容错等方面。Eureka作为微服务架构中不可或

overfit同步小助手 2024-03-14 17:03:37 0 收藏

Zookeeper与Jetty集成与Web服务

1.背景介绍1. 背景介绍Zookeeper是一个开源的分布式协调服务，用于构建分布式应用程序。它提供了一种可靠的、高性能的、易于使用的分布式协调服务，以实现分布式应用程序的一致性和可用性。Jetty是一个轻量级的Java Web服务器和HTTP服务器，用于构建Web应用程序。它提供了一个简单易用的

overfit同步小助手 2024-03-14 15:03:48 0 收藏

Kafka

启用幂等性，即在Producer的参数中设置enable.idempotence=true即可，Kafka的幂等性实现实际是将之前的去重操作放在了数据上游来做，开启幂等性的Producer在初始化的时候会被分配一个PID，发往同一个Partition的消息会附带Sequence Number，而Br

overfit同步小助手 2024-03-14 12:03:46 0 收藏

HBase扫盲

Namespace(表命名空间)：表命名空间不是强制的，当想把多个表分到一个组去统一管理的时候才会用到命名空间。Table(表): 一个表由一个或多个列族组成。数据属性，比如超时时间(TTL)、压缩算法(Compression)等，都在列族的定义中定义。Row(行)：一个行包含多个列，这些列通过了列

overfit同步小助手 2024-03-14 11:03:50 0 收藏

使用 Docker 设置 PySpark Notebook

此标志指示 Docker 将容器的所有公开端口发布到主机上的随机端口。在您的工作空间中命名的目录。请记住，您需要在下一步中调整路径以匹配您的系统设置。在此目录中您可以存储任何 CSV 文件。此标志指示 Docker 在分离模式下运行容器，这意味着它将在后台运行，您不会在终端中看到其输出。将 URL

overfit同步小助手 2024-03-14 11:03:30 0 收藏

SparkStreaming与Flink集成

1.背景介绍1. 背景介绍Apache Spark和Apache Flink都是流处理框架，它们在大规模数据流处理中发挥着重要作用。SparkStreaming是Spark生态系统中的流处理组件，它可以处理实时数据流，并提供了丰富的API来实现流处理。Flink是一个流处理框架，它专注于流处理和事件

overfit同步小助手 2024-03-14 10:03:10 0 收藏

Zookeeper笔记

/ 主要见讲义的前4页主要是：统一命名服务、统一配置管理、统一集群管理、服务器动态上下线、软负载均衡。

overfit同步小助手 2024-03-14 09:03:31 0 收藏

【梳理】k8s使用Operator搭建Flink集群（高可用可选）

本文内容来源于Flink官网，进行翻译、简化、整理，供大家参考~

overfit同步小助手 2024-03-14 08:04:01 0 收藏

Spark编程语言选择：Scala、Java和Python

Scala是一种多范式编程语言，结合了面向对象编程和函数式编程的特性。它具有静态类型系统和强大的类型推断功能，使得代码更加安全和具有可读性。Java是一种广泛使用的编程语言，具有跨平台性和丰富的生态系统。它是一种静态类型语言，以其稳定性和性能而闻名。Python是一种易学易用的编程语言，具有清晰的语

overfit同步小助手 2024-03-14 08:03:53 0 收藏

HashData湖仓一体方案：方案概览与Hive数据同步

HashData研发的HMS异构数据的一站式查询方案，通过轻量级、简单化的技术架构，降低企业湖仓建设过程中产品选型、数据管理的难度和成本，高效发挥湖仓一体低成本、高可用、易拓展等优势，帮助企业建立统一治理、湖仓一体的云原生数据分析平台。

overfit同步小助手 2024-03-14 08:03:50 0 收藏

Flink学习之旅：（一）Flink部署安装

进入Flink官网，点击Downloads往下滑动就可以看到 Flink 的所有版本了，看自己需要什么版本点击下载即可。

overfit同步小助手 2024-03-14 08:03:46 0 收藏

滴滴 Flink 指标系统的架构设计与实践

毫不夸张地说，Flink 指标是洞察 Flink 任务健康状况的关键工具，它们如同 Flink 任务的眼睛一般至关重要。简而言之，这些指标可以被理解为滴滴数据开发平台实时运维系统的数据图谱。在实时计算领域，Flink 指标扮演着举足轻重的角色，例如，实时任务的消费延迟和检查点失败的警报都是基于对 F

overfit同步小助手 2024-03-14 08:03:27 0 收藏

145份！数据治理、数据中台、数据湖、数据仓库、主数据方案合集

269页7万字数字政府智慧政务大数据治理平台、大数据资源中心技术解决方案WORD (1).docx。269页7万字数字政府智慧政务大数据治理平台、大数据资源中心技术解决方案WORD.docx。数据元、元数据、主数据、主数据管理、元数据管理、资源目录方案PPT.pptx。258页10万字大数据平台数据

overfit同步小助手 2024-03-14 05:03:48 0 收藏

大数据 - Spark系列《十一》- Spark累加器详解

累加器用来把Executor端变量信息聚合到Driver端。在 Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后，传回 Driver端进行merge。观察一个问题: 原因是数据在executor端执行完毕以后并没有将ac

overfit同步小助手 2024-03-14 05:03:43 0 收藏

异常检测模型：SparkMLlib库的异常检测模型

1.背景介绍异常检测模型是一种常用的数据分析和预测方法，用于识别数据中的异常点。在许多应用中，异常检测模型可以帮助我们发现数据中的潜在问题，从而提高数据质量和预测准确性。本文将介绍SparkMLlib库中的异常检测模型，包括其背景、核心概念、算法原理、实际应用场景和最佳实践等。1. 背景介绍异常检测

overfit同步小助手 2024-03-14 05:03:39 0 收藏

Spark中读parquet文件是怎么实现的

因为对于Spark来说，任何一个事情都不是独立的存在的，比如说parquet文件的rowgroup设置的大小对读写的影响，以及parquet写之前排序对读parquet的影响，以及向量化读取等等。为‘true’(默认就是true)，则会进行unsafeRow的转换，当然这里的好处就是节约内存以及能够

overfit同步小助手 2024-03-14 03:03:48 0 收藏

20240301-2-ZooKeeper面试题（二）

当新产生 proposal 的时候，会依据数据库的两阶段过程，首先会向其他的 server 发出事务执行请求，如果超过半数的机器都能执行并且能够成功，那么就会开始执行。：当新的 Leader 服务器发现某个 Learner 服务器包含了一条自己没有的事务记录，那么就需要让该 Learner 服务器进

overfit同步小助手 2024-03-14 03:03:37 0 收藏