大数据 - overfit.cn

RabbitMQ保证消息的可靠性

如何保证RabbitMQ的消息可靠性

overfit同步小助手 2024-03-04 17:03:53 0 收藏

flink连接kafka

flink 连接kafka (基础篇)

overfit同步小助手 2024-03-04 17:03:50 0 收藏

Flink：流上的“不确定性”（Non-Determinism）

先明确一下什么叫“确定性”：对于一个“操作”来说，如果每次给它的“输入”不变，操作输出的“结果”也不变，那么这个操作就是“确定性“的。通常，我们认为批处理的操作都是确定的，比如针对一张 clicks 表，假如表中的数据没有变化，无论我们执行多少次 SELECT * FROM clicks 操作，它的

overfit同步小助手 2024-03-04 17:03:41 0 收藏

RabbitMQ详解与Java实现

两个服务调用时，我们可以通过传统的HTTP方式，让服务A直接去调用服务B的接口，但是这种方式是同步的方式，虽然可以采用SpringBoot提供的@Async注解实现异步调用，但是这种方式无法确保请求一定回访问到服务B的接口。那如何保证服务A的请求信息一定能送达到服务B去完成一些业务操作呢？

overfit同步小助手 2024-03-04 16:03:32 0 收藏

Jupyter Notebook Python, Scala, R, Spark, Mesos

在Docker中运行Jupyter/Spark/Mesos服务。来源［英］：https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebookSpark on Docker，基于Jupyter Notebook Python

overfit同步小助手 2024-03-04 15:03:44 0 收藏

从零开始了解大数据(六)：数据仓库Hive篇

Apache Hive是一个强大的数据仓库工具，它利用Hadoop的能力，提供了一种高效且简单的类SQL查询语言，使得对大规模数据的分析和查询变得简单而高效。同时，Hive的架构使其具有很好的扩展性，可以轻松地添加新的功能和优化现有的功能。随着大数据技术的不断发展，Apache Hive在未来的发展

overfit同步小助手 2024-03-04 14:03:52 0 收藏

spark withColumn的使用（笔记）

withColumn()：是Apache Spark中用于DataFrame操作的函数之一，它的作用是在DataFrame中添加或替换列，或者对现有列进行转换操作和更新等等。

overfit同步小助手 2024-03-04 14:03:49 0 收藏

Zookeeper的性能优化实践

1.背景介绍1. 背景介绍Apache Zookeeper是一个开源的分布式协调服务，它提供了一种可靠的、高性能的协同机制，用于构建分布式应用程序。Zookeeper的核心功能包括：集群管理、数据同步、配置管理、领导选举等。在分布式系统中，Zookeeper被广泛应用于实现一致性哈希、分布式锁、分布

overfit同步小助手 2024-03-04 14:03:41 0 收藏

Spark 基础概念

Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式介绍Standalo

overfit同步小助手 2024-03-04 14:03:33 0 收藏

【天衍系列 01】深入理解Flink的 FileSource 组件：实现大规模数据文件处理

旨在帮助读者快速了解Flink的FileSource基础概念以及相关的集成方法，提高开发效率

overfit同步小助手 2024-03-04 14:03:19 0 收藏

Flink流批一体计算（23）：Flink SQL之多流kafka写入多个mysql sink

WITH提供了一种编写辅助语句以用于更大的查询的方法。这些语句通常被称为公共表表达式（CTE），可以被视为定义仅针对一个查询存在的临时视图。json.fail-on-missing-field：在json缺失字段时是否报错。json.ignore-parse-errors：在解析json失败时是否报

overfit同步小助手 2024-03-04 13:03:53 0 收藏

Zookeeper 集群安装

（Load Balance）是分布式系统架构设计中必须考虑的因素之一，它通常是指，将请求/数据【均匀】分摊到多个操作单元上执行，负载均衡的关键在于【均匀】。常见互联网分布式架构如上，分为客户端层、反向代理nginx层、站点层、服务层、数据层。NginxNginx的负载均衡配置（1）把多个web se

overfit同步小助手 2024-03-04 13:03:42 0 收藏

【大数据Hive】hive 多字段分隔符使用详解

hive 多字段分隔符使用详解

overfit同步小助手 2024-03-04 13:03:23 0 收藏

Zookeeper的持久性与一致性原理

1.背景介绍1. 背景介绍Apache Zookeeper 是一个开源的分布式协调服务，用于构建分布式应用程序。它提供了一种可靠的、高性能的协调服务，以解决分布式系统中的一些复杂问题，如集群管理、数据同步、负载均衡等。Zookeeper 的核心功能包括：原子性操作：实现分布式环境下的原子性操作，确保

overfit同步小助手 2024-03-04 12:03:28 0 收藏

微服务架构中的关键组件：Dubbo、Nacos、Feign 和 Eureka

在选择微服务组件时，应考虑你的具体需求和技术栈。Dubbo、Nacos 和 Eureka 各有千秋，它们可以独立使用，也可以根据实际需要组合使用。例如，可以在 Dubbo 架构中使用 Nacos 作为服务注册中心和配置中心，或者在 Spring Cloud 架构中使用 Eureka 作为服务发现组件

overfit同步小助手 2024-03-04 11:03:35 0 收藏

【30秒看懂大数据】数据中台

一区：我把2桌宴客菜所需要的食材全部拿了出来，包括了从网上买的牛肉、羊排，也包括了从超市采购来的猪肉、意大利面条及蔬菜等等，还有一些从菜市场买来的海鲜、鱼虾等材料，为了方便分类清洗，我将2桌菜所有的食材都放到了这个区，以便找专门的人来清洗。中台是相对于前台和后台而言，数据中台就是对于数据进行加工、整

overfit同步小助手 2024-03-04 09:03:45 0 收藏

Hadoop分布式集群安装

overfit同步小助手 2024-03-04 09:03:40 0 收藏

HBase的数据校验与数据完整性

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase的数据校验和数据完整性是其核心特性之一，可以确保存储在HBase中的数

overfit同步小助手 2024-03-04 09:03:21 0 收藏

03-黑马程序员大数据开发：Apache Hive

1. 目的：了解什么是分布式SQL计算；了解什么是Apache Hive2. 使用Hive处理数据的好处操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手底层执行MapReduce，可以完成分布式海量数据的SQL处理3. 什么是分布式SQL计算？以分布式的形式，执行SQL语句，进行数

overfit同步小助手 2024-03-04 07:03:14 0 收藏

Java大数据处理与Hadoop

1.背景介绍大数据处理是指处理和分析大量、高速、不断增长的数据，这些数据通常来自不同的来源，如网络、传感器、数据库等。随着互联网和人工智能的发展，大数据处理已经成为现代科学和工程的重要组成部分。Java是一种广泛使用的编程语言，它的强大的性能和跨平台性使得它成为大数据处理领域的首选。Hadoop是一

overfit同步小助手 2024-03-04 06:03:48 0 收藏