大数据 - overfit.cn

hadoop安装的过程中的报错/libhadoop.so.1.0.0

遇到如下错误：14/10/29 16:49:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applic

overfit同步小助手 2024-03-09 15:03:46 0 收藏

HBase的数据类型与数据结构实践

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase的核心功能是提供低延迟、高可扩展性的数据存储和访问，适用于实时数据处理

overfit同步小助手 2024-03-09 15:03:33 0 收藏

Hadoop之HDFS 详细教程

Hadoop 分布式系统框架中，首要的基础功能就是文件系统，在 Hadoop 中使用FileSystem 这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是 HDFS(分布式文件系统)以及 LocalFileSys

overfit同步小助手 2024-03-09 14:03:48 0 收藏

【极数系列】Flink集成KafkaSink & 实时输出数据（11）

【极数系列】Flink集成KafkaSink（11）旨在帮助读者快速使用Flink集成KafkaSink，直接输出数据到kafka

overfit同步小助手 2024-03-09 14:03:43 0 收藏

2023年第三届中国高校大数据挑战赛D题:行业职业技术培训能力评价思路+代码+论文

为了促进高校大学生实际应用技能的提高，着眼于未来，培养具有创新能力和实践能力的大数据人才，推动大数据的产学研用，探索大数据的核心科学与技术，提升高校毕业生的就业竞争力。经研究决定，天津市未来与预测科学研究会、中国未来研究会大数据与数学模型专业委员会联合发起2023年第三届中国高校大数据挑战赛。中国未

overfit同步小助手 2024-03-09 13:03:35 0 收藏

行业应用: Spark在各行业中的应用与案例

1.背景介绍Spark是一个开源的大数据处理框架，它可以处理大量数据并提供高性能、高可扩展性和高可靠性的数据处理能力。Spark已经被广泛应用于各个行业，包括金融、电商、医疗、制造业等。在这篇文章中，我们将讨论Spark在各个行业中的应用和案例。1.1 Spark的优势Spark的优势在于其高性能、

overfit同步小助手 2024-03-09 13:03:19 0 收藏

Flink ExecuteGraph构建源码解析

JobManager(JobMaster) 根据 JobGraph 生成 ExecutionGraph。ExecutionGraph是JobGraph 的并行化版本，是调度层最核心的数据结构。

overfit同步小助手 2024-03-09 11:03:34 0 收藏

Flink JobGraph构建过程

在StreamGraph构建过程中分析了StreamGraph的构建过程，在StreamGraph构建完毕之后会对StreamGraph进行优化构建JobGraph，然后再提交JobGraph。优化过程中，Flink会尝试将尽可能多的StreamNode聚合在一个JobGraph节点中，通过合并创建

overfit同步小助手 2024-03-09 10:03:59 0 收藏

数据开发必知必会 - 数据仓库理论总结

数据仓库开发=90%的业务领域知识+10%的大数据/后端开发技术数据仓库组成=模型建设+数据治理+需求满足10年互联网研发经验，数据平台总监及投放增长研发负责人，负责数据平台期间，完成埋点改造、数据工具建设、离线及实时数仓建设，业务日增数据量约500T；负责增长平台期间，完成自助归因平台的建设，涉及

overfit同步小助手 2024-03-09 10:03:34 0 收藏

了解Spark运行架构与原理

了解Spark架构了解Spark作业运行流程了解Spark核心数据集RDD了解Spark核心原理

overfit同步小助手 2024-03-09 10:03:30 0 收藏

java面试题_消息中间件--RabbitMQ(20题)

1、如果消费者接收到消息，在确认之前断开了连接或取消订阅，RabbitMQ会认为消息没有被分发，然后重新分发给下⼀。2、如果消费者接收到消息却没有确认消息，连接也未断开，则RabbitMQ认为该消费者繁忙，将不会给该消费者分发更多。⼀旦消息被投递到⽬的队列后，或者消息被写⼊磁盘后（可持久化的消息），

overfit同步小助手 2024-03-09 09:04:02 0 收藏

每天十分钟学会Spark

小白学大数据Spark编程第1课

overfit同步小助手 2024-03-09 09:03:44 0 收藏

Zookeeper与ApacheCassandra的集成与应用

1.背景介绍1. 背景介绍Apache Zookeeper 和 Apache Cassandra 都是分布式系统中的关键组件，它们各自具有独特的优势和应用场景。Zookeeper 是一个分布式协调服务，用于管理分布式应用的配置、服务发现、集群管理等功能；Cassandra 是一个高性能、分布式的No

overfit同步小助手 2024-03-09 08:03:51 0 收藏

hive中hiveserver2 两种使用方式

主要使用beeling和DataGrip对hiveserver2进行连接访问

overfit同步小助手 2024-03-09 08:03:35 0 收藏

数据仓库的数据仓库：实现数据的一致性和完整性

1.背景介绍数据仓库是一种用于存储和管理大量历史数据的系统，它的主要目的是为了支持数据分析和决策。数据仓库通常包括一个数据仓库系统和一个数据仓库架构。数据仓库系统包括数据仓库的硬件、软件、网络和人员等组成部分。数据仓库架构则是一种用于构建数据仓库的框架，它包括数据仓库的数据源、数据存储、数据处理和数

overfit同步小助手 2024-03-09 08:03:22 0 收藏

【RabbitMQ】WorkQueue

多个消费者绑定到一个队列，同一条消息只会被一个消费者处理通过设置prefetch来控制消费者预取的消息数量。

overfit同步小助手 2024-03-09 08:03:10 0 收藏

RabbitMQ 面试八股题整理

RabbitMQ是一个由Erlang开发的，在AMQP(高级消息队列协议)基础上完成的消息队列。消息队列用于应用间的异步协作最大的特点就是消费并不需要确保提供方存在，实现了服务之间的高度解耦。

overfit同步小助手 2024-03-09 06:03:40 0 收藏

SpringBoot Kafka生产者多kafka配置

二、KafkaConfig。

overfit同步小助手 2024-03-09 04:03:53 0 收藏

大数据开发-Hadoop伪集群搭建

Hadoop环境搭建，虚拟机环境配置

overfit同步小助手 2024-03-09 04:03:46 0 收藏

Spark Bloom Filter Join

Bloom Filter Join，或者说Row-level Runtime Filtering（还额外有一条Semi-Join分支），是Spark 3.3对运行时过滤的一个最新补充之前运行时过滤主要有两个：动态分区裁剪DPP（开源实现）、动态文件裁剪DFP（Databricks实现），两者都能有效

overfit同步小助手 2024-03-09 04:03:40 0 收藏