大数据 - overfit.cn

【大数据】Apache NiFi 助力数据处理及分发

简单的说，NiFi 就是为了解决不同系统间数据自动流通问题而建立的。虽然 dataflow 这个术语在各种场景都有被使用，但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始，一些系统会有数据生成，一些系统要消费数据，而不同系统之间数据的流通问题就出现了。这些问题出现的

overfit同步小助手 2023-11-05 23:03:52 0 收藏

大数据集群调优

作者：禅与计算机程序设计艺术 1.简介本文主要基于实践经验和理论研究，详细阐述大数据集群（Hadoop/Spark）调优的方法、步骤及工具。主要包括：1) HDFS集群优化：包括HDFS存储结构、目录结构、参数设置等方面；2) Yarn集群优化：包括YARN资源

overfit同步小助手 2023-11-05 23:03:47 0 收藏

RabbitMQ使用详解

RabbitMQ单机安装 RabbitMQ消息模型：基本消息队列、工作消息队列、发布订阅（Fanout、Direct、Topic） RabbitMQ集群部署 RabbitMQ生产者消息确认 RabbitMQ消费者消息确认 RabbitMQ消息失败重试机制 RabbitMQ死信交换机 RabbitMQ

overfit同步小助手 2023-11-05 22:03:32 0 收藏

基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(二)数据源

结果：生成模拟数据文件MOMO_DATA.dat，并且每条数据中字段分隔符为\001。删除Flume自带的guava包，替换成Hadoop的。需求：采集聊天数据，实时写入Kafka。需求：采集聊天数据，写入HDFS。测试：每500ms生成一条数据。

overfit同步小助手 2023-11-05 19:03:35 0 收藏

参与现场问题解决总结（Kafka、Hbase）

能分析需求。综上所述：Arthas的profile命令主要适用于Java应用程序的CPU性能分析，而Pyroscope是一个更全面的性能分析平台，支持多种编程语言，提供更多的可视化工具和灵活的集成选项。选择哪个工具取决于您的具体需求和应用程序的特点。如果需要跨语言性能分析或更广泛的性能分析功能，Py

overfit同步小助手 2023-11-05 15:03:45 0 收藏

Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据，假设一个文件有100tb，我们就把文件划分为多个部分，放入到多个服务器，靠数量取胜，多台服务器组合，才能Hold住

overfit同步小助手 2023-11-05 13:03:26 0 收藏

官宣｜Apache Flink 1.18 发布公告

Apache Flink PMC 已正式发布 Apache Flink 1.18.0 版本。与往常一样，这是一个充实的版本，包含了广泛的改进和新功能。总共有 174 人为此版本做出了贡献，完成了 18 个 FLIPs 和 700 多个问题。感谢各位贡献者的支持！Tips：点击「阅读原文」免费领取 5

overfit同步小助手 2023-11-05 12:03:47 0 收藏

【大数据】图解 Hadoop 生态系统及其组件

HDFS是 Hadoop 的分布式文件系统，旨在在廉价硬件上存储大型文件。它具有高度容错能力，并为应用程序提供高吞吐量。 HDFS 最适合那些拥有非常大数据集的应用程序。Hadoop HDFS 文件系统提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程，从节点运行 Da

overfit同步小助手 2023-11-05 11:03:31 0 收藏

虚拟机安装CentOS7并配置共享文件夹

虚拟机安装，虚拟机安装centos 7系统，配置win10与虚拟机centos 7之间的共享文件夹，全过程，超详细。

overfit同步小助手 2023-11-05 07:03:49 0 收藏

Kafka中的生产者如何处理消息发送失败的情况？

通过以上方式，开发者可以对Kafka生产者的消息发送过程进行处理和管理，根据不同的失败情况采取相应的策略，确保消息发送的可靠性和稳定性。请根据具体的需求和业务场景选择适合的处理方式。

overfit同步小助手 2023-11-05 05:03:18 0 收藏

Flink + Iceberg打造流批一体的数据湖架构

对于数据湖架构来说，数据文件在HDFS的分布组织是由写入任务决定的，而对于分布式数仓来说，数据一般是通过JDBC写入，数据的存储组织方式是由数仓本身决定的，所以数仓可以按照对于查询更加友好的方式组织数据的存储，比如对数据文件定期compact到合适的大小或者对数据进行合理排序和分组，对于大规模的数据

overfit同步小助手 2023-11-05 04:03:51 0 收藏

Spark入门

回顾：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集

overfit同步小助手 2023-11-05 04:03:40 0 收藏

基于docker的confluent-kafka搭建及python接口使用

本文介绍基于docker搭建的confluent-kafka及其python接口的使用。

overfit同步小助手 2023-11-05 04:03:23 0 收藏

API网关与社保模块

overfit同步小助手 2023-11-05 03:03:17 0 收藏

flask整合rabbitMQ插件的方式

总之，使用RabbitMQ插件整合Flask框架，并采用优化方案来兼容并发性生产者和消费者，是构建可靠、高效消息传递系统的关键一步。通过这种方式，我们可以利用RabbitMQ的优势来确保消息的可靠传递，并提高应用程序的处理能力。通过以上的优化方案，我们可以在Flask应用程序中充分利用RabbitM

overfit同步小助手 2023-11-05 02:03:41 0 收藏

Hadoop、Spark和Hive调优优化原理

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计

overfit同步小助手 2023-11-05 01:03:47 0 收藏

Kafka - 监控工具 Kafka Eagle：实时洞察Kafka集群的利器

Kafka Eagle是一款开源的、高度可定制的监控和告警工具，专门为Apache Kafka设计。它为Kafka集群提供了丰富的实时监控和管理功能，以确保高可用性、性能和数据完整性。Kafka Eagle的核心目标是帮助用户更好地理解和优化他们的Kafka环境，减少潜在问题的风险。

overfit同步小助手 2023-11-05 01:03:23 0 收藏

Spark详解

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中，Hadoop的 MapReduce 是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架 Spark 呢，这里就不得不提到 Spark 和 Hadoop 的关系。

overfit同步小助手 2023-11-05 00:03:30 0 收藏

Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

在 Spark 中，有多个概念和组件相互协作，以实现分布式数据处理。如有错误，欢迎指出！如有错误，欢迎指出！如有错误，欢迎指出！

overfit同步小助手 2023-11-04 22:03:48 0 收藏

大数据开源框架环境搭建(四)——HDFS完全分布式集群的安装部署

普通用户下大部分命令需要加sudo，root模式下不用。如果怕麻烦，直接在root用户下操作。本框架的分布式集群如下图所示(IP地址不一定跟图中一样)

overfit同步小助手 2023-11-04 21:03:38 0 收藏