【大数据】Apache NiFi 助力数据处理及分发

简单的说,NiFi 就是为了解决不同系统间数据自动流通问题而建立的。虽然 dataflow 这个术语在各种场景都有被使用,但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始,一些系统会有数据生成,一些系统要消费数据,而不同系统之间数据的流通问题就出现了。这些问题出现的

大数据集群调优

作者:禅与计算机程序设计艺术 1.简介本文主要基于实践经验和理论研究,详细阐述大数据集群(Hadoop/Spark)调优的方法、步骤及工具。主要包括:1) HDFS集群优化:包括HDFS存储结构、目录结构、参数设置等方面;2) Yarn集群优化:包括YARN资源

RabbitMQ使用 详解

RabbitMQ单机安装 RabbitMQ消息模型:基本消息队列、工作消息队列、发布订阅(Fanout、Direct、Topic) RabbitMQ集群部署 RabbitMQ生产者消息确认 RabbitMQ消费者消息确认 RabbitMQ消息失败重试机制 RabbitMQ死信交换机 RabbitMQ

基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(二)数据源

结果:生成模拟数据文件MOMO_DATA.dat,并且每条数据中字段分隔符为\001。删除Flume自带的guava包,替换成Hadoop的。需求:采集聊天数据,实时写入Kafka。需求:采集聊天数据,写入HDFS。测试:每500ms生成一条数据。

参与现场问题解决总结(Kafka、Hbase)

能分析需求。综上所述:Arthas的profile命令主要适用于Java应用程序的CPU性能分析,而Pyroscope是一个更全面的性能分析平台,支持多种编程语言,提供更多的可视化工具和灵活的集成选项。选择哪个工具取决于您的具体需求和应用程序的特点。如果需要跨语言性能分析或更广泛的性能分析功能,Py

Hadoop HDFS(分布式文件系统)

为什么要分布式存储数据,假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器,靠数量取胜,多台服务器组合,才能Hold住

官宣|Apache Flink 1.18 发布公告

Apache Flink PMC 已正式发布 Apache Flink 1.18.0 版本。与往常一样,这是一个充实的版本,包含了广泛的改进和新功能。总共有 174 人为此版本做出了贡献,完成了 18 个 FLIPs 和 700 多个问题。感谢各位贡献者的支持!Tips:点击「阅读原文」免费领取 5

【大数据】图解 Hadoop 生态系统及其组件

HDFS是 Hadoop 的分布式文件系统,旨在在廉价硬件上存储大型文件。它具有高度容错能力,并为应用程序提供高吞吐量。 HDFS 最适合那些拥有非常大数据集的应用程序。Hadoop HDFS 文件系统提供 Master 和 Slave 架构。主节点运行 Namenode 守护进程,从节点运行 Da

虚拟机安装CentOS7并配置共享文件夹

虚拟机安装,虚拟机安装centos 7系统,配置win10与虚拟机centos 7之间的共享文件夹,全过程,超详细。

Kafka中的生产者如何处理消息发送失败的情况?

通过以上方式,开发者可以对Kafka生产者的消息发送过程进行处理和管理,根据不同的失败情况采取相应的策略,确保消息发送的可靠性和稳定性。请根据具体的需求和业务场景选择适合的处理方式。

Flink + Iceberg打造流批一体的数据湖架构

对于数据湖架构来说,数据文件在HDFS的分布组织是由写入任务决定的,而对于分布式数仓来说,数据一般是通过JDBC写入,数据的存储组织方式是由数仓本身决定的,所以数仓可以按照对于查询更加友好的方式组织数据的存储,比如对数据文件定期compact到合适的大小或者对数据进行合理排序和分组,对于大规模的数据

Spark入门

回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集

基于docker的confluent-kafka搭建及python接口使用

本文介绍基于docker搭建的confluent-kafka及其python接口的使用。

API网关与社保模块

API网关与社保模块

flask整合rabbitMQ插件的方式

总之,使用RabbitMQ插件整合Flask框架,并采用优化方案来兼容并发性生产者和消费者,是构建可靠、高效消息传递系统的关键一步。通过这种方式,我们可以利用RabbitMQ的优势来确保消息的可靠传递,并提高应用程序的处理能力。通过以上的优化方案,我们可以在Flask应用程序中充分利用RabbitM

Hadoop、Spark和Hive调优优化原理

1995年伊藤博文等人提出了MapReduce计算框架,将海量的数据分布式地处理在多台计算机上,并通过分割输入数据集并将其划分为多个任务来并行执行计算,最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升,当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计

Kafka - 监控工具 Kafka Eagle:实时洞察Kafka集群的利器

Kafka Eagle是一款开源的、高度可定制的监控和告警工具,专门为Apache Kafka设计。它为Kafka集群提供了丰富的实时监控和管理功能,以确保高可用性、性能和数据完整性。Kafka Eagle的核心目标是帮助用户更好地理解和优化他们的Kafka环境,减少潜在问题的风险。

Spark详解

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中,Hadoop的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。

Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

在 Spark 中,有多个概念和组件相互协作,以实现分布式数据处理。如有错误,欢迎指出!如有错误,欢迎指出!如有错误,欢迎指出!

大数据开源框架环境搭建(四)——HDFS完全分布式集群的安装部署

普通用户下大部分命令需要加sudo,root模式下不用。如果怕麻烦,直接在root用户下操作。本框架的分布式集群如下图所示(IP地址不一定跟图中一样)

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈