Spark—GraphX实战 OneID

ID Mapping 是OneID 的提前,OneID 是ID Mapping 的结果,所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据,所以OneID 需要以服务的方式对外提供服务,在数仓里面就是作为基础表使用,对外的话我们就需要提供接口对外提供服务。

hadoop集群搭建、spark集群搭建、pyspark搭建(linux+window)

linux和window上安装pyspark库。

数据治理——滴滴大数据成本治理实践

数据治理——滴滴大数据成本治理实践

puppet-rabbitmq: 简化RabbitMQ的自动化配置管理

puppet-rabbitmq: 简化RabbitMQ的自动化配置管理项目简介puppet-rabbitmq是Vox Pupuli组织开发的一个Puppet模块,旨在简化RabbitMQ服务器的自动化配置管理。通过使用此模块,您可以轻松地安装、管理和扩展RabbitMQ集群。能用来做什么?安装Rab

【快捷部署】002_Flink(1.17.2)

快捷部署系列,本期带来的是Flink,快速体验、学习

RabbitMQ 的高阶应用及可靠性保证

上篇文章介绍了 RabbitMQ 的基本概念和使用,这篇文章就来介绍下其高阶应用和可靠性保证。

Spark-Scala语言实战(6)

今天我会给大家带来如何在IDEA中导入jars包,以及使用SparkRDD,并正确使用它们同时也会给大家讲解一道实训题例。希望在本篇文章中,大家有所收获。也欢迎朋友们到评论区下一起交流学习,共同进步。

【年后找工作】Java八股必备知识 -- MQ篇(RabbitMQ)

想要保证发送者一定能把消息发送给RabbitMQ,一种是通过confirm机制,另外一种就是通过事务机制。RabbitMQ的事务机制,允许生产者将一组操作打包成一个原子事务单元,要么全部执行成功,要么全部失败。事务提供了一种确保消息完整性的方法,但需要谨慎使用,因为它们对性能有一定的影响。Rabbi

Spark读写MySQL数据库

使用Spark读写MySQL数据

FlinkSql 窗口函数

以前用的是Grouped Window Functions(分组窗口函数),但是分组窗口函数只支持窗口聚合现在FlinkSql统一都是用的是Windowing TVFs(窗口表值函数),Windowing TVFs更符合 SQL 标准且更加强大,支持window join、Window aggreg

RabbitMQ消息的重复消费问题

消息重复消费是分布式消息传递系统常见的一个问题。:设计消费者的消息处理逻辑,确保即使消息被多次消费也不会对系统造成不良影响。:在消息或处理逻辑中使用唯一标识符,并在消费者中实现去重检查。:通过手动确认(acknowledgment)消息,可以控制消费者何时确认消息,如果处理失败可以选择重新入队或者丢

Flink on Yarn安装配置

Apache Flink,作为一个开源的分布式处理引擎,近年来在大数据处理领域崭露头角,其独特的流处理和批处理一体化模型,使得它能够在处理无界和有界数据流时展现出卓越的性能。本文旨在对Flink进行简要的前言性介绍,以及他的安装配置。

浅谈 kafka

Kafka传统定义:kafka是一个分布式的基于发布/订阅模式的消息队列。Kafka最新定义:kafka用于构建实时数据处理系统,它具有横向扩展、高可用,速度极快等特点,已经被很多公司使用。

Flink 调度源码分析1:拓扑图创建与提交过程

在Flink中,拓扑图提交过程是将用户编写的数据处理逻辑转换为实际可执行的作业并提交到集群运行的过程。首先,用户编写Flink程序,定义数据源、转换操作和输出目标等。然后,Flink会将这些操作转换为一个有向无环图(DAG),表示数据处理流程。接着,Flink会将DAG图优化并生成作业图,包括任务的

云上大数据初学

大数据的定义是指规模庞大、多样化、高速度的数据集合。与传统的数据不同,大数据以及从中提取的信息可以改变人们的行为和决策。大数据的特点主要有以下几点。第一,大数据的规模庞大。传统数据的收集、处理和存储都需要考虑到计算资源的有限性,但是大数据的规模已经远远超过了传统数据的处理能力。它们可以来自多个来源,

Ubuntu实现Hive与HBase的安装与配置(单机)

大数据作业四,整合了Hive和HBase的Ubuntu单机配置的操作步骤以及常见错误

从零开始手写RPC框架(3)——ZooKeeper入门

ZooKeeper简介 ZooKeeper中的一些概念 ZooKeeper安装与常用命令 常用命令 ZooKeeper Java客户端 Curator入门

Kafka入门及生产者详解

传统定义:分布式的、基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。发布/订阅模式中,发布者不会直接将消息发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接受感兴趣的消息。官网最新定义:开源的分布式事件流平台(Event Streaming Platform),用于高性能数据管

解析线上HBase集群CPU飙高的原因与解决方案

jstack是Java开发工具包(JDK)中提供的一个命令行工具,用于生成Java虚拟机(JVM)中所有线程的堆栈跟踪信息。使用jstack命令可以获取以下信息:所有线程的堆栈跟踪:jstack命令会输出JVM中所有线程的堆栈跟踪信息,包括线程ID、状态、执行方法和行号等。这些信息可以用于分析线程的

大数据开发(Hadoop面试真题-卷八)

YARN是Apache Hadoop生态系统中的一个集群资源管理器。它的主要目的是管理和分配集群中的资源,并为运行在Hadoop集群上的应用程序提供资源。YARN的架构基于两个主要组件:ResourceManager(资源管理器)和NodeManager(节点管理器)。负责整个集群的资源管理和调度。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈