学习笔记-大数据基础实训(python语言+可视化)
利用python从指定接口爬取广东省各个地市的气象数据,并对数据进行处理
基于Hadoop的豆瓣影视数据分析
基于Hadoop的影视数据分析系统的设计与实现(毕业设计)
idea配置spark环境
然后打开文件目录,第一个选择你刚刚配置的settings,第二个选择你创造的repository文件夹,随后打开路径中的maven包,选择conf文件夹,选择settings.xml,用vscode打开。1. 首先,需要准备maven的环境配置,我的idea是2021版本,(新版应该差不多)然后你的
Eureka
Eureka
Spark调优解析-spark调优基本原则1(七)
Spark调优解析-spark调优基本原则
spark:RDD编程(Python版)
spark的RDD编程基础简介
初识大数据,一文掌握大数据必备知识文集(3)
Kafka 集群:Kafka 集群由一组 Kafka 节点组成,每个节点都运行着 Kafka 服务器。Kafka 客户端:Kafka 客户端是用来发送和接收消息的应用程序。Kafka 主题:Kafka 主题是一个逻辑上的分区集合,用于存储消息。Kafka 分区:Kafka 分区是一个物理上的文件,用
【kafka】记录用-----------1
后台同步任务是 Kafka 内部自动管理的,不需要人为干预。Kafka 设计了一些后台任务来确保副本之间的同步和数据的一致性,以提高整个系统的可用性和可靠性。滞后主要指的是追随者在处理消息时相对于领导者的位置较远,即它的日志文件中的消息相对较旧。这是通过追随者的日志文件中的偏移量(offset)来衡
Zookeeper使用详解
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键
Ubuntu 环境安装 Kafka、配置运行测试 Kafka 流程笔记
Kafka 是一个由 Apache 软件基金会开发的开源流式处理平台。它被设计用于处理大规模数据流,提供高可靠性、高吞吐量和低延迟的消息传递系统。Kafka 可以用于构建实时数据管道和流式应用程序,让不同应用、系统或者数据源之间能够高效地进行数据交换和通信。消息: Kafka 是基于发布/订阅模式的
掌握大数据--Hive全面指南
Hive全面指南
HCIA-Big Data V3.0 华为认证大数据工程师在线课程章节测试题汇总
本文为HCIA-Big Data V3.0华为认证大数据工程师在线课程的章节习题及答案
Flink源码-Task执行
里面有大约六七十个handler,如果客户端使用fink run的方式来提交一个job,最终会由WebMonitorEndpoint的submitJobHandler来处理。负责接收用户提交的jobGraph,然后启动Jobmaster。Flink集群的资源管理器,关于slot的管理和申请工作都由他
Hadoop 相关介绍
目录一、Hadoop介绍二、Hadoop 架构1、 Hadoop 1.x 架构2、Hadoop 2.x 3.x 架构三、HDFS介绍1、HDFS架构2、HDFS 特点四、 Hadoop 之 MapReduce 初体验1、使用上述的测试包, 计算圆周率2、使用上述的测试包, 进行词频统计1. Hado
RabbitMQ 高级
RabbitMQ 高级
【Hadoop】
只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段kv键值对的形式流转。
RabbitMQ
RabbitMQ 是一个开源的消息代理软件,它实现了高级消息队列协议(AMQP,Advanced Message Queuing Protocol)。它设计用于在分布式系统中传递消息,提供了一种可靠的、异步的通信方式,帮助不同的应用程序或组件之间进行解耦。RabbitMQ 充当消息代理,负责接收、存
数据仓库 基本信息
数据仓库是。
年终盘点:2023年炙手可热的10家大数据初创公司
大数据初创公司源源不断地开发领先技术来帮助企业访问、收集、管理、移动、转换、分析、理解、测量、治理、维护和保护数据。以下来看看2023年备受关注的十家大数据初创公司。
关于黑马hive课程案例FineBI中文乱码的解决
关于黑马hive课程案例FineBI中文乱码的解决。