2024.1.15 Spark 阶段原理,八股,面试题

spark是一款大数据统一分析引擎,底层数据结构是RDD1- 轮询分发策略:kafka老版本的策略,当生产数据的时候,只有value但是没有key的时候,采用轮询优点: 可以保证每个分区拿到的数据基本是一样,因为是一个一个的轮询的分发缺点: 如果采用异步发送方式,意味着一批数据发送到broker端,

【Flink-CDC】Flink CDC 介绍和原理概述

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。经过以上对比,我们可以发现基于

Java农业大数据养猪平台管理系统(开题+源码)

养猪平台管理系统的建立,可以实现对养猪生产过程的全面监控和管理,提高生产效率,降低成本,提高产品质量。此外,系统还可以对养猪生产过程中的病情、饲料等信息进行实时监控和分析,为养殖户提供更加科学、合理的养殖方案。本研究旨在开发一款基于大数据技术的养猪平台管理系统,实现对养猪生产过程的全面监控和管理,提

Ubuntu 16.04——Hadoop集群安装配置

hadoop 集群安装配置分为两个部分,一个部分是主节点(Master)和 从节点(Slave),两个部分需要完成的配置有一定的不同;总的来说,Master 所需要做的会比 Slave 会多一些。下面会演示两个部分需要做的事情;由于各台主机情况会有所不同,所以在报错的时候也会有一些的不一样,所以该文

大数据背后的绿色收割:基于Hadoop的农产品价格信息智能分析

通过本文的深度分析,读者将更全面地了解如何利用Hadoop等技术,从海量的农产品数据中挖掘出有价值的信息,为农业决策提供更加科学的支持。这个技术创新将农业与大数据相结合,为绿色农业的发展带来新的机遇和挑战。

分布式事务的安全与加密处理

1.背景介绍分布式事务是在多个独立的系统之间进行协同工作时,需要保证事务的原子性、一致性、隔离性和持久性的一种场景。随着分布式系统的普及和发展,分布式事务的应用也越来越广泛。然而,分布式事务的安全与加密处理是一个非常重要的问题,需要深入了解其核心概念、算法原理和实现方法。在分布式事务中,为了保证事务

Hadoop 3.2.4 集群搭建详细图文教程

Hadoop 集群包括两个集群:HDFS 集群、YARN 集群。两个集群逻辑上分离、通常物理上在一起;两个集群都是标准的主从架构集群。逻辑上分离两个集群互相之间没有依赖、互不影响物理上在一起某些角色进程往往部署在同一台物理服务器上MapReduce 集群呢?MapReduce 是计算框架、代码层面的

大数据 - Hadoop系列《三》- HDFS(分布式文件系统)概述

当HDFS系统的存储空间不够时,我们只需要添加一台新的机器到当前集群中即可完成扩容,这就是我们所说的横向扩容,而集群的存储能力,是按照整个集群中的所有的机器的存储能力来计算的,这也就是我们所说的高扩容性。,如果使用多台计算机进行存储,虽然解决了数据的存储问题,但是后期的管理和维护成本比较高,因为我们

代立冬:基于Apache Doris+SeaTunnel 实现多源实时数据仓库解决方案探索实践

Apache SeaTunnel 的整体架构是无中心化的,类似于 DolphinSchedule 的设计,已经是非常成熟的一个架构了。这种设计可以保证数据从源到目标的流畅传输。它的核心思想是将任务分解成多个 pipeline,如果某个链条出现问题,用户只需回滚相应的链条,而不是整个作业。这种设计在时

flink中的row类型详解

在Apache Flink中,`Row` 是一个通用的数据结构,用于表示一行数据。`Row` 可以看作是一个类似于元组的结构,其中包含按顺序排列的字段。在这个例子中,我们首先定义了一个 `RowTypeInfo`,描述了 `Row` 中两个字段的数据类型。然后,我们创建一个 `Row` 对象,设置了

kafka常用命令

kafka命令

大数据开发之kafka(完整版)

第 1 章:Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。1.2 消息队列目前企业中比较常见的消息队列产品主要有Kafk

hbase虚拟机搭建及使用

项目里要记录k-v键值对,且数据量非常庞大达到T级别,传统的关系型数据库扛不住查询压力。hbase对于大数据量的查询支持比较优秀。

Flink面试题

flink面试常见问题

基于spark的电影推荐系统,包括基于ALS、LFM的离线推荐、实时推荐

毕业设计——基于spark的电影推荐系统,包括基于ALS、LFM的离线推荐、实时推荐

《2023大数据产业年度国产化优秀代表厂商》榜重磅发布丨第六届金猿奖

‍第六届年度金猿榜单/奖项“第六届年度金猿季策划活动——2023大数据产业年度国产化优秀代表厂商榜单/奖项”由金猿X数据猿X上海大数据联盟共同推出。大数据产业创新服务媒体——聚焦数据· 改变商业第六届 “年度金猿季大型主题策划活动”由金猿、数据猿、上海大数据联盟共同组成的金猿组委会发起,在继续深耕大

hive location更新&hive元数据表详解

由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。该表保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要

大数据的概念

大数据是指规模巨大、复杂度高、以及传统方法难以处理和分析的数据集合。这些数据集通常包含结构化、半结构化和非结构化的数据,产生于各种来源,包括传感器、社交媒体、日志文件、传统数据库等。大数据可以用来揭示隐藏的模式、趋势和洞察力,从而帮助组织和企业做出更准确的决策、提供个性化的服务、改进运营效率等。因为

【FLink消费Kafka之FlinkConsumer到KafkaSource的转变】

上篇介绍了flink的入门程序wordcount,在项目开发过程中,最常接触的还是跟各种源头系统打交道,其中消费接收kafka中的数据是最常见的情况,而flink在1.15版本后连接kafka的依赖包发生了变化,之前的flink版本使用的依赖包是flink-connector-kafka_2.1x(

掌握大数据--Hadoop全面指南

Hadoop全面指南,希望能帮助大家理解Hadoop

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈