大数据面试题汇总【持续更新】

【持续更新】大数据面试题汇总(ZooKeeper、Hadoop、HDFS、MapReduce、YARN和Hive常见面试题)

基于 RDD 的分布式数据处理实验(pyspark)

ubuntu环境下安装anaconda,jupyter notebook与spark连接并实现交互,并基于恐怖袭击数据集通过RDD实现数据分析及可视化;最后附上standalone和yarn的两种任务提交方式的方法。

深入了解分布式锁 导学篇(一)

该文章刚开始以超卖问题为主线 先介绍单机本地储存情况下通过JVM本地锁去解决超卖问题,接着深入企业场景 数据在mysql 的情况下如何解决高并发对mysql数据库中进行有序操作防止出现脏读的问题,接着引入 非关系型数据情况下 如何处理集群 服务和线程之间 操作有序性的问题 通过redis 乐观锁和

hadoop伪分布式集群搭建(超详细)

hadoop伪分布式集群搭建适合初学

zookeeper实现分布式锁

zookeeper实现分布式锁

【精通Spark系列】弹性分布式数据集RDD快速入门篇

本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容,,内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,

Python中RabbitMQ的使用

Python中RabbitMQ的使用

RabbitMQ:简单模式(Hello World)

先来看看RabbitMQ架构图Broker:接收和分发消息的应用, RabbitMQ Server 就是 Message Broker: 出于多租户和安全因素设计的,把 AMQP 的基本组件划分到一个虚拟的分组中,类似 于网络中的 namespace 概念。当多个不同的用户使用同一个 RabbitM

MapReduce课程设计-----好友推荐功能

MapReduce课程设计-----好友推荐功能,步骤详细且通俗易懂

Hadoop集群完全分布式搭建

hadoop集群分布式的搭建

大数据开发工程师是做什么的?岗位要求高吗?

大数据开发工程师是做什么的?岗位要求高吗?大数据开发工程师要负责数据仓库建设、ETL开发、数据分析、数据指标统计、大数据实时计算平台及业务开发、平台建设及维护等工作内容。熟练掌握数据仓库、hadoop生态体系、计算及二次开发、大数据平台工具的开发:开发平台、调度系统、元数据平台等工具,该岗位对于技术

客快物流大数据项目(七十八):Hue简介

HUE是一个开源的。

kafka是啥?虽然很难学,但是实验入门很简单

Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。kafka的三个基本组成是生产者、消费者、broker(生产者和消费者之间的消息队列服务器)。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订

分布式主键生成设计策略

常见的分布式主键生成策略

湖仓一体电商项目(二十):业务实现之编写写入DM层业务代码

DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析

图解Kafka消费者客户端分区分配策略

我们先看一下分区策略的类图/*** 返回序列化后的自定义数据} /*** 分区分配的计算逻辑/*** 当组成员从领导者那里收到其分配时调用的回调} /*** 指明使用的再平衡协议* 默认使用RebalanceProtocol.EAGER协议, 另外一个可选项为 RebalanceProtocol.C

从零开始搭建虚拟机伪分布式环境(从创建虚拟机一步步教你搭建伪分布式开发环境)。

从零开始搭建伪分布式环境,本人已经测试一遍除了粗心把路径命令打错了别的无任何错误

RabbitMQ的安装和配置

rabbitMQ的安装和遇到的一些问题

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

这里也可以不设置从头开始消费Kafka数据,而是直接启动实时向MySQL表中写入数据代码“RTMockDBData.java”代码,实时向MySQL对应的表中写入数据,这里需要启动maxwell监控数据,代码才能实时监控到写入MySQL的业务数据。以上代码执行后在,在对应的Kafka “KAFKA-

Kafka 生产者和消费者实例

基于命令行使用Kafka类似scala,mysql等,命令行是初学者操作Kafka的基本方式,kafka的模式是生产者消费者模式,他们之间通讯是通过,一个公共频道完成。指定消费者组ID,在同一时刻同一消费组中只有一个线程可以去消费一个分区数据,不同的消费组可以去消费同一个分区的数据。(查看Kafka

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈