大数据面试题汇总【持续更新】
【持续更新】大数据面试题汇总(ZooKeeper、Hadoop、HDFS、MapReduce、YARN和Hive常见面试题)
基于 RDD 的分布式数据处理实验(pyspark)
ubuntu环境下安装anaconda,jupyter notebook与spark连接并实现交互,并基于恐怖袭击数据集通过RDD实现数据分析及可视化;最后附上standalone和yarn的两种任务提交方式的方法。
深入了解分布式锁 导学篇(一)
该文章刚开始以超卖问题为主线 先介绍单机本地储存情况下通过JVM本地锁去解决超卖问题,接着深入企业场景 数据在mysql 的情况下如何解决高并发对mysql数据库中进行有序操作防止出现脏读的问题,接着引入 非关系型数据情况下 如何处理集群 服务和线程之间 操作有序性的问题 通过redis 乐观锁和
hadoop伪分布式集群搭建(超详细)
hadoop伪分布式集群搭建适合初学
zookeeper实现分布式锁
zookeeper实现分布式锁
【精通Spark系列】弹性分布式数据集RDD快速入门篇
本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容,,内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,
Python中RabbitMQ的使用
Python中RabbitMQ的使用
RabbitMQ:简单模式(Hello World)
先来看看RabbitMQ架构图Broker:接收和分发消息的应用, RabbitMQ Server 就是 Message Broker: 出于多租户和安全因素设计的,把 AMQP 的基本组件划分到一个虚拟的分组中,类似 于网络中的 namespace 概念。当多个不同的用户使用同一个 RabbitM
MapReduce课程设计-----好友推荐功能
MapReduce课程设计-----好友推荐功能,步骤详细且通俗易懂
Hadoop集群完全分布式搭建
hadoop集群分布式的搭建
大数据开发工程师是做什么的?岗位要求高吗?
大数据开发工程师是做什么的?岗位要求高吗?大数据开发工程师要负责数据仓库建设、ETL开发、数据分析、数据指标统计、大数据实时计算平台及业务开发、平台建设及维护等工作内容。熟练掌握数据仓库、hadoop生态体系、计算及二次开发、大数据平台工具的开发:开发平台、调度系统、元数据平台等工具,该岗位对于技术
客快物流大数据项目(七十八):Hue简介
HUE是一个开源的。
kafka是啥?虽然很难学,但是实验入门很简单
Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。kafka的三个基本组成是生产者、消费者、broker(生产者和消费者之间的消息队列服务器)。发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订
分布式主键生成设计策略
常见的分布式主键生成策略
湖仓一体电商项目(二十):业务实现之编写写入DM层业务代码
DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析
图解Kafka消费者客户端分区分配策略
我们先看一下分区策略的类图/*** 返回序列化后的自定义数据} /*** 分区分配的计算逻辑/*** 当组成员从领导者那里收到其分配时调用的回调} /*** 指明使用的再平衡协议* 默认使用RebalanceProtocol.EAGER协议, 另外一个可选项为 RebalanceProtocol.C
从零开始搭建虚拟机伪分布式环境(从创建虚拟机一步步教你搭建伪分布式开发环境)。
从零开始搭建伪分布式环境,本人已经测试一遍除了粗心把路径命令打错了别的无任何错误
RabbitMQ的安装和配置
rabbitMQ的安装和遇到的一些问题
湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码
这里也可以不设置从头开始消费Kafka数据,而是直接启动实时向MySQL表中写入数据代码“RTMockDBData.java”代码,实时向MySQL对应的表中写入数据,这里需要启动maxwell监控数据,代码才能实时监控到写入MySQL的业务数据。以上代码执行后在,在对应的Kafka “KAFKA-
Kafka 生产者和消费者实例
基于命令行使用Kafka类似scala,mysql等,命令行是初学者操作Kafka的基本方式,kafka的模式是生产者消费者模式,他们之间通讯是通过,一个公共频道完成。指定消费者组ID,在同一时刻同一消费组中只有一个线程可以去消费一个分区数据,不同的消费组可以去消费同一个分区的数据。(查看Kafka