数据平台发展史-从数据仓库数据湖到数据湖仓
所谓「数据平台,主要是指数据分析平台,其消费(分析)内部和外部其它系统生成的各种原始数据(比如券商柜台系统产生的各种交易流水数据,外部行情数据等),对这些数据进行各种分析挖掘以生成衍生数据,从而支持企业进行数据驱动的决策」数据分析平台,需要上游系统(内部或外部)提供原始数据;- 数据分析平台,会经过
kafka生产者
生产者调用方法。ProducerRecord 是 Kafka 中的一个核心类,它代表了一组 Kafka 需要发送的 key/value 键值对,它由记录要发送到的主题名称(Topic Name),可选的分区号(Partition Number)以及可选的键值对构成。然后经过拦截器 -》 序列化器(k
Kafka 简单介绍
Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域。
RabbitMq
消息传递模式:RabbitMQ支持多种消息传递模式,包括发布/订阅、点对点和工作队列等,使其更灵活适用于各种消息通信场景。消息路由和交换机:RabbitMQ引入交换机的概念,用于将消息路由到一个或多个队列。允许根据消息的内容、标签或路由键进行灵活的消息路由,从而实现更复杂的消息传递逻辑。消息确认机制
深入理解 Spring Session:实现分布式会话管理(含详细步骤)
Spring Session 是 Spring 框架的一个项目,旨在提供会话管理的解决方案。它可以与各种后端存储(如内存、数据库、Redis 等)集成,以便将会话数据存储在可扩展的分布式环境中。Spring Session 不仅可以用于传统的 Web 应用程序,还可以用于微服务架构中的分布式系统。
Zookeeper与kafka
Kafka 是一个分布式的基于发布/订阅模式的消息队列(MQ,Message Queue),主要应用于大数据实时处理领域。
spark内存溢出怎么办
Spark内存溢出(OOM,Out Of Memory)通常指的是在执行任务时,Executor或Driver的内存资源不足以容纳运行中的数据和中间结果,从而导致应用程序崩溃。综上所述,解决Spark内存溢出问题需要综合分析应用场景和具体错误日志,结合上述策略调整资源配置和优化代码实现。
RabbitMQ高频面试题整理
AMQP(Advanced Message Queuing Protocol,高级消息队列协议)是一种用于消息传递的开放标准协议,广泛用于消息队列和消息中间件系统中。RabbitMQ 是 AMQP 协议的一个实现。Broker(代理)消息代理是消息队列服务器,负责接收、存储和转发消息。例如,Rabb
中间件——Kafka
Kafka——生产者、消费者、高可用机制、备份机制、消息可靠性
高效守护:在Eureka中构筑服务的分布式安全防线
通过上述步骤和代码示例,我们展示了如何在Eureka中实现服务的分布式安全策略。这包括服务认证、授权机制的实现,以及数据传输加密等关键安全措施。Eureka作为服务发现框架,在分布式安全体系中发挥着核心作用。在微服务架构中,服务的安全性不容小觑。通过本文的介绍,我们希望能够帮助读者更好地理解和实现E
大数据技术--实验01-Hadoop的安装与使用【实测可行】
使用下面表中的软件版本进行配置:准备好后,按照下面的步骤进行配置。在VMWare主界面,点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目,点击“NAT设置”按钮后可以看到我们的VMWare Workstation为NAT连接的虚拟机设定的默认网关,此处为192.168
Akamai+Noname强强联合 | API安全再加强
最近,Akamai正式完成了对Noname Security的收购。本文我们将向大家介绍,经过本次收购后,Akamai在保护API安全性方面的后续计划和未来愿景。Noname Security是市场上领先的API安全供应商之一,此次收购将让Akamai能更好地满足日益增长的客户需求和市场要求。具体来
hadoop 3.X 分布式HA集成Kerbos(保姆级教程)
前提:先安装Kerbos。
解决RabbitMQ管理页面异常/不正确的问题
而且MQ的服务确实是启动了,后端能正常使用,并且管理界面的登录页面也是能正常登录的,就是登录后的界面内容不对,所以怀疑一下是不是还要配置用户才行,然后跟着网上的教程一通乱搞也没解决。2、用原来的浏览器打开一个正常的已经部署好的RabbitMQ管理页面,能正常访问。换一个浏览器或者升级当前浏览器,更麻
摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建
bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profi
RabbitMQ 高级功能
RabbitMQ 是一个广泛使用的开源消息代理,它支持多种消息传递协议,可以在分布式系统中用于可靠的消息传递。除了基本的消息队列功能外,RabbitMQ 还提供了一些高级功能,增强了其在高可用性、扩展性和灵活性方面的能力。
Spark 中如何去处理数据倾斜
在大数据环境中,使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spa
kafka-Stream详解篇(附案例)
Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。Kafka Stream提供了一个非常简单而轻量的Library,它可以非常方便地嵌入任意Java应用中,也可以任意方式打包和部署除了Kafka外
Zookeeper入门篇,了解ZK存储特点
继上次说完 Zookeeper 的安装后,已经过去半年多了,一直没有后续,本次得空就更新一下入门篇,给同学们介绍一下 Zookeeper ,并着重说一下其存储原理
PySpark(一)Spark原理介绍、PySpark初体验及原理
Apache Spark是用于处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。