三台CentOS7.6虚拟机搭建Hadoop完全分布式集群(二)
这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例,已成功搭建完全分布式集群,并测试跑实例。
storm统计服务开启zookeeper、kafka 、Storm(sasl认证)
启动拓扑图时需要指定stormStatics.jar 包,如果使用新storm安装包没有,请自行找测试部要stormStatics.jar包。zookeeper设置用户密码,并设置连接zookeeper白名单。单独配置zookeeper 支持acl 设置用户和密码,在storm不修改代码情况下和ka
分布式事务Seata实战-AT模式(注册中心为Eureka)
大致记录Seata的AT模式下创建项目过程中需要注意的点和可能遇到的问题。本项目是以官网的给的示例(即下图)进行创建的,以Eureka为注册中心。
大数据Doris(五十一):Colocation Join介绍
Colocation Join 功能,是将一组拥有相同 CGS 的 Table 组成一个 CG。并保证这些 Table 对应的数据分片会落在同一个 BE 节点上。使得当 CG 内的表进行分桶列上的 Join 操作时,可以通过直接进行本地数据 Join,减少数据在节点间的传输耗时。
横扫Spark之 - RDD(Resilient Distributed Dataset)弹性分布式数据集
Spark中最基本的数据抽象 - RDD,既然叫弹性分布式数据集,那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义
Hadoop时代落幕,谁是大数据时代新宠?
这些年围绕Hadoop已经构建起来一个完整的生态,即使企业没有用Hadoop,但Hadoop的很多技术理念,比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计,以及开放的数据标准和开源技术,早就超越了十几年前的HDFS、MapReduce 的范畴,在更多新兴技术中体现。唱衰Had
kafka开启SSL认证(包括内置zookeeper开启SSL)
zookeeper和kafka的SSL开启都可独立进行。
Spring 集成Artemis & Spring 集成RabbitMQ & Spring 集成Kafka
在Spring框架中集成Apache ActiveMQ Artemis可以帮助你实现基于消息的应用程序。Apache ActiveMQ Artemis是一个高性能、异步非阻塞的消息中间件。pom.xml
Flink的MySQL集成与应用
1.背景介绍在大数据时代,数据处理和分析的需求日益增长。为了更高效地处理和分析大量数据,许多大数据处理框架和工具已经诞生。Apache Flink是一种流处理框架,它可以处理实时数据流,并提供了一系列高效的数据处理和分析功能。MySQL是一种关系型数据库管理系统,它广泛应用于各种业务场景中。在某些情
记一次Flink通过Kafka写入MySQL的过程
这个方法是测试成功了,但是跑了一会儿就出现数据的积压和内存oom了,因为我设定的是1毫秒生产一条数据,写入kafka也需要一定的时间,加上电脑内存不足,有点卡,这个方案也被pass了。总体思路:source -->transform -->sink ,即从source获取相应的数据来源,然后进行数据
大数据相关软件的安装指南(超详细的图文教程)
大数据相关软件的安装指南
Pyspark
Standalone 模式:Standalone模式是Spark自带的独立部署模式,它是一种简单的分布式模式,支持在独立的集群上运行Spark应用程序。它是Spark 2.0及以上版本中引入的概念,取代了之前版本中的SparkContext和SQLContext,并将它们的功能整合在一个统一的接口中
大数据毕设分享 B站大数据分析可视化(源码+论文)
# 0 简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享 B站大数据分析可视化(源码+论文)项目获取:https://gitee.com/sinonfin/algorithm-sharing目前视频行业可以分为爱优腾为代表的长视频赛道,快手抖音为代表的短视频赛道,以及B站,B站的视频内容十分的丰
大数据Doris(十八):演示单分区和复合分区
上述表通过设置 replication_num 建的都是单副本的表,Doris建议用户采用默认的 3 副本设置,以保证高可用。可以对 Table 增加上卷表(Rollup)以提高查询性能,这部分可以参见高级使用指南关于 Rollup 的描述。将 table1_data 导入 table1 中:vim
相比于其他流处理技术,Flink的优点在哪?
Apache Flink 是一个开源的流处理框架,用于在高吞吐量和低延迟的情况下进行大规模数据流的处理。Flink 以其在流处理领域的性能而闻名,相比于其他流处理技术,Flink 提供了一些独特的特性和优化,使其在某些情况下更快。
使用pyspark远程连接mysql(anaconda)
在学习《spark编程基础 python版》第5.7章 spark SQL时遇到的问题。因为这本书全程都是在linux上搞,搞得我实在难受,然后我看黑马那一套可以配置远程解释器,所以我尝试使用Windows下Pycharm配置远程anaconda解释器(anaconda在linux上),然后使用py
Kafka(四)【Kafka 消费者】
Kafka 消费者
【2023】通过docker安装hadoop以及常见报错
准备安装的环境,最好是cenos的环境,相对问题会少一些,我因为是mac的内存比较珍贵,所以嫌麻烦就没安装虚拟机,所以问题非常多(所以还是不要嫌麻烦最好),就使用的是mac。的,该镜像除了hadoop还需要有jdk,所以需要先把jdk的包先准备好,因为要用到hive,我把hive的包也内嵌进去了,所
Eureka和zookeeper的区别
前言最近在面试的时候,被问到了这个问题,作答的不是很好,在此进行整理和学习,希望能够帮助大家。CAP理论在了解eureka和zookeeper区别之前,我们先来了解一下这个知识,cap理论。 1998年的加州大学的计算机科学家 Eric Brewer 提出,分布式有三个指标。Consistency,
Flink CDC-MySQL CDC配置及DataStream API实现代码...可实现监控采集多个数据库的多个表
Flink CDC-MySQL CDC配置及DataStream API实现代码, 可实现监控采集多个数据库的多个表