大数据 - overfit.cn

三台CentOS7.6虚拟机搭建Hadoop完全分布式集群（二）

这个是笔者大学时期的大数据课程使用三台CentOS7.6虚拟机搭建完全分布式集群的案例，已成功搭建完全分布式集群，并测试跑实例。

overfit同步小助手 2024-02-04 01:03:43 0 收藏

storm统计服务开启zookeeper、kafka 、Storm（sasl认证）

启动拓扑图时需要指定stormStatics.jar 包，如果使用新storm安装包没有，请自行找测试部要stormStatics.jar包。zookeeper设置用户密码，并设置连接zookeeper白名单。单独配置zookeeper 支持acl 设置用户和密码，在storm不修改代码情况下和ka

overfit同步小助手 2024-02-04 01:03:20 0 收藏

分布式事务Seata实战-AT模式（注册中心为Eureka）

大致记录Seata的AT模式下创建项目过程中需要注意的点和可能遇到的问题。本项目是以官网的给的示例（即下图）进行创建的，以Eureka为注册中心。

overfit同步小助手 2024-02-04 01:03:15 0 收藏

大数据Doris（五十一）：Colocation Join介绍

Colocation Join 功能，是将一组拥有相同 CGS 的 Table 组成一个 CG。并保证这些 Table 对应的数据分片会落在同一个 BE 节点上。使得当 CG 内的表进行分桶列上的 Join 操作时，可以通过直接进行本地数据 Join，减少数据在节点间的传输耗时。

overfit同步小助手 2024-02-04 00:03:43 0 收藏

横扫Spark之 - RDD（Resilient Distributed Dataset）弹性分布式数据集

Spark中最基本的数据抽象 - RDD，既然叫弹性分布式数据集，那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义

overfit同步小助手 2024-02-03 23:03:49 0 收藏

Hadoop时代落幕，谁是大数据时代新宠？

这些年围绕Hadoop已经构建起来一个完整的生态，即使企业没有用Hadoop，但Hadoop的很多技术理念，比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计，以及开放的数据标准和开源技术，早就超越了十几年前的HDFS、MapReduce 的范畴，在更多新兴技术中体现。唱衰Had

overfit同步小助手 2024-02-03 23:03:34 0 收藏

kafka开启SSL认证（包括内置zookeeper开启SSL）

zookeeper和kafka的SSL开启都可独立进行。

overfit同步小助手 2024-02-03 21:03:16 0 收藏

Spring 集成Artemis & Spring 集成RabbitMQ & Spring 集成Kafka

在Spring框架中集成Apache ActiveMQ Artemis可以帮助你实现基于消息的应用程序。Apache ActiveMQ Artemis是一个高性能、异步非阻塞的消息中间件。pom.xml

overfit同步小助手 2024-02-03 20:03:34 0 收藏

Flink的MySQL集成与应用

1.背景介绍在大数据时代，数据处理和分析的需求日益增长。为了更高效地处理和分析大量数据，许多大数据处理框架和工具已经诞生。Apache Flink是一种流处理框架，它可以处理实时数据流，并提供了一系列高效的数据处理和分析功能。MySQL是一种关系型数据库管理系统，它广泛应用于各种业务场景中。在某些情

overfit同步小助手 2024-02-03 19:03:53 0 收藏

记一次Flink通过Kafka写入MySQL的过程

这个方法是测试成功了，但是跑了一会儿就出现数据的积压和内存oom了，因为我设定的是1毫秒生产一条数据，写入kafka也需要一定的时间，加上电脑内存不足，有点卡，这个方案也被pass了。总体思路：source -->transform -->sink ,即从source获取相应的数据来源，然后进行数据

overfit同步小助手 2024-02-03 19:03:39 0 收藏

大数据相关软件的安装指南（超详细的图文教程）

大数据相关软件的安装指南

overfit同步小助手 2024-02-03 18:03:26 0 收藏

Pyspark

Standalone 模式：Standalone模式是Spark自带的独立部署模式，它是一种简单的分布式模式，支持在独立的集群上运行Spark应用程序。它是Spark 2.0及以上版本中引入的概念，取代了之前版本中的SparkContext和SQLContext，并将它们的功能整合在一个统一的接口中

overfit同步小助手 2024-02-03 17:03:30 0 收藏

大数据毕设分享 B站大数据分析可视化(源码+论文)

# 0 简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享 B站大数据分析可视化(源码+论文)项目获取：https://gitee.com/sinonfin/algorithm-sharing目前视频行业可以分为爱优腾为代表的长视频赛道，快手抖音为代表的短视频赛道，以及B站，B站的视频内容十分的丰

overfit同步小助手 2024-02-03 16:03:54 0 收藏

大数据Doris（十八）：演示单分区和复合分区

上述表通过设置 replication_num 建的都是单副本的表，Doris建议用户采用默认的 3 副本设置，以保证高可用。可以对 Table 增加上卷表（Rollup）以提高查询性能，这部分可以参见高级使用指南关于 Rollup 的描述。将 table1_data 导入 table1 中：vim

overfit同步小助手 2024-02-03 16:03:39 0 收藏

相比于其他流处理技术，Flink的优点在哪？

Apache Flink 是一个开源的流处理框架，用于在高吞吐量和低延迟的情况下进行大规模数据流的处理。Flink 以其在流处理领域的性能而闻名，相比于其他流处理技术，Flink 提供了一些独特的特性和优化，使其在某些情况下更快。

overfit同步小助手 2024-02-03 16:03:28 0 收藏

使用pyspark远程连接mysql（anaconda）

在学习《spark编程基础 python版》第5.7章 spark SQL时遇到的问题。因为这本书全程都是在linux上搞，搞得我实在难受，然后我看黑马那一套可以配置远程解释器，所以我尝试使用Windows下Pycharm配置远程anaconda解释器（anaconda在linux上），然后使用py

overfit同步小助手 2024-02-03 14:03:24 0 收藏

Kafka（四）【Kafka 消费者】

Kafka 消费者

overfit同步小助手 2024-02-03 13:03:53 0 收藏

【2023】通过docker安装hadoop以及常见报错

准备安装的环境，最好是cenos的环境，相对问题会少一些，我因为是mac的内存比较珍贵，所以嫌麻烦就没安装虚拟机，所以问题非常多（所以还是不要嫌麻烦最好），就使用的是mac。的，该镜像除了hadoop还需要有jdk，所以需要先把jdk的包先准备好，因为要用到hive，我把hive的包也内嵌进去了，所

overfit同步小助手 2024-02-03 12:03:46 0 收藏

Eureka和zookeeper的区别

前言最近在面试的时候，被问到了这个问题，作答的不是很好，在此进行整理和学习，希望能够帮助大家。CAP理论在了解eureka和zookeeper区别之前，我们先来了解一下这个知识，cap理论。 1998年的加州大学的计算机科学家 Eric Brewer 提出，分布式有三个指标。Consistency，

overfit同步小助手 2024-02-03 11:03:21 0 收藏

Flink CDC-MySQL CDC配置及DataStream API实现代码...可实现监控采集多个数据库的多个表

Flink CDC-MySQL CDC配置及DataStream API实现代码, 可实现监控采集多个数据库的多个表

overfit同步小助手 2024-02-03 10:03:41 0 收藏