大数据 - overfit.cn

Flink CDC系列之：调研应用Flink CDC将 ELT 从 MySQL 流式传输到 StarRocks方案

本教程将展示如何使用 Flink CDC 快速构建从 MySQL 到 StarRocks 的 Streaming ELT 作业，包括同步一个数据库的所有表、模式变更演变和将分片表同步到一张表的功能。本教程中的所有练习都在 Flink CDC CLI 中执行，整个过程使用标准 SQL 语法，无需一行

overfit同步小助手 2024-11-19 02:03:43 0 收藏

从 Hadoop 迁移到数据 Lakehouse 的架构师指南

从 Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域，但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反，越来越多

overfit同步小助手 2024-11-19 02:03:08 0 收藏

大数据-223 离线数仓 - 数仓概念篇业务分析数据埋点指标体系维度拆解

类似某东、某宝、某猫，电商网站采用商家入驻的方式，商家入驻平台提交申请。网站前台，网站首页、商家首页、商品详情页、搜索页、会员中心、订单与支付相关、秒杀频道运营商后台，运营人员的管理平台，主要功能包括：商家审核、品牌管理、规格管理、模板管理、商品分类管理、商品审核、广告类型管理、广告管理、订单查询、

overfit同步小助手 2024-11-18 22:03:28 0 收藏

FLINK SQL UDF

在Flink SQL中，UDF（User-Defined Function，用户自定义函数）是一种扩展Flink SQL处理能力的机制。通过UDF，用户可以编写自定义的Java或Scala代码，以处理Flink SQL无法直接支持的数据处理逻辑。

overfit同步小助手 2024-11-18 21:04:32 0 收藏

RabbitMQ 总结常见问题

1. 连接问题无法建立与 RabbitMQ 服务器的连接：网络故障：可能存在网络中断、网络延迟过高或网络配置错误等情况，导致客户端无法与服务器进行有效的通信。服务器地址错误：如果指定的 RabbitMQ 服务器地址不正确，包括 IP 地址、域名或端口号错误，连接将无法成功建立。端口被占用

overfit同步小助手 2024-11-18 21:04:07 0 收藏

Kafka 源码 KRaft 模式本地运行

通过使用 Raft 协议直接在 Kafka 内部管理元数据，旨在消除对 ZooKeeper 的依赖，从而简化架构，提高性能和可靠性。特点和优势如下：- 简化架构：没有了 ZooKeeper，Kafka 集群的部署和管理变得更简单。- 提高性能：去除了与 ZooKeeper 的交互，减少了延迟，提高了

overfit同步小助手 2024-11-18 20:03:50 0 收藏

Spring Cloud Eureka 服务注册与发现

Eureka Server ：服务注册中心，主要用于提供服务注册功能。当微服务启动时，会将自己的服务注册到 Eureka Server。Eureka Server 维护了一个可用服务列表，存储了所有注册到 Eureka Server 的可用服务的信息，这些可用服务可以在 Eureka Server

overfit同步小助手 2024-11-18 20:03:38 0 收藏

hive4.0.0部署以及与MySQL8.4连接

在开始之前，需要在主机上准备好MySQL数据库，并且已经完成了hdfs和yarn的部署。

overfit同步小助手 2024-11-18 20:03:30 0 收藏

租房新时代：Django+Hadoop+Scrapy可视化推荐系统

租房新时代：Django+Hadoop+Scrapy可视化推荐系统【下载地址】DjangoHadoopScrapy租房可视化推荐系统源码分享本仓库提供了一个基于Django、Hadoop和Scrapy的租房可视化推荐系统源码。该

overfit同步小助手 2024-11-18 19:03:52 0 收藏

大数据回归分析

回归分析是一种统计学方法，主要用于探究变量间的相互关系。它旨在揭示一个或多个自变量（独立变量）如何影响因变量（依赖变量）的变化。通过构建回归模型，我们可以描述数据间的内在联系，并预测因变量的未来值。该方法基于数理统计原理，通过对大量数据进行数学处理，确定因变量与某些自变量的相关性，建立回归方程，并用

overfit同步小助手 2024-11-18 19:03:46 0 收藏

基于大数据+爬虫技术+数据可视化的国漫推荐系统设计和实现(源码+论文+部署讲解等)

国漫推荐系统是一款专为中国动漫爱好者设计的个性化推荐系统，旨在提供精准的内容推荐，满足用户多样化的观看需求。该系统通过分析用户的视频分类、国漫视频、视频信息、漫画信息、投票信息等数据，利用机器学习和数据挖掘技术构建用户画像和内容标签体系。结合实时更新的国漫资源库，系统能够为用户推荐最新、最热、最符合

overfit同步小助手 2024-11-18 18:03:52 0 收藏

单机部署hadoop&单机上的伪多机部署&基于docker的模拟多机部署

书写规则时，需要显式指定datanode, 以2个datanode的方式为例,需要写4配置项:(not recommend): 设置Application Master的环境变量，指定Hadoop MapReduce的安装路径。: 设置NodeManager上运行的辅助服务，这里是MapRed

overfit同步小助手 2024-11-18 18:03:44 0 收藏

Hadoop的安装

由于Hadoop不直接支持Windows系统，因此，需要修改一些配置才能运行。进到目录：E:\hadoop-3.4.0\etc\hadoop。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉。PS：此文件中已有标签，可以直接覆盖掉

overfit同步小助手 2024-11-18 18:03:25 0 收藏

【环境搭建】Apache ZooKeeper 3.8.4 Stable

Apache ZooKeeper 3.8.4 Stable的环境搭建记录

overfit同步小助手 2024-11-18 17:03:46 0 收藏

（计算机毕设选题推荐）基于python爬虫对大数据招聘岗位的分析与研究

摘要随着互联网技术的迅猛发展，大数据已成为企业核心竞争力的关键要素之一，大数据相关岗位的需求也随之激增。为了深入理解当前大数据招聘市场的现状、趋势及岗位需求特点，本文利用Python爬虫技术，从主流招聘网站中爬取了大量大数据相关岗位的招聘信息。通过对这些数据进行清洗、处理和分析，本文揭示了大数据岗位

overfit同步小助手 2024-11-18 16:03:58 0 收藏

最全Kafka知识宝典之生产者深度剖析

我们有以下需求，根据key进行分区，如果为空或者不以数字结尾则分配到0分区，否则，拿结尾的数字与分区数求余/*** 自定义分区：根据key进行分区，如果为空或者不以数字结尾则分配到0分区，否则，拿结尾的数字与分区数求余*/@Override@Overridereturn 0;n = n < 0?re

overfit同步小助手 2024-11-18 16:03:47 0 收藏

基于Hadoop的天气预报数据爬取与可视化分析系统

基于 Hadoop 的天气预报数据爬取与可视化分析系统是一款强大的气象信息处理工具。它充分利用 Hadoop 的分布式存储和计算能力，能够高效地处理海量的气象数据。该系统首先具备强大的数据爬取功能，通过网络爬虫技术从各种权威气象数据源获取实时和历史的天气预报数据，包括气温、湿度、气压、风力、降水等多

overfit同步小助手 2024-11-18 15:04:06 0 收藏

大数据-226 离线数仓 - Flume 优化配置自定义拦截器拦截原理拦截器实现 Java

前面FlumeAgent的配置使用了本地时间，可能导致数据存放的路径不正确。要解决上面的问题就需要使用自定义拦截器。Agent用于测试自定义拦截器，source => logger sink# a1是agent的名称。source、channel、sink的名称分别为：r1 c1 k1# sourc

overfit同步小助手 2024-11-18 14:03:17 0 收藏

Spark 程序开发与提交：本地与集群模式全解析

本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程，以及使用 spark - submit 脚本在集群模式下提交程序的相关知识，包括参数配置、运行模式等内容。

overfit同步小助手 2024-11-18 11:03:57 0 收藏

python基于Spark的温布尔登特色赛赛事数据分析预测及算法

Django-Admin来自django.contrib也就是Django的标准库，默认被配置好，只需要激活启用即可，它的优势在于可以快速对数据库的各个表进行增删改查，一行代码即可管理一张数据库表，相比于手动后台1个模型一般需要4个urls，4个视图函数和4个模板，可以说Django完成了一个程序编

overfit同步小助手 2024-11-18 11:03:29 0 收藏