大数据 - overfit.cn

hive alter table add columns 是否使用 cascade 的方案

时加上 cascade 时，会把所有的分区都加上此字段。如果不加则只有新的分区会加上此字段，旧的分区没有此字段，即便数据文件里有对应的数据，也不能显示内容。注：判断表是否是外部表，使用 ‘show create table xxx’, 如果生成的是 ‘CREATE TABLE’ 是内部表，如果是是外

overfit同步小助手 2024-12-05 00:03:49 0 收藏

SparkStraming

SparkStraming 3.0.0【Spark Version:3.0.0】【Scala Version:2.12】第 1 章 SparkStreaming 概述1.1 Spark Streaming 是什么Spark Streaming 用于流式数据的处理。Spark Streaming 支持

overfit同步小助手 2024-12-05 00:03:46 0 收藏

Prometheus添加kafka监控并配置grafana

最近工作中越来越感受到监控对于查找问题的重要性，一个完备的链路监控对问题定位和趋势分析提效非常高。比如一条实时数据流，从数据采集到消费到入库各个阶段都有一些可观测性的指标（binlog 采集延迟，kafka-lag，读写 QPS，max-request-size，offset 趋势）。如果 kafk

overfit同步小助手 2024-12-05 00:03:33 0 收藏

flink sql同步mysql数据表到mysql

访问 192.168.207.193:8081 （默认是8081端口可在配置文件里修改）数据库先创建一个库,在库里创建表再添加数据。圈起来的部分为后面数据库登陆的初始密码。进入flink的lib目录上传三个依赖。执行从源表插入结果表操作，生成同步作业。原本是localhost修改为ip。查看是否同

overfit同步小助手 2024-12-04 23:03:25 0 收藏

微服务与Kafka集成项目常见问题解决方案

微服务与Kafka集成项目常见问题解决方案 microservice-kafka Demo to show how Apache Kafka can be used for communication between microse

overfit同步小助手 2024-12-04 22:03:31 0 收藏

信息差的商业客户体验卓越化：大数据如何打造卓越客户体验

大数据，客户体验，信息差，商业模式，人工智能，机器学习，个性化推荐，精准营销1. 背景介绍在当今数字化时代，客户体验已成为企业竞争的核心要素。消费者拥有了更多的选择权和信息获取渠道，对产品和服务的期望也越来越高。企业需要不断提升客户体验，才能在激烈的市场竞争中脱颖而出。

overfit同步小助手 2024-12-04 21:03:39 0 收藏

hadoop_hdfs-site.xml配置实例

hadoop3.2.3的高可用集群hdfs-site.xml配置实例。

overfit同步小助手 2024-12-04 21:03:31 0 收藏

大数据-238 离线数仓 - 广告业务点击次数 ADS层、广告效果分析 ADS 层需求分析与加载

漏斗分析（Funnel Analysis）是一种常用于大数据分析的技术，广泛应用于产品、用户行为分析、营销效果评估等领域。漏斗分析的核心概念是通过定义一系列的步骤或阶段，跟踪用户或客户在每个阶段的流失情况，从而帮助分析问题所在并优化转化率。

overfit同步小助手 2024-12-04 21:03:24 0 收藏

消息队列(RocketMQ和Kafka)

消费者的处理速度跟不上生产者的发送速度，或者消费者出现故障。在消费时需要做幂等性校验，防止重复消费。

overfit同步小助手 2024-12-04 20:03:44 0 收藏

hbase mongodb hive starrocks比较

本文是在学习大数据的几个数据存储系统相关的组件所记录下来的，主要是不同组件的基础概念初步了解与对比。

overfit同步小助手 2024-12-04 19:03:44 0 收藏

基于Hadoop的个性化图书推荐系统（爬虫 + 数据可视化大屏）

💛博主介绍：大家好，我是码趣猪仔，一名拥有4年码龄的全栈程序员，也是一位计算机老学长。在这个数字时代，我致力于成为大学生毕业程序和实践项目的灯塔，提供开发、指导和咨询服务。同时，我也为高校教师、讲师以及行业同仁提供合作机会，共同推动计算机教育的发展🎉，我的目标是让技术学习变得更高效、更有趣。欢迎

overfit同步小助手 2024-12-04 18:03:28 0 收藏

毕业设计项目大数据共享单车数据分析与可视化(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的共享单车数据分析与可视化🥇学

overfit同步小助手 2024-12-04 16:08:53 0 收藏

大数据技术之SparkCore

RDD概述什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD五大特性RDD编程RDD的创建在Spark中创建RDD的创建方式可以

overfit同步小助手 2024-12-04 16:07:40 0 收藏

【大数据分析】从零开始揭秘大数据的奥秘 | 第一步全面入门

在信息爆炸的时代，数据无处不在。大数据分析作为一项改变世界的技术，正在推动商业、科技乃至社会的深刻变革。本篇文章将带你从零开始了解大数据分析，揭开其核心概念、生态系统、关键角色以及实际应用的神秘面纱。如果你对大数据感兴趣，这将是你的最佳入门指南！大数据（Big Data）并不仅仅是指数据规模庞大，而

overfit同步小助手 2024-12-04 15:03:41 0 收藏

【SpringCloud】Kafka消息中间件

Kafka 是一个分布式流媒体平台,类似于消息队列或企业消息传递系统。producer相当于生产者，consumer相当于消费者。Kafka Cluster相当于快递驿站，broker1、broker2相当于1，2号快递员，topic为它们的要派送的快递；producer：发布消息的对象称之为主题生

overfit同步小助手 2024-12-04 14:06:21 0 收藏

Hadoop生态圈框架部署（五）- Zookeeper完全分布式部署

介绍在虚拟机hadoop1、hadoop2和hadoop3部署完全分布式Zookeeper配置zookeeper配置文件配置zookeeper环境变量启动zookeeper及查看zookeeper集群状态提供shell脚本自动化安装zookeeper完全分布式。

overfit同步小助手 2024-12-04 14:06:00 0 收藏

再谈Java类型擦除与其对Flink类型和序列化的影响

前言本文前半部分的内容在很久之前讲过，但是最近又有交接到团队内的历史任务出现这方面导致的性能问题，故有必要再讲一次，并扩展一部分新内容。先通过两个例子来引入Java类型擦除。Java类型擦除的表现例一这段代码无法通过编译，提示两个方法签名冲突，因为擦除类型相同。如果去掉其中一个方法，反编译之后的代码

overfit同步小助手 2024-12-04 13:03:47 0 收藏

AI大模型时代下运维开发探索第二篇：基于大模型(LLM)的数据仓库

在SREWorks社区聚集了很多进行运维数仓建设的同学，大家都会遇到类似的挑战和问题：上面的种种让推广数仓的同学很犯难：明明花了大力气构建了统一数仓，但却又受限于各种问题，无法让其价值得到完全的落地。本文旨在阐述一种基于LLM的数仓构建方案，从架构层面解决上述的三个问题。从需求出发，再次思考一下我们

overfit同步小助手 2024-12-04 12:04:07 0 收藏

【spark的集群模式搭建】spark集群之Yarn集群模式搭建（清晰明了的搭建流程）

spark的集群模式搭建：spark集群之Yarn集群模式搭建流程

overfit同步小助手 2024-12-04 12:03:46 0 收藏

大数据新视界 -- Hive 与其他大数据工具的集成：协同作战的优势（下）（14/ 30）

本文承接上期，深入探讨 Hive 与其他大数据工具集成，剖析集成模式，分享高级技巧与优化策略，展望未来趋势，含案例、数据，具实操与参考价值，设互动并预告下期。

overfit同步小助手 2024-12-04 12:03:36 0 收藏