大数据 - overfit.cn

Spark内容分享(二十六)：Hive SQL 迁移 Spark SQL 在网易传媒的实践

回顾整个方案的设计过程，实际上没有太多选择的余地，在没法在spark引擎层做兼容的前提，和以脚本提交任务的现状下，只能选择基于git版本管理的自动化迁移流程。方案能这么顺利实施，主要因为任务代码是以脚本的形式存在，这样我们可以很方便的用各种程序处理脚本源代码，避免了大量重复性的工作，特别是用git进

overfit同步小助手 2024-01-09 22:03:47 0 收藏

毕业设计：python全国天气气象数据爬取分析可视化系统+大屏+大数据（源码+文档）

overfit同步小助手 2024-01-09 20:03:42 0 收藏

【Flink 从入门到成神系列一】算子

鲁迅先生曾说：独行难，众行易，和志同道合的人一起进步。彼此毫无保留的分享经验，才是对抗互联网寒冬的最佳选择。其实很多时候，并不是我们不够努力，很可能就是自己努力的方向不对，如果有一个人能稍微指点你一下，你真的可能会少走几年弯路。如果你也对后端架构和中间件源码，一起学习，一起成长我是爱敲代码的小黄，阿

overfit同步小助手 2024-01-09 18:03:35 0 收藏

大数据编程期末大作业2023

本篇文章讲解Spark编程基础这门课程的期末大作业，主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。

overfit同步小助手 2024-01-09 18:03:31 0 收藏

Nacos vs. Eureka：微服务注册中心的对比

欢迎来到本篇博客，今天我们将深入研究两个常用的微服务注册中心：Nacos 和 Eureka。微服务架构的兴起使得服务注册中心成为整个体系中不可或缺的一部分，而选择一个适合自己项目的注册中心显得尤为重要。通过本文的对比，我们详细了解了 Nacos 和 Eureka 这两个微服务注册中心的特性和优劣。在

overfit同步小助手 2024-01-09 18:03:14 0 收藏

kafka伪分布式搭建与命令测试

下载自己需要的版本即可，以下以3.6.1版本为例。

overfit同步小助手 2024-01-09 18:03:08 0 收藏

Hive01_安装部署

上传mysql jdbc驱动到hive安装包lib下。在hdfs创建hive存储目录（如存在则不用操作）解决Hive与Hadoop之间guava版本差异。

overfit同步小助手 2024-01-09 16:03:17 0 收藏

利用新媒体平台，彩妆化妆工具市场如何挖掘潜在客户

新媒体平台可以为企业提供一个良好的线上营销平台。企业可以利用新媒体平台展示自己的产品，向消费者展示产品特点，增加消费者对产品的兴趣，更好地推广产品。

overfit同步小助手 2024-01-09 15:03:48 0 收藏

数据仓库BW与大数据平台，到底如何取舍？

刷到这篇文章的同学，对这个问题有困惑，看看我说清楚了没有。

overfit同步小助手 2024-01-09 15:03:37 0 收藏

数据仓库-数据治理小厂实践

数据治理贯穿数仓中数据的整个生命周期，从数据的产生、加载、清洗、计算，再到数据展示、应用，每个阶段都需要对数据进行治理，像有些比较大的企业都是有自己的数据治理平台或者会开发一些便捷的平台，对于没有平台的公司，这里根据自己的亲身实践简单整理一下。

overfit同步小助手 2024-01-09 15:03:22 0 收藏

spark与scala的对应版本查看

https://mvnrepository.com/artifact/org.apache.spark/spark-core总结

overfit同步小助手 2024-01-09 15:03:11 0 收藏

rabbitMQ引入死信队列

指的是，从队列当中取出来的消息，到达消费方后，因为某些原因导致消息并没有被正常消费掉，这些没有被后续处理的消息就是“死信”，而保存死信的队列，就是死信队列。

overfit同步小助手 2024-01-09 14:03:32 0 收藏

Flink实时电商数仓（九）

gitee仓库地址：(https://gitee.com/langpaian/gmall2023-realtime)统计各窗口加购独立用户数，写入Doris。

overfit同步小助手 2024-01-09 13:03:55 0 收藏

Nacos与Eureka的区别

Nacos是一个易于构建云原生应用的动态服务发现、配置管理和服务管理平台。服务发现：Nacos支持基于DNS和RPC的服务发现，提供原生SDK、OpenAPI等多种服务注册方式和DNS、HTTP与API等多种服务发现方式。它还支持对服务的实时健康检查，阻止向不健康的主机或服务实例发送请求。动态配置服

overfit同步小助手 2024-01-09 13:03:20 0 收藏

Hadoop YARN CGroup 实践

Hadoop YARN CGroup 生产实践

overfit同步小助手 2024-01-09 12:03:32 0 收藏

Kafka内容分享(七)：Kafka 数据清理和配额限速

Kafka日志管理器中会有一个专门的日志删除任务来定期检测和删除不符合保留条件的日志分段文件，这个周期可以通过broker端参数log.retention.check.interval.ms来配置，默认值为300,000，即5分钟。日志删除任务会检查当前日志的大小是否超过设定的阈值来寻找可删除的日志

overfit同步小助手 2024-01-09 11:03:24 0 收藏

Hadoop-3.3.6完全分布式集群搭建

右击创建好的虚拟机hadoop base，选择管理-克隆-点击下一步-虚拟机中的当前状态-下一步-创建完整克隆-下一步-设置克隆机名称，安装位置-完成。设置静态ip，与主节点ljl的hosts文件保持一致，设置成功重启网络。首先进入hadoop所在配置文件目录/usr/local/src/Hadoo

overfit同步小助手 2024-01-09 10:03:20 0 收藏

Linux离线arm环境安装部署docker详细教程

把这些复制到创建的文件中（注意需要修改insecure-registry=192.168.205.230，ip地址修改为当前机器的地址）通过官网下载docker安装包，找arm环境的安装包，如果是x86环境可以下载对应的安装包。上传成功后解压 tar -xvf docker-24.0.6.tgz。3

overfit同步小助手 2024-01-09 05:03:58 0 收藏

如何在Flink SQL中轻松实现高效数据处理：最佳实践揭秘Protobuf自定义格式

在Flink SQL中，自定义数据格式是一个强大的功能，它允许用户将外部系统中的数据以特定的格式读取到Flink中，并在Flink SQL中进行处理。本文将结合提供的链接内容，探讨如何在Flink SQL中自定义Protobuf格式，并介绍其背后的原理和实现过程。

overfit同步小助手 2024-01-09 05:03:56 0 收藏

re:Invent 2023 | 使用与 Flink CDC 的实时同步，打破数据孤岛

这段视频探讨了如何利用Apache Flink的变更数据捕获（CDC）功能来解决数据孤岛问题并实现实时数据同步。演讲者首先概述了传统数据集成方法所面临的挑战，即采用每日批处理ETL作业的方式。这种方法存在较高的延迟和有限的并行性问题。随后，他解释了一种更优的解决方案，即通过使用CDC技术捕捉数据更改

overfit同步小助手 2024-01-09 05:03:27 0 收藏