大数据 - overfit.cn

Nacos是一个易于构建云原生应用的动态服务发现、配置管理和服务管理平台。服务发现：Nacos支持基于DNS和RPC的服务发现，提供原生SDK、OpenAPI等多种服务注册方式和DNS、HTTP与API等多种服务发现方式。它还支持对服务的实时健康检查，阻止向不健康的主机或服务实例发送请求。动态配置服

overfit同步小助手 2024-01-09 13:03:20 0 收藏

Hadoop YARN CGroup 实践

Hadoop YARN CGroup 生产实践

overfit同步小助手 2024-01-09 12:03:32 0 收藏

Kafka内容分享(七)：Kafka 数据清理和配额限速

Kafka日志管理器中会有一个专门的日志删除任务来定期检测和删除不符合保留条件的日志分段文件，这个周期可以通过broker端参数log.retention.check.interval.ms来配置，默认值为300,000，即5分钟。日志删除任务会检查当前日志的大小是否超过设定的阈值来寻找可删除的日志

overfit同步小助手 2024-01-09 11:03:24 0 收藏

Hadoop-3.3.6完全分布式集群搭建

右击创建好的虚拟机hadoop base，选择管理-克隆-点击下一步-虚拟机中的当前状态-下一步-创建完整克隆-下一步-设置克隆机名称，安装位置-完成。设置静态ip，与主节点ljl的hosts文件保持一致，设置成功重启网络。首先进入hadoop所在配置文件目录/usr/local/src/Hadoo

overfit同步小助手 2024-01-09 10:03:20 0 收藏

Linux离线arm环境安装部署docker详细教程

把这些复制到创建的文件中（注意需要修改insecure-registry=192.168.205.230，ip地址修改为当前机器的地址）通过官网下载docker安装包，找arm环境的安装包，如果是x86环境可以下载对应的安装包。上传成功后解压 tar -xvf docker-24.0.6.tgz。3

overfit同步小助手 2024-01-09 05:03:58 0 收藏

如何在Flink SQL中轻松实现高效数据处理：最佳实践揭秘Protobuf自定义格式

在Flink SQL中，自定义数据格式是一个强大的功能，它允许用户将外部系统中的数据以特定的格式读取到Flink中，并在Flink SQL中进行处理。本文将结合提供的链接内容，探讨如何在Flink SQL中自定义Protobuf格式，并介绍其背后的原理和实现过程。

overfit同步小助手 2024-01-09 05:03:56 0 收藏

re:Invent 2023 | 使用与 Flink CDC 的实时同步，打破数据孤岛

这段视频探讨了如何利用Apache Flink的变更数据捕获（CDC）功能来解决数据孤岛问题并实现实时数据同步。演讲者首先概述了传统数据集成方法所面临的挑战，即采用每日批处理ETL作业的方式。这种方法存在较高的延迟和有限的并行性问题。随后，他解释了一种更优的解决方案，即通过使用CDC技术捕捉数据更改

overfit同步小助手 2024-01-09 05:03:27 0 收藏

【湖仓一体尝试】MYSQL和HIVE数据联合查询

爬了两天大大小小的一堆坑，今天把一个简单的单机环境的流程走通了，记录一笔

overfit同步小助手 2024-01-09 03:03:44 0 收藏

Spark编程实验三：Spark SQL编程

本实验的目的是掌握Spark SQL的基本编程方法，熟悉RDD到DataFrame的转化方法，熟悉利用Spark SQL管理来自不同数据源的数据。

overfit同步小助手 2024-01-09 02:03:45 0 收藏

HIVE笔记

返回两个表中满足关联条件的记录。

overfit同步小助手 2024-01-09 02:03:33 0 收藏

Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】

需要大量使用金融历史数据做量化交易的同学们看过来！使用qteasy量化交易工具包，只需要做简单的配置，就可以用几行代码将网上的大量金融数据统统下载到本地，建立一个本地数据仓库。股票、基金、指数、上市公司信息、财务报表、宏观经济。。。一应俱全！

overfit同步小助手 2024-01-09 00:03:52 0 收藏

算法毕业设计分享基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-01-09 00:03:49 0 收藏

虚拟机安装单机hive以及简单使用hive

hive是我打算了解的有一个大数据方面的一个技术栈，上一篇介绍了Hadoop和hbase，有兴趣的朋友可以点击“文章”浏览，今天要介绍的hive也是要基于hadoop的，安装hive也要提前安装好hadoop。刚了解这块的朋友肯定就会疑问这三者之间的关系是什么呢，从我这段时间对它们的简单了解，我的理

overfit同步小助手 2024-01-09 00:03:45 0 收藏

Hive01_安装部署

利用新媒体平台，彩妆化妆工具市场如何挖掘潜在客户

数据仓库BW与大数据平台，到底如何取舍？

数据仓库-数据治理小厂实践

spark与scala的对应版本查看

rabbitMQ引入死信队列

Flink实时电商数仓（九）

Nacos与Eureka的区别